У минулій статті ми розглядали програми для парсинга сайтів. Більш докладно про парсинг сайтів: що це таке і для чого потрібно, можете прочитати тут.
Як не дивно, але інтерес до парсингу сайтів останнім часом дуже велік.Оно й не дивно-не кожен здатний ручками набирати нещасливий текст, правильно оформляти його і доносити до читача.
У цій статті ми продовжимо розглядати програми для парсинга сайтів, які є актуальними.
UniParse - безкоштовний швидкий парсер контенту і url з можливістю налаштування фільтрації.
можливості:- тексти з сайтів
- налаштовується парсинг з будь-якого сайту без сміття
- парсит url сторінок.
При використанні врахуйте, парсер url може викликати відповідну реакцію вашого хостинг-провайдера і він може заблокувати ваш IP.
Налаштування парсеру контенту Uni Parse
Приклад налаштувань для парсера контенту Uni Parse
Модифікатор [-cleantext] говорить парсеру контенту про те, що з отриманого шматка треба видалити все форматування тексту і все сміття.
WP UniParser 3.0 - це універсальний парсер. який вміє аналізувати довільні контент з сайтів на абсолютно будь-яких CMS!
WP UniParser 3.0 відрізняється простотою установки і настройки. Парсер встановлюється як звичайний WordPress плагін. Щоб Спарс контент з будь-якого сайту, вам потрібно всього лише вказати кордону блоку контенту, а також налаштувати правила обходу «жертви».
Варто також згадати про можливості WP UniParser 3.0 планувати публікацію постів. Таким чином, ви можете за один раз Напарс величезна кількість записів, які будуть поступово публікуватися на вашому блозі протягом тривалого періоду часу.
Ну і наостанок - функція автопереводов контенту через сервіс Google Translate. Вона дозволяє користувачеві вказати мову, на який необхідно перевести спарсенний контент перед додаванням на блог. За замовчуванням в плагіні представлені найпопулярніші мови (російська, англійська, німецька, французька, українська та ін.), Але якщо потрібно, розробник на прохання покупця може додати будь-яку мову, присутній в Google Translate.
Великим плюсом продукту є наявність добре опрацьованого FAQ. З ним буде корисно ознайомитися всім майбутнім покупцям.
ЯК НАЛАШТУВАТИ плагін WP UNIPARSER В АВТОНАПОЛНЯЕМОМ блозі на WORDPRESS
Отже, заходимо в адмінку свого блогу, далі Параметри (Settings). далі WPUniParser.
Встановлюємо всі налаштування відповідно до наведених нижче:
Задайте URLи, з яких парсити контент (кожен з нового рядка)
//kolchaka.net/
Вибір мови з якого переводити
Русский
Вибір мови на який переводити
English
Задавати питання про продовження парсинга
ВІДЗНАЧЕНА
Зберігати малюнки на свій сервер (уповільнює роботу парсеру)
ЗНЯТО
Максимальний розмір папки uploads (КБ)
Будь-яке число (якщо малюнки на свій сервер не зберігаються, даний параметр не актуальний)
Виводити логи всіх помилок (критичні виводяться завжди) і обробки (не рекомендується для великих сайтів)
ВІДЗНАЧЕНА
Сторінки не пройшли URL обмеження не включати в список для парсинга
ЗНЯТО
Введіть регулярний вираз для пошуку початкової позиції обрізки
/
Введіть рядки, при знаходженні яких в URL сторінка ігнорується (кожна з нового рядка) - АБО логіка
/ feed
/ Uploads /
/ Category /
/ sitemap
/ contact
/ Author /
/ Print /
/ Search /
/ Label /
Введіть рядки, при знаходженні яких в коді сторінки вона ігнорується (кожна з нового рядка) - АБО логіка
ПУСТЕ ПОЛЕ
Введіть рядки, одна з яких повинна обов'язково бути присутнім в URL, щоб сторінка оброблялася (кожна з нового рядка) - АБО логіка
ПУСТЕ ПОЛЕ
Введіть рядки, які повинні обов'язково бути присутнім в тілі сторінки, щоб сторінка оброблялася (кожна з нового рядка) - І логіка