Php-webdriver - парсинг

У надрах FACEBOOK була розроблена бібліотека на PHP - php-webdriver. Дана бібліотека працює в зв'язці з SELENIUM, вихідний код якого викладений на GitHub. Що це за диво? Що може? Навіщо це їм потрібно було розробляти? Для початку, давайте розберемо, що таке - Selenium. Це, в першу чергу, де-факто всесвітньо визнаний - Web Driver з управління браузером. Так ... так ... так ... він дозволяє управляти практично всіма популярними Web браузерами: IE, Opera, Chrome, Firefox. Цим надаючи нам воістину фантастичні можливості по автоматизації процесу парсинга і серфінгу просторів «Інтернету». При цьому «вирахувати», що управляє браузером не людина, а програма практично не можливо! Але і мінуси звичайно у такого підходу є:

  • підвищене навантаження на CPU
  • збільшене споживання RAM

Але дані мінуси з лишком окупаються, тлумачним залізом і досягненням поставленої мети!

Навіщо ж знадобилося писати її Facebook? Все досить просто. Спочатку php-webdriver розроблявся для тестування сайтів! Виявлення «багів» на сайті та проходження авто-тестів. В цілому - це потужний інструмент з автоматичного тестування сайтів, з виявленням помилок і ін.

Давайте розберемося як її користуватися. По-перше, її потрібно встановити. Для цього рекомендується використовувати зручний інструмент - Composer:

1. Качаємо бібліотеку

3. Якщо ви не маєте Selenium, то качаємо його звідси. Нам потрібен - Selenium Standalone Server

4. Запускаємо його:

* - якщо запускаємо відразу кілька копій, то використовуємо додатковий ключ, що задає порт (4000) по якому буде слухати команди Selenium:

5. Далі власне запуск PHP скрипта з управління браузером:

З цієї бібліотеці є потужна документація, але правда на англ. мовою. Її можна почитати тут.