Дізнатися, скільки сторінок було проіндексовано Google, можна за допомогою Search Console. Але як відшукати ті URL, які відсутні в індексі пошукової системи? Справитися з цим завданням допоможе спеціальний скрипт на Python.
Органічний пошук включає три основних компоненти: сканування, індексування та ранжирування. Коли пошуковий робот заходить на сайт, він сканує всі знайдені посилання. Ця інформація потім передається в індекс пошукової системи, після чого визначається порядок її показу в результатах пошуку.
SEO-фахівці основну увагу приділяють компоненту ранжирування. Але якщо пошукова система не змогла просканувати і проіндексувати сторінки на сайті, він не отримає трафіку з Google. Забезпечення правильного сканування та індексування сайту - важлива частина пошукової оптимізації.
Як дізнатися, скільки всього сторінок проіндексовано
При наявності доступу до Google Search Console можна подивитися, скільки сторінок міститься в файлі XML Sitemap, і скільки з них було проіндексовано. При цьому в сервісі не уточнюється, які саме URL не були в індекс пошукової системи.
Щоб отримати цю інформацію, доведеться перевірити кожен URL вручну. Але це завдання можна автоматизувати.
Як перевірити, чи був URL проіндексовані Google
Щоб дізнатися, чи був конкретний URL проіндексовані Google, можна використовувати пошуковий оператор «info:». наприклад:
Якщо URL проіндексовані, результат буде таким:
В іншому випадку Google поверне помилку:
Як використовувати Python для масової перевірки статусу індексування сторінок
Тепер ви знаєте, як перевірити окремий URL. Але як провести масову перевірку? Використовуйте наступний скрипт на Python:
Щоб використовувати цей скрипт, на комп'ютері повинен бути встановлений Python 3. Також потрібно встановити бібліотеку BeautifulSoup. Для цього відкрийте командний рядок і виконайте наступну команду:
pip install beautifulsoup4
Після цього ви можете завантажити скрипт на свій комп'ютер. У тій же папці, де знаходиться скрипт, створіть текстовий файл зі списком URL. Кожен URL повинен йти окремим рядком.
Тепер, коли скрипт готовий до роботи, потрібно встановити і налаштувати Tor для використання його в якості проксі-сервера. На Windows завантажте Tor Expert Bundle. Вийміть папку з архіву в локальний каталог на ПК і запустіть tor.exe. Вікно можна згорнути.
Потім потрібно встановити Polipo для перетворення socks-проксі в http-проксі. Завантажте останню версію Windows binary (вона буде називатися «polipo-1.x.x.x-win32.zip») і витягніть папку з архіву.Відкрийте командний рядок і перейдіть в папку Polipo. Виконайте наступну команду:
polipo.exe -c config.txt
На цьому етапі можна запускати Python-скрипт:
Скрипт попросить вказати кількість секунд для очікування між перевірками кожного URL.
Потім він попросить ввести ім'я файлу (без розширення) для вивантаження результатів в CSV.
Нарешті, він запросить ім'я текстового файлу, який містить список URL для перевірки.
Введіть ці дані і запустіть скрипт.
Кінцевий результат буде представлений у вигляді CSV-файлу, який можна без зусиль відкрити в Excel.
У підсумковій таблиці проіндексованим URL буде присвоєно значення TRUE, непроіндексованої - FALSE.
Якщо скрипт не працює, то Google, можливо, блокує Tor. У цьому випадку використовуйте свій власний проксі-сервер, змінивши такі рядки скрипта:
висновок
Знати, які сторінки були проіндексовані Google, критично важливо для SEO. Ви не зможете отримати трафік з пошуку, якщо ваших сторінок немає в індексі пошукової системи.
На жаль, Google не надає інформацію про те, які URL були проіндексовані. Але ця проблема вирішувана. Використовуючи описаний вище скрипт, ви зможете отримати ці дані без особливих зусиль.