Парсинг більше 1000 результатів видачі Яндекс і google за допомогою comparser

В процесі оптимізації сайту дуже часто виникає необхідність проаналізувати наявні в індексі пошукових систем сторінки. Щоб не парсити видачу Яндекса або Google вручну, можна використовувати програму ComparseR. В даному матеріалі я розгляну дві практичні завдання в яких мені зовсім недавно став у нагоді даний софт, і в яких, природно, він може стати в нагоді власникам сайтів і оптимізаторів:

  1. Видалення битих сторінок, які потрапили в індекс після вивантаження з 1С з помилковими символьними кодами розділів і товарів;
  2. Складання карти редиректів при об'єднанні розділів сайту.

Видалення битих сторінок після некоректної вивантаження з 1С

Один з клієнтів, які замовили просування сайту. в процесі робіт по оптимізації продовжував доопрацювання вивантаження товарів з 1С. У зв'язку з цим при кожній вивантаженні каталогу змінювалися символьні коди елементів. До них додавалася частка «_1», «_2» і т.д. При цьому кожна вивантаження встигала частково проіндексувати.

Підсумок: ми отримали в індексі близько 4 000 сторінок 3 600 з яких виявилися битими і віддавали 404 помилку.

Ні для кого далеко не секрет, що в Яндекс і Google існує обмеження на парсинг видачі в 1 000 елементів. Тут ми стикаємося з першою проблемою: як Спарс 4 000 сторінок при обмеженні в 1000? Саме в цьому випадку на допомогу і приходить ComparseR.

Парсинг більше 1000 результатів видачі Яндекс і google за допомогою comparser

Робиться це як раз через обмеження в 1000 сторінок парсинга видачі. У випадку з побудовою дерева ComparseR зможе обійти даний ліміт за допомогою запитів до пошуку по кожному розділу сайту окремо. Для цього запустимо парсинг за допомогою методу перебору з мінімальною кількістю запитів. У моєму випадку доводилося робити запуск рази 4, перш ніж були зібрані всі сторінки, що знаходяться в індексі.

Парсинг більше 1000 результатів видачі Яндекс і google за допомогою comparser

Відправляємо все неіснуючі сторінки на видалення за допомогою функції «Додати / Видалити URL» і залишаємо сайт індексуватися.

Складання карти редиректів при об'єднанні розділів сайту

У інтернет-магазину були різні розділи для роздрібних і корпоративних клієнтів. При цьому асортимент їх перетинався приблизно на 40%, а решта 60% товарів корп. розділу цілком могли стати в нагоді і роздрібним покупцям. Було вирішено об'єднати їх, і, щоб не втратити аудиторію з пошуку, яка йшла на корпоративний розділ, налаштувати 301 редіректи.

Завдання начебто елементарна, якщо тільки її не ускладнюючи клієнт. Поквапившись, не звернувши уваги на попередження, замовник переніс товари корпоративного розділу в гілки роздрібного (до слова, даний розділ мав іншу структуру каталогу) і видалив товари з корпоративного каталогу разом з розділами.

Природно, кількість покупок різко скоротилося, так як люди потрапляли з пошуку на 404 сторінку, а програмісти не могли нічого зробити, так як зіставляти в корпоративному розділі з роздрібним було вже нічого.

Благо, ComparseR після версії 1.0.77 навчився робити довільні запити до видачі. Саме це нас і врятувало. Сторінок товарів в корпоративному розділі було проіндексував близько 1 800, коректної структури, щоб побудувати дерево, також не залишилося через вилучення корпоративного каталогу. Довелося взяти сторінку розділу з кеша Яндекса і вручну скопіювати всі урли його підрозділів.

Після цього відправляємо довільні запити по черзі до обох пошуковим системам:

Парсинг більше 1000 результатів видачі Яндекс і google за допомогою comparser

Результатом буде отриманий список сторінок, які проіндексовані в пошукових системах. Вивантажуємо в excel. Спочатку зробили скрипт, який зіставляв товари по символьних кодів, але, на жаль, виявилося, що символьні коди деяких елементів були змінені, а ось найменування залишилися колишніми. Розбираємо title на шматки, прибравши з нього шаблонні елементи.

Результатом став готовий список найменувань товарів, за яким програмісти вже витягли коректні url переміщених в роздрібний розділ елементів і зіставили їх зі списком спарсеyних сторінок. Завдання вирішена.