Витягнути сторінки з кешу гуглі пошукові системи форум для веб-майстрів

Приносимо свої вибачення.

але ваш запит схожий на запити, автоматично розсилаються
комп'ютерним вірусом або шкідливим програмним забезпеченням. В цілях
захисту наших користувачів ми не можемо обробити ваш запит
негайно.

Ми відновимо ваш доступ в найкоротші терміни, тому повторіть
спробу через деякий час. Поки ж, якщо ви вважаєте, що ваш
комп'ютер або локальна мережа можуть бути заражені, то можете запустити
додаток для перевірки на наявність вірусів або видалення шпигунських
програм, щоб переконатися, ваші комп'ютери не заражені вірусами або
шкідливим ПЗ.

Якщо в браузері постійно відкривається сторінка з цією помилкою, то
проблему можна вирішити, видаливши файли cookie сайту Google і відвідавши цей
сайт повторно. Інструкції для певного типу браузера можна
отримати в центрі підтримки вашого браузера в Інтернеті.

Якщо порушена вся ваша мережа, додаткову інформацію можна
знайти в довідковому центрі веб-пошуку Google.

Ми приносимо вибачення за незручності і сподіваємося, що незабаром ви
знову будете користуватися сайтом Google.


IseeDeadPeople
Об'єднана Електрична

На жаль, немає такого інструменту, який би Парс гугл не отримуючи бан по IP. На це і розрахований короткочасний бан гугла за парсинг і часте звертання до нього. Доводиться використовувати парсілкі з підтримкою проксі. І запасатися ними все-таки треба.


а взагалі можна і так питання вирішити
напр брати один проксі / сік, кіт гугль поки не знає і парсити через нього. повільно. з інтервалами, - звичайно це авто вже полность

і як тільки ХАНА, то інший проксі і також.

а взагалі я часом перевіряю свої сайти в гуглі.
і часом під вечір він мені вже тільки при каптч дає конячок.

captain Keen писал (а):

Маскуйте запити до Гугл під запити звичайного серфера і буде вам щастя.


А фіг там - навіть якщо вводити запити вручну в браузері, банить точно так же, через 70-80 запитів (тільки що спробував)


напр брати один проксі / сік, кіт гугль поки не знає і парсити через нього. повільно. з інтервалами, - звичайно це авто вже полность


Теж не особливо допомагає. Якщо встановити інтервал між запитами в хвилину (+ випадково його варіювати), то бан настає через 5-6 годин і приблизно 300 запитів.

Коротше я вирішив проблему тупо грубою силою - купив сервіс проксі у awmproxy і автоматом вантажу свіжий список кожні 10 хвилин. Швидкість не дуже, але за пару тижнів має всі скачати.

Панове, ви що з локальних комп'ютерів Гугл Парс. Тоді беру назад свої слова. Я говорив про серверні парсером.

Лена. спасибі за посилання. У них якраз є відповідь на питання ТС.


Зверніть увагу - "наша система реєструє автоматичні запити". Зробіть так щоб не реєструвала автоматичних, замаскує під людей і все буде ОК. При нормально зробленому парсером ніякого бана не буде.

Якщо Гугл кидає АЛЕРТ на реальні браузери то на будь-яку їх імітацію і поготів - ось основна думка.


На імітацію браузера - так, на імітацію середньостатистичного користувача - немає.
Ти візьми і спробуй написати для якогось свого сайту систему захисту від автоматичного парсинга. При цьому таку, яка по мінімуму відтинала б благонадійних користувачів - відразу зрозумієш багато принципів цього захисту і її уразливості.

Ми з товаришами давно вже займаємося парсинга різних ресурсів. Час від часу хтось із нас придумує чергову "геніальну антіспайдерінговую систему, що її пробити". Завдання інших її зламати. Ну ось розважаємося ми так. Заодно і навички ростуть.

Будь загальнодоступний сайт це відкрита інформаційна система, його навіть теоретично неможливо зробити 100% захищеним від парсинга. Будь-(!) Загальнодоступний сайт можна розпарсити автоматично, питання тільки в ресурсах необхідних для цього. Тут економіка на першому місці стоїть. Дійсно іноді замість написання, налагодження і запуску скриптів вигідніше найняти індійців, які "руками" сграббят ресурс. Але Гугл до числа таких ресурсів не відноситься.

Ти не перший кому прийшло в голову послати Гуглу правильні HTTP-заголовки.


Так я цього і не говорив, що я це вигадав. Про парсинг книжки є де робота з http-заголовками описана. Там, до речі, написано що не тільки рядок user-agent можна передавати
Крім того я розумію різницю між ідеєю та її реалізацією. Комунізм, скажімо, обалденная ідея, а будь-яка її реалізація сумовите гівно. Якби у мене не було реально працюючих скриптів, парся Гугл без бана, я б не писав що вони можливі.