Індексація сайтів важлива. Так як саме в процесі сканування сайту пошуковими роботами оновлюється інформацію про сайт в пошукових базах. Щоб користувачі знаходили сайт в пошуку, ресурс повинен потрапити в індекс пошукових систем.
Існує два шляхи:
Перший спосіб менш ефективний і займає більше часу, тоді як пряма реєстрація швидко направить пошукових роботів на новий ресурс. Очікуваний термін появи ресурсу в пошуку - 1-2 тижні після підтвердження прав.
Сканування сайтів роботами проводиться регулярно. Якщо сайт поповнився новими сторінками, або оновилася інформація на існуючих, то можна «допомогти» роботам виявити поновлення і прискорити появу нових сторінок в пошуку.
Для цього сайту необхідна карта - Sitemap. яка вказує роботам на важливі сторінки, які були оновлені або недавно додані. Карта важлива як для простих за структурою сайтів, так і для масивних ресурсів з багаторівневою вкладеністю. Для того щоб роботи змогли обробити карту, вона повинна відповідати певним вимогам:
- розмір до 10мб в стислому вигляді
- не більше 50 000 сторінок
- відсутність помилок
- карта знаходиться в тому ж домені, що і сторінки.
Основні формати карти: текстовий і XML. XML формат дозволяє вказати роботам додаткові дані про сторінки: значимість, час останнього поновлення, а також частоту оновлень.
Перевіряється правильність складання Sitemap стандартними інструментами: валідатор Яндекс і Google. Файл robots.txt повинен містити посилання на Sitemap.
Що впливає на індексацію сайту
За доступність ресурсу для індексації відповідає сервер. Пошукова база постійно оновлюється, сайти, недоступні тривалий час, видаляються. Щоб перевірити відповідь сервера, використовуємо інструмент.
Ось кілька моментів, які можуть вплинути на індексацію:
- Чим довше URL і чим більше рівнів вкладеності, тим складніше пошуковому роботу знайти і проіндексувати сторінку
- Документи більше 10 Мб не індексуються
- Flash проиндексируется, якщо файли вбудовані в код html за допомогою тегів
- У PDF документах індексування підлягає текстовий контент, графічний контент не індексується (текст в картинках)
Як вплинути на індексацію
Кожен веб-майстер може керувати тим, як роботи пошуку сканують сторінки сайту, який матеріал їм доступний, а який прихований від індексації.
Для цього існує файл robots.txt, в якому розробник може закрити певні розділи ресурсу від індексації. За замовчуванням для індексації доступна вся інформація на ресурсі, тому вебмастер повинен вжити заходів і обмежити роботам доступ до певного контенту. Як правило, для індексації закривають особисті дані користувачів сайтів, листування, фінансову інформацію. Також закриваємо сторінки з внутрішньої, службовою інформацією.
Файл robots.txt автоматично генерується CMS з усіма необхідними командами. Для перевірки файлів існують стандартні інструменти Яндекс і Google. Robots.txt закриває від індексації весь вміст сторінки, якщо вам необхідно заборонити індексацію певної частини контенту, то краще застосувати тег
Як видалити сторінку ресурсу з пошуку
Перевіряємо кількість сторінок в індексі Яндекса і Google.
Видаляємо сторінки одним з перерахованих способом:
- видалення сторінки з сайту
- закрити доступ роботам в файлі robots.txt
- використання тега robots в самому html-коді між -тегами
- закрити контент на видаляється сторінці або його частина мета-тегом
- скористатися сервісом «Видалити URL» в Яндексі і Google (Google пропонує виконати певні дії перед видаленням інформації з пошуку). Це найбільш швидкий спосіб видалення сторінок з пошукових баз.
Дані способи не виключають один одного. Тобто можна заборонити індексування в файлі robots.txt і видалити сторінку через пошуковий сервіс.
Три важливих команди у файлі robots.txt
Robots.txt - основний інструмент управління пошуковими роботами на сайті.
Disallow забороняє індексування певних розділів ресурсу (технічні дані, марна для користувача інформація - статистика відвідувань, дублікати сторінок та інші).
Crawl Delay вказує пошуковому роботу мінімальний інтервал звернення до сервера, щоб знизити навантаження і не вплинути на швидкість відображення сторінок на стороні користувача. Це важливо для великих сайтів з тисячами сторінок. Наприклад, Crawl Delay: 2 означає, що мінімальний інтервал звернення робота до сервера 2 секунди.
Clean Param вказує, які cgi-параметри, присутні в URL, не повинні враховуватися. Наприклад, в URL може міститися ідентифікатор сесій. Фактично різні URL будуть вести на одну і ту ж сторінку. Роботи можуть «загрузнути» в їх індексації, так і не діставшись до важливих і корисних сторінок.
Пошукові системи висувають прості вимоги до сайтів і індексації.
Карта сайта і файл robots.txt - основні інструменти управління поведінкою роботів при кожному відвідуванні.
Я б додав, що якщо хочете проіндексувати не тільки Головну, а й інші сторінки і скоріше, то «здобувайте» посилання на них, а ще простіше і швидше - запустіть контекст, особливо актуально для яндекса.
А в гугл вебмайстрів в розділі «подивитися як гуглебот» можна відразу 10 сторінок додати + сторінки на які вони посилаються або близько того
Павел, спасибо за цінний додаток! Важливо скористатися всіма можливими способами прискорити індексацію.