трохи теорії
Напевно ні для кого не секрет, що пошукові системи працюють не в режимі реального часу. Пошуковий робот постійно обходить нові сайти, заносить їх тексти в базу пошукової системи, а також оновлює ресурси, вже внесені в базу. Саме тому нові сайти потрапляють в пошуковики далеко не відразу.
Зазвичай пошуковий робот виявляє новий сайт з чиєї-небудь посиланню або в результаті додавання його через спеціальні форми пошукачів (так звані «аддурілку», від фрази "add url" - додати url).
Як тільки пошуковий робот потрапляє на сайт, він відразу ж запитує файл robots.txt. Якщо він його не знаходить - він діє по-замовчуванню. Тому файл robots.txt іноді називають файлом винятків для пошукових роботів.
Файл robots.txt використовується для заборони індексації деяких сторінок і цілих розділів сайту, а також для передачі пошуковому роботу файлу sitemap.xml (файл карти сайту).
Використання файлу robots.txt
Ми розглянемо роботу файлу robots.txt на прикладах.
Заборона індексації всього сайту
Для того, щоб заборонити індексацію всього сайту необхідно в robots.txt внести наступні рядки:
Заборона індексації окремої папки
Запис User-agent вказує кому саме заборонена індексація (замість зірочки * тут може бути написано "yandex" або "googlebot"), а запис "Disallow" описує, що саме заборонено до індексації.
User-agent: *
Disallow: / private /
Заборона індексації окремих типів файлів
При цьому буде дуже корисним заборонити індексацію сторінок типу "index.php." В принципі.
Зробити це можна в такий спосіб:
User-agent: *
Allow: / $
Allow: /*.php$
Allow: /*.jpg$
Allow: /*.gif$
Allow: /*.xml$
Disallow: /index.php?*
Передача пошуковому роботу файлу sitemap.xml
Ми не будемо детально зупинятися на написанні цього файлу. Припустимо, що з цим файлом ви розібралися. Покажемо один із способів передачі цього файлу пошуковій системі, а саме передачу файлу через robots.txt. Для цього необхідно в robots.txt додати наступний рядок:
Мається на увазі, що файл sitemap.xml існує і написаний правильно.