Звичайно, пошукова система, будь то Yandex або Google - це дуже складний програмний продукт і вона, я б сказав досить "розумна", в плані індексації сайтів і пошуку необхідної інформації. Але як Ви знаєте, будь-яке програмне забезпечення, або ж певний механізм, по суті самостійно не працює, завжди потрібна участь людини, або для настройки, або для управління, або для завдання деяких початкових параметрів. І як Ви розумієте, пошуковик не виняток, а значить для кращих результатів індексування і найголовніше для забезпечення правильного індексування, був придуманий robots.txt - файл в якому власники сайтів можуть визначити інструкції для індексування сторінок.
Таким чином, robots.txt - це спеціальний текстовий файл в якому визначені інструкції для різних пошукових систем по індексуванню сторінок сайт. Якщо сказати простіше, в даному файлі зазначено, що потрібно індексувати, а що ні. Як правило, вищевказаний файл розташовується в корені цікавить сайту для швидкого доступу роботові розвідувача.
При цьому зверніть увагу, що ім'я файлу чутливі до регістру. Вміст даного файлу складається з так званих директив, і досить просте для розуміння. Директива - це інструкція, вказівка для пошукової системи.
Тепер давайте визначимося, що ж ми можемо "вказувати" пошуковим системам. В robots.txt визначаються сторінки, і навіть цілі каталоги, які заборонені до індексування, вказується основне дзеркало сайту, інтервал часу завантаження даних, шлях до файлу SiteMap (карта сайту) і т.д.
Хочете дізнатися, як створити власний шаблон на CMS Joomla з нуля
Зазвичай, в комплекті з найбільш популярними CMS поставляється і обвинувачений нами, файл robots.txt, в якому розробники як приклад, визначили коректні інструкції, завдяки яким, сайт буде нормально працювати. Joomla не виняток і в корені початкових кодів Ви знайдете цікавить файл:
В даному прикладі ми вказуємо, що такі правила будуть справедливі для всіх роботів пошукових систем. Якщо ж необхідно задати кілька правил для робота Yandex, як значення директиви User-agent, потрібно вказати наступне:
Для Google відповідно:
Далі в файлі визначена директива Disallow, яка вказує, яка папка або сторінка, за певним URL, заборонена до індексації. Відповідно забороняти індексувати Ви можете наступні сторінки: однакові за змістом (дублі), сторінки, що містять особисту або конфіденційну інформацію, що керують або сторінки панелі адміністратора, доступ до яких дозволений тільки певним користувачам і, нарешті абсолютно будь-які сторінки які в залежності від логіки роботи конкретного сайту, не повинні бути доступні пошуковикам.
Наприклад, заборона індексування каталогу administrator виглядає наступним чином:
Або ж заборона індексації всього сайту в цілому:
На противагу директиві Disallow, придумана директива Allow, яка вказує які сторінки або каталоги дозволені до індексації.
По суті, ми з Вами тільки що розглянули всі директиви, які використані в стандартному файлі robots txt для джумли. Але давайте розглянемо ще декілька.
Директива Crawl-delay - використовується для визначення інтервалу часу для закачування даних певної сторінки, тобто задається пауза між скачуванням, при цьому вона актуальна тільки для Yandex. Таким чином, вказавши необхідний тайм-аут, Ви значно розвантажите використовуваний сервер, так як скачавши певний ресурс пошуковий робот, буде чекати стільки секунд, тобто скільки вказано в поточній директиві.
Для прискорення індексації так само рекомендується згенерувати карту сайту (Site Map), в якій буде наведено список сторінок, у вигляді посилань. При цьому дана карта розташовується так само в корені початкових кодів CMS і шлях до неї можна визначити у файлі robots.txt, використовуючи директиву Sitemap, тим самим Ви як би вкажіть роботу список доступних сторінок сайту, які підлягають індексації.
Ну і нарешті. остання важлива директива яка дуже часто використовується в файлах robots.txt - це Host, яка використовується для пошукової системи Yandex і визначає головне дзеркало сайту.
Як Ви вже побачили, значення кожної директиви - це певний текст і в основному це певний шлях, відповідно для формування даного значення передбачені два керуючих символу, які я хотів би розглянути.
Символ "*" - вказує абсолютно будь-яку послідовність символів і буває дуже корисним, якщо необхідно задати деяке довільне значення, що йде перед заданим.
В даному прикладі ми забороняємо до індексації вашсайт. / Ru / page, але не забороняємо вашсайт. / Ru / page / one.
Хочете дізнатися, як створити власний шаблон на CMS Joomla з нуля
Найсвіжіші новини IT і веб-розробки на нашому Telegram-каналі