Як скласти правильний

Що таке robots.txt?

Robots.txt (протокол виключення роботів) - вдає із себе звичайний текстовий файл, в якому прописані вказівки для пошукових роботів, які розділи вашого сайту можна індексувати, а які ні. Вірите чи ні, це один з найбільш важливих файлів з точки зору SEO. Наприклад, ви не хочете щоб пошукові системи індексували каталог W- admin. який в основному призначений для внутрішнього використання і не несе будь-якої інформації для пошукового просування.

Як працює robots.txt?

Коли пошуковий робот відвідує ваш сайт, він в першу чергу шукає файл роботс.тхт і сприймає його як інструкцію.

Чим корисний файл robots.txt?

Якщо ви хочете щоб пошукові системи ігнорували будь-які дубльовані сторінки сайту.
Якщо ви хочете щоб пошукачі не індексували певні області сайту або весь сайт в цілому.
Якщо ви хочете щоб роботи не індексували певні файли на вашому сайті (зображення, PDF і т.д.).
Якщо ви хочете повідомити пошуковим роботам де розташована карта сайту (sitemap.xml).

Створення файлу robots.txt.

Налаштування файлу robots.txt.

Розберемо настройку на прикладі мого файлу і дізнаєтеся чому я збираюся відредагувати його.

Кожен запис файлу починається з User-Agent. яка позначає, для якого пошукового «павука» виставлені правила. Зірочка, яка ставиться далі (*) означає, що правила виставлені для всіх пошукових роботів. Для Яндекса прийнято вказувати окремий набір правил, (User-agent: Yandex). Тому що тільки для Яндекса вказується розташування карти сайту і дзеркало сайту. Далі з кожного рядка виставляється заборона (Disallow :) або дозвіл (Allow:) для індексації областей сайту. наприклад:

Заборонити Яндексу сканувати каталог wp-admin вашого сайту.

Думаю зрозуміло. Їмо далі.

Що включити в файл robots.txt?

Тут кожен вирішує сам, яку область сайту закривати від індексації. Однозначної відповіді немає. Я, частенько гуляючи по сайтам і блогам, цікавлюся файлом роботс.тхт. У всіх свій правильно налаштований протокол. Тут головне одне, переконатися, що нічого не заважає пошуковим системам індексувати основний вміст вашого сайту. І пам'ятайте, цей файл тільки консультує ботів що індексувати, а що ні. Не всі роботи будуть дотримуватися цих інструкції.

Помилки при використанні роботс.тхт.

Якщо ви вперше налаштовуєте файл robots.txt. то могли допустити ряд помилок.
Повністю заборонили ваш сайт до індексації. Коли ви ставите Disallow: / помилково, то ви забороняєте павукам індексувати сайт. Робот приходить, бачить червоне світло і йде. Це призводить до того, що сайт мало того що не оновлюється, так ще і з часом повністю випадає з видачі.
Не завжди забороняє до індексації. Як я вже згадав вище, для деяких роботів цей файл вже не перешкода, дублікати сторінок все рівно залітають в видачу.
Вся цінна інформація виставляється напоказ. Існує думка, що будь-хто може відкрити yoursite.com/robots.txt і подивитися всю інформацію про ваших файлах. Такою інформацією можуть зацікавитися хакери.
Розміщення декількох каталогів в один рядок. Якщо в одну лінію ви виставляєте кілька каталогів на заборону, то файл robots.txt працювати належним чином не буде. Одна лінія - один каталог.

Як перевірити robots.txt?

Після того як ви закінчили настройку файлу, його природно потрібно перевірити.

Перевіряти будемо за допомогою панелі вебмастера Гугл і Яндекс.

Перевірка через Google. Перебуваючи в панелі вебмастера, йдемо по шляху: «Сканування - Інструмент перевірки файлу robots.txt». На цій сторінці відразу подгружается ваш протокол, який можна редагувати. Перевірка на заборону або дозвіл проводиться так само, як в Яндексі.

Що буде, якщо у вас немає файлу роботс.тхт?

Без цього файлу пошукові системи будуть вільно гуляти по всіх каталогах вашого сайту, сканувати та індексувати всі, що там знайдуть.

Чому я збираюся відредагувати файл robots.txt?

Нещодавно я вивчив курс Олександра Борисова "Як стати блогером - тисячником 3.0". До речі, роблю хорошу знижку при покупці по моїй посиланням. Звертайтеся. Так ось, Олександр пропонує свій варіант настройки robots.txt. Ось вона:

Дозволити все і вказати розташування карти сайту - це кращий варіант для більшості веб-сайтів, що дозволяє всім пошуковим системам сканувати та індексувати всі дані. Заборона ставить тільки на основні каталоги:

Вище я говорив, що деякі пошукові системи ігнорують правила, прописані у файлі роботс.тхт. Одним з таких пошукових систем є Google. Хоч закривай, хоч не закривай, він все одно сканує і забирає на індексацію всю інформацію. Так з'являються різного роду дублі, які можуть в кінцевому підсумку призвести до загибелі вашого ресурсу. Після вивчення курсу, я відразу не став налаштовувати файл robots.txt.

Дійсно в видачу потрапили дублі деяких сторінок, хоча я спочатку правильно налаштовував протокол заборони для роботів. Тепер в швидкому порядку буду налаштовувати файл. У цьому курсі Олександр все докладно розповідає, як, що, куди натискати для правильного налаштування. Всі секрети видавати не буду. Скажу одне - це дійсно працює. Якщо ви ще не придбали курс, то раджу найближчим часом зробити це.

Ви просто не можете назвати себе СЕО фахівцем або інтернет-маркетологом, якщо ще не знаєте, що таке файл роботс.тхт. Він визначає, як пошукові системи бачать ваш сайт. Коли налаштовуєте файл robots. txt, віддавайте собі звіт, що саме робите. В іншому випадку ваш сайт може просто зникнути з інтернету, а ви навіть не будете знати чому. Якщо ви не знаєте, як скласти правильний robots.txt. то зверніться за допомогою до фахівця. На цьому у мене все. Удачі в справах!