Вітаю вас, друзі. Займемося ми сьогодні складанням правильного файлу Robots.txt для WordPress блогу. Файл Robots є ключовим елементом внутрішньої оптимізації сайту, так як виступає в ролі гіда-провідника для пошукових систем, які відвідують ваш ресурс.
Сама назва файлу robots.txt підказуємо нам, що він призначений для роботів, а не для людей. У статті про те, як працюють пошукові системи. я описував алгоритм їх роботи, якщо не читали, рекомендую ознайомитися.
Навіщо потрібен файл robots.txt
Уявіть собі, що ваш сайт - це будинок. У кожному будинку є різні службові приміщення, типу котельні, комори, льохи, в деяких кімнатах є потаємні куточки (сейф). Всі ці таємні простору гостям бачити не потрібно, вони призначені тільки для господарів.
Прикладами таких службових зон є - админка сайту, папки з темами оформлення, скриптами і т.д.
Пошуковики інтернету можуть просто заплутатися у всьому різноманітті таких сторінок і невірно зрозуміти - що потрібно показувати в пошуковій видачі. Закривши одні розділи, і відкривши інші, ми дамо однозначну рекомендацію роботам по правильної індексації сайту. і в пошуку виявляться ті сторінки, які ми задумували для користувачів.
Якщо у вас немає правильно налаштованого файлу Robots.txt, то можливі 2 варіанти:
1. В видачу потрапить каша зі всіляких сторінок з сумнівною релевантність і низькою унікальністю.
2. Пошуковик вважатиме кашею весь ваш сайт і накладе на нього санкції, видаливши з видачі весь сайт або окремі його частини.
Є у нього ще пара функцій, про них я розповім по ходу.
Принцип роботи файлу robots
Робота файлу будується всього на 3-х елементах:
- Вибір пошукового робота
- Заборона на індексацію розділів
- Дозвіл індексації розділів
1. Як вказати пошукового робота
За допомогою директиви User-agent прописується ім'я робота, для якого будуть діяти такі з ним правила. Вона використовується ось в такому форматі:
За останніми вимогами пошукових систем, необхідно відкрити доступ до стилів і скриптів. Для цих цілей в 12, 13 і 14 рядках прописуємо дозвіл на індексування папки з шаблоном сайту, плагінами і Java скриптами.
Далі у мене йде 2 блоки, які відкривають доступ до папки з картинками роботам YandexImages і Googlebot-Image. Можна їх не виділяти окремо, а роздільну директиву для папки з картинками перенести вище на 15 рядок, щоб всі роботи мали доступ до зображень сайту.
Якби я не використовував All-in-One-Seo-Pack, то додав би правило, закриває архіви (Disallow: * / 20) і мітки (Disallow: * / tag).
При використанні стандартного пошуку по сайту від WordPress, варто поставити директиву, що закриває сторінки пошуку (Disallow: *? S =). А краще, налаштуйте Яндекс пошук по сайту. як це зроблено на моєму блозі.
Зверніть увагу на 2 правила:
1. Всі директиви для одного робота йдуть підряд без пропуску рядків.
2. Блоки для різних роботів обов'язково поділяються символом нового рядка.
В самому кінці є директиви, які ми раніше не розглядали - це host і sitemap. Обидві ці директиви називають міжсекційними (можна ставити поза блоками).
Host - вказує головне дзеркало ресурсу. Обов'язково варто вказати який домен є головним для вашого сайту - з www або без www. Якщо у сайту є ще дзеркала, то в їх файлах теж потрібно прописати головне. Дану директиву розуміє тільки Яндекс.
Sitemap - це директива, в якій прописується шлях до XML карті вашого сайту. Її розуміють і Гугл і Яндекс.
Доповнення і помилки
1. Деякі веб-майстри роблять окремий блок для Яндекса, повністю дублюючи загальний і додаючи директиву host. Нібито, інакше yandex може не зрозуміти. Це зайве. Мій файл robots.txt відомий пошуковику давно, і він в ньому прекрасно орієнтується, повністю відпрацьовуючи всі вказівки.
2. Можна замінити кілька рядків, що починаються з wp- однієї директивою Disallow: / wp-, я не став такого робити, так як боюся - раптом у мене є статті, що починаються з wp-, якщо ви впевнені, що ваш блог такого не містить , сміливо скорочуйте код.
3. Переіндексація файлу robots.txt проходить не миттєво, тому ще раз, ви пошуковики можуть помітити лише через пару місяців.
4. Гугл рекомендує відкривати доступ своїм роботам до файлів теми оформлення і скриптів сайту, лякаючи вебмайстрів можливими санкціями за недотримання цього правила. Я провів експеримент, де оцінював, наскільки сильно впливає ця вимога на позиції сайту в пошуку - подробиці і результати експерименту тут.
Правильний файл Robots.txt для WordPress є майже шаблонним документом і його вигляд однаковий для 99% проектів, створених на цьому движку. Максимум, що потрібно для веб-майстра - це внести індивідуальні правила для використовуваного шаблону.
Інші корисні статті блогу:
- All in One SEO Pack - правильна настройка функціонального SEO плагіна для WordPress
- Яндекс пошук по сайту: Навіщо потрібен і Як встановити?
- DDoS атака - що це? Як знайти джерела і захистити сайт від ДДоС?
- Hyper Cache - настройка і використання плагіна для кешування сторінок в WordPress
- Як правильно писати статті, щоб подобатися Яндексу?
- Як назавжди видалити Replytocom в WordPress? Позбавляємося від дублів сторінок
Життя не стоїть на місці, пост писався давно.
Але це дрібниці. Наведений тут robots повністю відповідає всім правилам і не вводить в оману нікого, хто уважно читає призначення всіх рядків.
Якщо ви звернете увагу на відмінності, то побачите, що вони несуттєві:
- я прибрав окремі правила для картіночних ботів Яндекса і Google і об'єднав їх із загальним блоком для всіх роботів - як краще я поки не знаю, правильно і так і так.
- по недавньої прохання Google, був відкритий доступ до папок теми оформлення і скриптів, ніяких змін в індексації та позиціях сайту помічено не було, тому, я не знаю чи варто рекомендувати їх відкриття всім.
- у мене стоять заборонні правила для деяких роботів котрі належать до Яндексу або Google. Я порахував, що мій сайт їм відвідувати не потрібно, максимум на що це впливає - на навантаження хостингу, знову ж таки, правила не обов'язкові і без необхідності їх ставити я не рекомендую.
Через кілька місяців може змінитися щось ще, наприклад, з'явиться якийсь настирливий бот, від якого я захочу позбутися або у мене на сайті додасться папка, яку я не захочу показувати пошуковим системам - це не означає, що потрібно буде додавати пов'язані з ним правила до всіх сайтів інтернету.
У мене взагалі 16 рядків + дві урл блогу = 18. Купила розумний плагін і він сам згенерував Роботс і багато сховав без мороки. Я всього лише додала кілька рубрик, які у мене під нофоллов і ноіндекс. Але вони чомусь - то індексуються Яшей. Теж експеримент завдовжки ... поки не скажу, потім розповім.
Швидкий заробіток в Інтернеті
Тут заробляють блогери
Найсвіжіші статті блогу