Індексація на Рамблер

Використання файлів robots.txt

Роботи і файл robots.txt

Рамблер, як і інші пошукові машини, для пошуку і індексації інтернет-ресурсів використовує програму-робот. Робот викачує документи, виставлені в Інтернет, знаходить в них посилання на інші документи, викачує знову знайдені документи і знаходять в них посилання, і так далі, поки не обійде весь цікавить його ділянку Мережі. Наш робот "звуть" StackRambler.

Якщо робот виявляє цей документ, всі подальші дії по індексуванню сайту здійснюються відповідно до вказівок robots.txt. Ви можете заборонити доступ до певних каталогів і / або файлів свого сайту будь-яким роботам-індексатора або ж роботам конкретної пошукової системи.

Правда, інструкцій файлу robots.txt (як і meta-тегів Robots. См. [Viseditor.php? Ie_ver_ms = 6sid = root_biblioteka-optimizatora_rambler_rambler-indexfld = textclrqstart = 1138739826000deslocal = тисячі сорок-дев'ять # 1 ниже]) слідують тільки так звані "ввічливі" роботи - до числа яких робот-індексатор Рамблера, зрозуміло, відноситься.

Розміщення файлу robots.txt

Робот шукає robots.txt тільки в кореневому каталозі Вашого сервера. Під ім'ям сервера тут розуміються доменне ім'я і, якщо він є, порт.

Розміщувати на сайті кілька файлів robots.txt. розміщувати robots.txt в підкаталогах (в тому числі підкаталогах користувачів типу www.hostsite.ru/

user1 /) безглуздо: "зайві" файли просто не будуть враховані роботом. Таким чином, вся інформація про заборони на індексування підкаталогів сайту повинна бути зібрана в єдиному файлі robots.txt в "корені" сайту.

Ім'я robots.txt повинно бути набрано прописними (маленькими) буквами, оскільки імена інтернет-ресурсів (URI) чутливі до регістру.

Нижче наведені приклади правильних і неправильних розміщень robots.txt.

Формат файлу robots.txt

Наступний простий файл robots.txt забороняє індексацію всіх сторінок сайту всім роботам, крім робота Рамблера, якому, навпаки, дозволена індексація всіх сторінок сайту.

# Інструкції для всіх роботів
User-agent: *
Disallow: /

# Інструкції для робота Рамблера
User-agent: StackRambler
Disallow:

Групи інструкцій для окремих роботів: User-agent

Будь-який файл robots.txt складається з груп інструкцій. Кожна з них починається з рядка User-agent, що вказує, до яких роботам ставляться наступні за нею інструкції Disallow.

Для кожного робота пишеться своя група інструкцій. Це означає, що робот може бути згаданий тільки в одному рядку User-agent. і в кожному рядку User-agent може бути згаданий тільки один робот.

Виняток становить рядок User-agent: *. Вона означає, що наступні за нею Disallow належать до всіх роботам, крім тих, для яких є свої рядки User-agent.

У кожній групі, що вводиться рядком User-agent. повинна бути хоча б одна інструкція Disallow. Кількість інструкцій Disallow не обмежена.

Рядок "Disallow: / dir" забороняє відвідування всіх сторінок сервера, повне ім'я яких (від кореня сервера) починається з "/ dir". Наприклад: "/dir.html", "/dir/index.html", "/directory.html".

Щоб забороняти відвідування саме каталогу "/ dir", інструкція повинна мати вигляд: "Disallow: / dir /".

Для того, щоб інструкція щось забороняла, вказаний в ній шлях повинен починатися з "/". Відповідно, інструкція "Disallow:" не забороняє нічого, тобто все дозволяє.

Увага: точно так же і інструкції "Disallow: *", "Disallow: * .doc", "Disallow: /dir/*.doc" не забороняють нічого, оскільки файлів, ім'я яких починається зі зірочки або містить її, не існує! Використання регулярних виразів в рядках Disallow. так само як і в файлі robots.txt взагалі, не передбачено.

Порожні рядки допускаються між групами інструкцій, вводяться User-agent.

Інструкція Disallow враховується, тільки якщо вона підпорядкована будь-якої рядку User-agent - тобто якщо вище неї є рядок User-agent.

Використання META-тегів "Robots"

Інструкції по індексації записуються в поле content. Можливі такі інструкції:

Значення за замовчуванням: .

У наступному прикладі робот може індексувати документ, але не повинен виділяти з нього посилання для пошуку подальших документів:

Ім'я тега, назви і значення полів нечутливі до регістру.

В поле content дублювання інструкцій, наявність суперечливих інструкцій і т.п. не допускається; зокрема, значення поле content не може мати вигляд "none, nofollow".

ЧИ ЗНАЄТЕ ВИ, ЩО:


Індексація на Рамблер

Схожі статті