Індексація сайту пошуковими роботами
По-перше, треба сказати, що коли пошуковик отримав запит користувача, він не починає обходити весь інтернет у пошуках потрібних сторінок, а звертається до заздалегідь зібраним баз - індексам сторінок. Індекси являють собою. (Треба знайти опис). Для формування та оновлення індексу сторінок пошукова система періодично запускає особливу програму (яку називають павуком або ботом). Ця програма здійснює обхід сайтів Інтернету і за результатами цього обходу становить або оновлює індекс.
Що відбувається, коли користувач звертається до пошукової системи із запитом?
Пошукова система звертається до індексу для складання списку сторінок, найбільш повно задовольняють запит користувача, їх називають "релевантними запиту". Приймати рішення про те, наскільки та чи інша сторінка із загального числа сторінок, включених в індекс, відповідає запиту користувача, пошукова система повинна на основі тільки виданого запиту. Запит складається з одного або декількох слів. Тому сторінка буде вважатися більш релевантною, якщо вона містить як можна більшу кількість входжень слів із запиту. Причому для ранжирування сторінок в пошуковій видачі пошуковики крім тексту самої сторінки використовували слова, перераховані в тегах
Тоді (або ще раніше, але цей момент з точки зранія цієї замітки є несуттєвим) пошуковики крім числа входжень ключових слів із запиту стали при оцінці релевантності сторінки використовувати додаткові критерії. Одним з таких критеріїв є вага або значимість сторінки. Сторінка тим вище розташовується у видачі пошукової системи, чим більше вага, присвоєний їй даної пошуковою системою. Ідея розрахунку значущості сторінок або сайтів запозичена з практики наукових публікацій.
В Інтернет ідея розрахунку індексів цитованості втілилася у використанні ваг окремих сторінок або сайтів. Різні пошукові системи використовують різні методи обчислення ваги сторінок. Найбільш відомі індекс PR пошукової системи Google і тематичний індекс цитування пошукової системи Яндекс. При цьому Яндекс орієнтується на значимість сайту в цілому, тому його індекс цитування (тІЦ) розраховується для сайтів. А Google розраховує свій індекс PR для кожної окремої сторінки сайту.
Про ці два індексах поговоримо докладніше.
Що таке Page Rank?
Додаткові відомості про алгоритм розрахунку індексу PR ви знайдете в статті- Chris Ridings, переклад А.Садовскій, "розтлумачити PageRank, або Все, що ви завжди хотіли знати про PageRank"
Індекс цитування (тІЦ) пошукової системи Яндекс
Оскільки в тІЦ враховується лише вага зовнішніх інтернет-ресурсів, що посилаються на заданий, тІЦ не може бути збільшений ні за рахунок "внутрішніх" посилань (з одних сторінок ресурсу на інші), ні за рахунок розташування декількох посилань на одній або декількох сторінках одного і того ж "зовнішнього" ресурсу. При розрахунку тИЦ одного з розділів сайту (директорій) посилання на розділ сайту з інших розділів цього сайту будуть вважатися внутрішніми і, отже, не збільшуватимуть його тИЦ. При цьому посилання на кожен з розділів сайту враховуються (об'єднуються) при підрахунку тІЦ всього сайту.
При вимірюванні тИЦ беруться посилання тільки з тих ресурсів, які Яндекс проіндексував і за якими він шукає. При підрахунку тІЦ сайту не враховуються посилання з веб-бордів, форумів, мережевих конференцій, немодерованих каталогів і інших ресурсів, в які хто завгодно може додавати посилання без контролю з боку власника ресурсу. Також при підрахунку тІЦ не враховуються посилання з сайтів, розташованих на безкоштовних хостингах, у випадку якщо вони не описані в Яндекс. Іншими словами, всі такі посилання мають для Яндекса нульову вагу.
Значення тИЦ розраховується для всіх ресурсів, на які хоча б раз посилається будь-якої з просканованих Яндексом ресурсів. Дізнатися тИЦ ресурсу можна за допомогою наявних в мережі сервісів для вебмайстрів, наприклад, на сайті. Для сайтів, описаних в Яндекс індекс цитування показується поруч з описом ресурсу:
Виняток сторінок з індексації за допомогою файлу robots.txt
Не всі сторінки сайту має сенс віддавати на індексацію пошуковим системам. Наприклад, не потрібно індексувати скрипти CGI або ISAPI, а також файли статистики або списки файлів в папках. Відмова від індексації ряду сторінок може бути викликаний міркуваннями секретності або з бажання не індексувати однакові документи в різних кодуваннях. Чим менше ваш сайт, тим швидше робот його обійде. Тому при створенні сайту має сенс подумати про те, щоб заборонити пошуковим роботам індексацію всіх документів, які не має сенсу індексувати. Зробити це можна за допомогою файлу robots.txt, що знаходиться в кореневому каталозі сайту.
Детальний опис специфікації файлу можна прочитати в документі "Стандарт винятків для роботів". У найпростішому вигляді (дозволено все, крім папки скриптів) файл robots.txt виглядає наступним чином:
Рядок з полем User-Agent є обов'язковою і повинна передувати рядкам з полем Disallow.
Порожні рядки в файлі robots.txt є значущими, вони поділяють записи, що відносяться до різних роботам. Наприклад, в наступному фрагменті файлу robots.txt рядок Disallow: / forum ігнорується, оскільки перед нею немає рядка з полем user-Agent.
Рядок з полем Disallow може заборонити індексування документів тільки з одним префіксом. Для заборони декількох префіксів потрібно написати кілька рядків. Наприклад, щоб заборонити індексування документів, що починаються з / cgi-bin і / forum, необхідно написати.
А наступний фрагмент буде невірним
У рядках з полем Disallow записуються абсолютні, а відносні префікси. Тобто файл:
забороняє індексування документів, що починаються з символу "*" (яких в природі не існує), а файл:
забороняє індексування всього сайту.
Якщо ви не можете створити / змінити файл robots.txt, то досить додати додатковий тег <МЕТА> в HTML-код вашої сторінки (всередині тега
):Тоді даний документ також не проіндексований. Ви також можете використовувати тег
Щоб заборонити індексування певних фрагментів тексту в документі, позначте їх тегами
Використання noindex і nofollow
Для заборони індексації частині сторінки існує тег noindex.
Тег noindex сприймається тільки пошуковими роботами Яндекса і Рамблера, інші пошуковики і в тому числі Гугл його ігнорують. Тег noindex можна використовувати в мета-тезі Robots.
Коли слід використовувати тег noindex:- 1) Закривайте від індексації коди лічильників;
- 2) Закривайте від індексації витікаючі посилання, коли не хочете щоб вони були враховані пошуковими системами або біржами посилань.
- 3) Закривайте тегом noindex інформацію, індексація якої не має сенсу через постійне зміни.
- 4) Закривайте від індексації повторюється контент.
Якщо Ви не хочете закривати від індексації посилання, (а буває іноді потрібно, щоб пошуковий робот пішов по ній) можна використовувати атрибут rel = "nofollow".
Атрибут nofollow слід використовувати для всіх посилань, що ведуть на інші сайти (якщо це не ваші сайти і ви не хочете передавати їм вага сторінки). Для посилань, що ведуть на власні сторінки, даний атрибут використовувати не слід.
Атрибут nofollow так само можна використовувати в метатеге robots.