Працюємо з файлом robots.txt:
Увага! Даний вид robots.txt застосуємо для тих сайтів, де не використовується модулі MetaRobots, DonBot або модифікації файлу engine.php для управління мета-тегом robots.
Додатково забезпечимо від випадкового потрапляння в індекс админку:
Додамо мета-тег robots. Відкрити файл /engine/skins/default.skin.php:
знайти:
Закриємо від індексації дублі - сторінки друку:
додавши такий же мета-тег в шаблони сторінок друку: print.tpl і static_print.tpl
Вказуємо головне дзеркало (з www або без і склеюємо), перших сторінок навігації і неіснуючий розділ - catalog. також є дублем головної сторінки сайту:
Відкриваємо файл .htaccess в корені сайту:
знайти:
a) Для головного дзеркала БЕЗ www нижче додати:
b1) Для головного дзеркала З www нижче додати:
де site.ru - замініть на свій домен
b1) або для нього ж універсальний від противного нижче додати:
І з дублем першої сторінки дописуємо рішення взяте у Алаєва:
Далі відкриваємо файл /engine/engine.php (взято у Алаєва тут):
знайти:
Увага ВИЩЕ додати:
Якщо у вас відкриті для індексування сторінки пагінацію, вирішимо питання з з неіснуючими сторінками пагінацію. наприклад, зробили ви висновок не по 5 новин, а по 10 на сторінку або видалили частину новин та загальне число сторінок пагінацію змінилося в меншу сторону:
Спосіб рішення взято у Алаєва (alaev.info)
Працюємо з сторінками сайту:
Відкриваємо файл /engine/modules/show.short.php і в самому низу знаходимо:
Закриваємо розділи зі сторінками дублюючими контент і службові сторінки за допомогою мета-тега robots:
Купуємо у Алаєва модуль DonBot вивантажуємо його файли на сервер і налаштовуємо його, наприклад так:
вставляємо в ваш шаблон main.tpl після:
ви можете вибрати іншу настройку.
Даний модуль пропрацював нашого першого, тому і рекомендую його, тим більше ставиться він один раз і при оновленні движка не вимагає правок файлів.
При такій настройці модуля або використанні способу наведеного нижче можна скоротити файл robots.txt до:
Чому я рекомендую управляти індексацією сайту за допомогою саме мета-тега robots?
Тому що файл robots.txt вже давно для Google носить рекомендаційний характер, а мета-тег він виконує.
Відкриваємо файл /engine/engine.php
Замінити на (наведений нижче масив рекомендований мною і його склад, може бути підібраний і змінений під свої цілі *):
Замінюючи, видаляючи або додаючи рядки в масиві зі списку можливих варіантів наведеного нижче, налаштуйте заборона індексації під свої цілі.
(!) Необхідності підключати висновок мета-тега нашим способом в повній новини і на статичних сторінках немає, так як це вже реалізовано в версії скрипта 9.7 і вище.
Далі встановлюємо модуль від seodude ака phpdude, який він вже закинув давно, але модуль повністю робочий, промо вже неактуальне з ми з нього викинули, а встановлюється він правкою одного входження в один файл.
Модуль dude Smart Leech
Модуль dude Smart Leech дозволяє приховувати зовнішні посилання обробляючи їх згідно створеним в налаштуваннях модуля правилам.
У функціонал модуля: url rewrite і img url rewrite (url = site.ru / go? A% 3AaHR0cDovL2NsaWNrLmhvdGxvZy5ydS8% 2FMjMwMDM1Nw% 3D% 3D), підтримка чорного і білого списків, сторінка редиректу, тег noindex і атрибут nofollow.
Далі оновлений мною модуль:
Модуль Карта сайту YaSiteMap
Модуль Карта сайту YaSiteMap - це HTML карта сайту.
HTML карта сайту потрібна для швидкої індексації пошуковими системами і зручності пошуку публікацій відвідувачами вашого сайту. Крім того модуль дозволяє поліпшити для сторінок сайту такий показник як вкладеність. В даному модулі реалізовані посторінковий вивід посилань на статті та кешування.
Корисний модуль на практиці прискорює індексації сайту Яндексом:
Ще один неприємний момент найчастіше в індекс потрапляють залишені на зовнішніх ресурсах посилання на аттачі, і robots.txt нас від цього не захистить, тому закриваємо їх від індексування атрибутом nofollow:
І останній спірне питання що робити з віддаленими сторінками і розділами?
Багато хто використовує 301 редирект з них на головну. Якщо ви його прихильник, можете прочитати як це зробити у Алаєва.
Я вважаю цей спосіб неправильним, це обман користувача і ПС. Раз Сторінка наразі не має, значить повинна виводиться помилка і не вводити користувача в оману.
Тому я рекомендую зробити наступне. Скрипт сам віддає помилку 404, але цього як би недостатньо для видалення сторінки з сервісів ПС особливо коли на неї ще десь висять посилання, тому додамо висновок мета-тега robots на сторінки помилок.
Відкриваємо файл /engine/modules/show.full.php
знайти:
Відкриваємо файл /engine/modules/static.php
знайти:
Відкриваємо файл /engine/modules/show.short.php
Знайти, Увага! (3 рази):
І Увага! ВИЩЕ додати:
Ну ось поки і все.