Кожен власник сайту знає, що з часом на його ресурсі накопичується купа непотрібних сторінок, деякі навіть віддають 404, деякі являють собою не зрозумій чого. Все це нам не потрібно, не потрібно і Google. Але сміття продовжує висіти, і найчастіше він застряє в додаткових результатах видачі, куди ніхто, крім власників сайтів (використовують оператор site, щоб подивитися) не заглядає.
Які є варіанти?
1) Видалення сторінок на сайті. З використанням robots.txt.
Нагадаю, що robots.txt в Google управляє тільки скануванням сторінок, тобто включає або вимикає доступ в певні місця сайту. Те, що знаходиться вже в індексі Google, підпорядковується тільки метатегах robots з параметром noindex. А в robots.txt, якщо що-небудь заборонити, то що вже відомо Google, це саме просто не буде скануватися, залишиться в індексі без оновлення. Згодом отримає заглушку замість сниппета і піде на "запасні шляхи" індексу.
Власне, не мудруючи лукаво, ми видаляємо на сайті сміттєві сторінки. Сторінки видалені і отримали код 410 (або 404). Статус "видалено" або "відсутній.
В robots.txt обов'язково відкриваємо доступ до цих віддаленим сторінок. інакше гуглбот не зможе прочитати код 410 або 404.
Що важливо знати. Для видалення непотрібних сторінок досить коду 404 і доступу до нього гуглобота. Усе! Google не штрафує сайти за велику кількість сторінок 404 або 410. Ці сторінки з часом підуть з індексу. Якщо не йдуть, зверніться в Google. оформлять баг.
2) Ми залишаємо сторінки на сайті, використовуємо метатег robots з параметром noindex. Цей метатег управляє індексуванням. Сторінки, їм помічені, втечуть з індексу згодом самі. В robots.txt до них повинен бути прописаний дозволяє доступ.
3) Ми залишаємо сторінки на сайті, використовуємо атрибут rel = "canonical". Цей спосіб годиться тільки для того, щоб позбутися від абсолютно ідентичних дублів. В іншому випадку Google не врахує цей параметр. В результаті при хорошому розкладі в індексі залишається канонічна сторінка, а її дублі (хоч один, хоч тисяча) зникнуть.
Див. Канонічні URL.
Будьте уважні! Google підтримує кроссдоменную канонізацію посилань, Яндекс - немає!
4) Ми залишаємо сторінки, налаштовуємо редирект 301 на правильні версії. Щоб гуглбот побачив редирект, все повинно бути відкрито в robots.txt!