Технологія «спектр» яндекса і класифікація веб-сторінок

Свій виступ Євген присвятив особливостям технології «Спектр». І почав, як водиться, з історії питання.

Коли користувачі задають запити до Яндексу, приблизно в 20% випадків вони формулюють запит неоднозначно. Наприклад, за запитом [наполеон] хтось хоче знайти полководця, а хтось - рецепт торта. А задаючи запит [суші], людина може шукати і ресторан з доставкою додому, і рецепт цієї страви.

З використанням статистки пошукових запитів виділяються неявні цілі. В принципі, це розумно. Хтось при пошуку [ноутбук] хоче купити новий ноутбук, хтось хоче купити ноутбук б / у.

Види тематик знайдених результатів:

1. Тема сторінки: «нові, купити». Підсвічені в сніпеті: продаж, ціна. купити, каталог, нові, тощо

2. Тема сторінки: «б / у». Підсвічені в сніпеті: б / у, старі. т.п. Індикатор не горить: продаж, ціна, ремонт

3. Тема сторінки: «ремонт» підсвічені в сніпеті: ремонт. т.п. Індикатор не горить: продаж, ціна, б / у

На думку Євгена, спочатку технологія «Спектр» працювала правильно. Тематики були роздільні і не перетиналися. Тоді працювала звичайна ідея сеошника - написати побільше різних слів, а раптом чогось та й вилізе. Зараз «Спектр» працює по-іншому.

Зараз, для запиту виділяється якийсь список додаткових ІНТЕНТ (

намірів, тематик) користувача, в видачу додаються результати з окремою бази класифікованих сторінок (по відповідності тематиці):

- Підсвічування «спектровая» слів в «звичайних» результатах

- Підсвічування всіх «спектровая» слів незалежно від ІНТЕНТ (тим)

- Підмішування - це милицю. Іноді виникають сайти, які вилазять на всі запити. Це досить відома річ, коли за запитом [робота] вилазять сайти про «автофургони» через те, що у нього десь було написано слово «робота», а сам сайт був в більш релевантною базі. Звичайно ж, не можна припустити, що сайт про автофургони був класифікований за запитом [робота]. «Автофургони» забивають видачу.

- Буває кілька домішкових результатів по одному ІНТЕНТ. Наприклад, кілька видач за відгуками. Наприклад, запит моделі машини [Suzuki Grand Vitara]. Там виділені і фотографії і опис, і вартість, і технічні характеристики - всі можливі ІНТЕНТ, які є, там виділяються:

Технологія «спектр» яндекса і класифікація веб-сторінок

Як відрізнити спектровая домішка по одному і тому ж ІНТЕНТ, по одній і тій же тематиці?

За ідентифікатором документа в XML-видачі. Виділені кольором фрагменти регулярно змінюються. Видно, що шостий результат і п'ятий присвячені відгуками, хоча крім відгуків існує багато і інших можливих намірів користувача. У кожного знайденого результату є ідентифікатор документа:

Звичайний документ: 4 фрагмента

СПЕКТР. 3 фрагмента

Бистроробот: 3 фрагмента

Ультраробот (зараз немає): 2 фрагмента

Наприклад, в запиті [я] було десять з десяти спектровая результатів у видачі. І запити різні типи [пермі, казани, Новосибірська]. Дуже незрозуміло чому в такому відмінку: [виктора цоя], [про собак]. Таке враження, що там було перше слово, але потім його відрізали і викинули, а сам запит саме в такому вигляді потрапив в «Спектр».

Ось запит [казани], доп. тематики «Спектра» - 7 з 10:

Які у нас є наочні тематики? Карта, пам'ятки, новини, готелі. Місто Казань - офіційний, напевно, якийсь сайт міста Казані. І останнє - Gismeteo.ru, погода. Все начебто добре. Але, коли ми введемо запит [казань], то ми побачимо, що «Спектра» просто немає, і ніяких домішок тут не проглядається:

Це звичайна видача. Дивно, що «Спектра» за цим запитом немає, незважаючи на те, що частотність у нього раз у десять більше, ніж у запиту [казани].

Деяким сайтам везе сильніше. Деякі сайти дуже часто потрапляють в «Спектр». Ясна річ, що, чим більше запитів, тим більше і сайтів. З великої кількості спектровая домішок, найбільший лідер - це www.torrentino.com, www.zaycev.net, потім знову www.fast-torrent.ru - в загальному, розважальні сайти.

Деяким сайтам везе тимчасово потрапити в «Спектр», їх потім вичищають.

Term features. We identifi ed the most informative term-features based on mutual Information ... As expected, the most contrasting terms were магазин, рубль, каталог, ціна, прайс, and кошик ... The full list of terms used for classifi cation consisted of about one hundred terms .

Lexical features. We used the list of trademarks and brands

Term features ... lexical variety of reviews is much higher than that of shop pages, the list of contrasting words was much longer and exceeded 7,000 words.

Lexical features.The list of 165 manually collected appraisal adjectives-хороший, прекрасний, чудовий, поганий, огидний, жахливий, etc. (Good, excellent, magnifi cent, bad, disgusting, awful, etc.)

Людина ставить запитання про можливий товар і стоїть завдання вирішити, він хотів купити цей товар або він хотів почитати про нього. Для класифікації запитів і сторінок для магазинів використовується термінологія, де близько сотні слів, помітних для магазину. А для класифікації огляду використовується близько 7 тисяч слів, і частина прикметників виробиться вручну. Порядок слів у класифікаторі - 7-10 тисяч.

Але найцікавіше, що видача - це ще й багатослівні фрагменти. Наприклад, запит [піца] в Москві. Видно, що [піца] і [доставка] виділяються окремо, а фрагмент [додому] виділено цілком. Два слова в одному фрагменті:

Взагалі, видача таких багатослівних фрагментів в «Спектрі» дуже велика. Із загальної кількості 83 тисячі, зустрічалося 20-25% спектровая домішок, а унікальних було тільки 127 штук.

Топ багатослівних фрагментів виглядає так:

що таке - 21773, 26.1%

дивитися онлайн - 17034, 20.4%

текст пісні - 10970, 13.1%

своїми руками - 9809, 11.7%

в домашніх умовах - 4062, 4.9%

прогноз погоди - 2639, 3.2%

відгуки власників - 2324, 2.8%

слова пісні - 2049, 2.5%

тексти пісень - 1 862, 2.2%

скачати драйвера - 1001, 1.2%

на карті - 992, 1.2%

технічні характеристики - 970, 1.2%

онлайн дивитися - 899, 1.1%

карта міста - 681, 0.8%

скачати драйвер - 634, 0.8%

Очевидно, що ці фрагменти додаються вручну. Але, звичайно, страшнувато, що Яндекс почне враховувати ці слова при ранжируванні, тому що вони поки при ранжируванні не використовуються, а використовуються тільки в класифікаторі «Спектра». Що робити?

Якщо припустити, що в ранжируванні вони не беруть участь, то єдиний можливий інтерес - це потрапити в спектровая домішки. Далі - якісний сайт. Деякі сайти підмішуються частіше. З'ясовувати класифікаційні слова і багатослівні фрагменти для ваших запитів (запити на різні тематики). Не соромитися їх вживати в тексті. І так далі.

Дякую за увагу!

Зал: - Чи не досліджувався чи тип запиту, який потрапляє в спектральну домішка? Зрозуміло, що він повинен містити додаткові слова, які характеризують ІНТЕНТ. Йдуть вони через оператора чи ще якимось чином додаються? Те, що ми слова можемо виокремити - зрозуміло. Візьмемо тематику самостійно, впишемо умови. Всі ці речі ми можемо обчислити і слова і фрази. Але логічно припустити, що в сайти потрапляє домішка за цими ІНТЕНТ і вони є лідерами по якомусь запиту. Чи проводилося таке дослідження? Або на запити, або на лідера по групі запитів. Що це за запит? Або взагалі це інший вид попадання?

Євген Трофименко: - Тут два варіанти твого питання. Або про запит, або про перетин тематик в «Спектрі».

Зал: - Про запити.

Євген Трофименко: - Ні, це не досліджувався.

Зал: - Тобто, логічно припустити, щоб вирішити завдання потрапити в «Спектр», треба зрозуміти по якому запиту і стати по ньому лідером?

Євген Трофименко: - Чи не лідером. Я думаю, що треба взяти хоч один запит, за яким є спектр, і який вам підходить.

Зал: - Раніше був один спектральний результат, і він виводився на якомусь одному фіксованому місці, на шостому або на восьмому. Потім спектральний результат став номер один і займає перше місце?

Євген Трофименко: - Тобто, ви хочете запитати, як відбувається зміна позицій в спектральної домішки?

Зал: - Так. Може бути, це досліджувалося?

Євген Трофименко: - Ні, це не досліджувався. Просто потрібно обробити невеликий набір запитів.

Зал: - Тобто, просто змінюється позиції спектральної домішки?

Євген Трофименко: - Звичайно, змінюється.

Зал: - Хотілося б уточнити, звідки брати ось ці доп. слова для підмішування?

Євген Трофименко: - Парс видачу тих запитів, які вас цікавлять.

Зал: - Але там не всі, напевно, будуть?

Євген Трофименко: - Так, там не все. І, щоб не все парсити, ви по кожному знайденому сайту, перебирає три сайти. Після цього там теж десяточка підсвічується. І перебираючи різні urlи всередині сайту, можна витягнути побільше.

Технологія «спектр» яндекса і класифікація веб-сторінок

Схожі статті