Як пошукові системи визначають словоформи

Як пошукові системи визначають словоформи

Наш великий і могутній російську мову не тільки красивий, але і дуже складний. Часто навіть інтуїтивне уявлення носіїв мови йде врозріз з формальним. Наприклад, хто з нас згадає, що формально «кращий» - форма слова «хороший», так як є чудовою ступенем цього прикметника? У той же час «прекрасний» і «прекрасно» - це різні слова, так як належать різним частинам мови: «прекрасний» - прикметник, «прекрасно» - одні.

Результати машинного розбору ще більш вражаючим відрізняються від нашого інтуїтивного уявлення. У даній статті ми розберемо, як бачить словоформи Яндекс і як це впливає на пошукову видачу.

Відмінності машинних словоформ

У нашій мові кілька сотень тисяч слів, причому кожне з них має по десятку, а то і не одному, словоформ. Кожна словоформа, в свою чергу, має кілька властивостей (відмінок, рід, число, спосіб і т.д.). Якщо взяти будь-який прикметник, то воно може перебувати в семи відмінках, короткій формі, двох числах, трьох пологах, двох ступенях, бути живими або неживим. Таким чином, кожне прикметник має 129 словоформ. Більше половини з них будуть відрізнятися закінченнями.

Деякі морфологічні словники заради економії місця групують слова за закінченням в певні морфологічні групи. Наприклад, прикметники «повзучий» і «могутній» мають однакові закінчення в одних і тих же словоформах. Такі слова об'єднуються, і для них вказується тільки основа, загальна для всіх словоформ, і номер морфологічної групи: «могутній, могутній *, група №21».

Більшість електронних баз працюють за схожим принципом. Якщо зберігати всі словоформи окремо, доведеться виділити близько 500МБ пам'яті, в той час як для групи вистачить 10. Звичайно, 500МБ для великого сервера - це зовсім не багато, проте потрібно врахувати, що роботи над морфологією Яндекса велися близько 10 років тому, а тоді покупка сотень серверів з великим об'ємом пам'яті була дорогим задоволенням. З тих часів правила російської мови не змінювалися, а тому не було необхідності переписувати морфологію - тим більше, що будь-яке її системна зміна призвело б до необхідності переписування інших частин коду.

Синоніми і словоформи

У результатах пошуку словоформи виділяються жирним. Втім, як і синоніми. Саме тому ми точно не можемо сказати, чи вважає пошукова система слова в сніпетів і запиті як форми одного слова або синоніми? Щоб вимкнути підсвітку синонімів і залишити тільки словоформи, в Яндексі можна скористатися оператором «+».

Велика частина сучасних морфологічних баз даних засновані на словнику Залізняка, в якому заради економії місця на сторінках були введені морфологічні групи. Однак з огляду на те, що Залізняк і його колеги працювали над словником понад 40 років тому, він грішить деякими «архаїзмами». Наприклад, дієслова, їх причастя і дієприслівники (написати / написав) вважаються словоформами, в той час як дієслова доконаного і недоконаного виду (писати / написати) - немає.

Як пошукові системи визначають словоформи

Провівши перевірку в Яндексі на такі архаїзми (їх можна знайти в базі АОТ.ru), ви з'ясуєте, що він містить їх практично в повному складі. Правда, варто врахувати, що Яндекс застосовує базу «синонімів», і однією з цілей є саме виправлення різниці сприйняття словоформ людьми і машинами. Так, якщо в запиті «робити димову шашку» жирним виділиться і слово «зробити», то якщо додати «+» перед словом «робити», то підсвічування слова «зробити» зникне.

Як розуміє словоформи Google

Англійська мова далеко не так складний, як російська. Чи не така багата у нього і морфологія: у слів буває лише кілька словоформ. Саме тому необхідності в угрупованні слів з метою оптимізації пам'яті не виникає. Можливо, саме заради спільності коду російської та англійської версій морфологія Google не використовує групи, а тому позбавлена ​​недоліків Яндекса.

Якщо ви введете в цій пошуковій системі запит «зроблений», то шукатися буде зовсім не слово «робити», як Яндекс. Заради експерименту можете набрати в Яндексі і Гуглі фразу «як зроблений пиріг». У більшості випадків Google виділяє жирним тільки словоформи, однак відключити підсвічування слова «зробити», коли ви шукаєте «робити», в це пошуковій системі не вийде. Таким чином, виходить, що в Гуглі «робити» і «зробити» - словоформи, а в Яндексі - синоніми.

Як це не дивно, в Google російська морфологія реалізована правильніше, ніж в Яндексі. Ще більш парадоксальний той факт, що така система - це наслідок того, що Гугл прийшов до нас з Америки. Втім, не завжди «правильніше» означає «краще». Видача який пошукової системи релевантні - дуже спірне питання. Як і те, що саме пошуковик повинен видавати у відповідь на запит «як зроблений пиріг».

Різниця в результатах ранжирування

Те, що Яндекс підсвічує або НЕ досвічувати словоформи за допомогою плюса, позначає, що частина словоформ визначаються відразу морфологією, інші - як синоніми. Дуже може бути, що Яндекс не робить різниці в ранжируванні для морфологічних і сінонімальних словоформ.

Сьогодні не існує ні методу для оцінювання різниці видачі, ні програмних засобів для її розрахунку. Вручну проаналізувати видачу по декільком сотням запитів дуже складно. Таким чином, довести, що існує якась різниця в ранжируванні різних типів словоформ, неможливо. Єдиний шлях - знайти непрямі підтвердження.

Якщо запитувати у пошукача машинні словоформи, то число знайдених сторінок буде відрізнятися не більше ніж на 1%. А ось при запиті словоформ-синонімів різниця набагато істотніше, від 10 до 30%:

  • «Зробити гугл стартовою сторінкою» - 5 мільйонів
  • «Зробив гугл стартовою сторінкою» - 5 мільйонів
  • «Робити гугл стартовою сторінкою» - 7 мільйонів
  • «Робив гугл стартовою сторінкою» - 7 мільйонів

Цікаво порівняти і зміни у видачі між Google і Яндексом. У першій пошуковій системі різниці між запитами «як правильно робити пиріг» і «як правильно зробити пиріг» практично немає. В Яндексі в першій десятці співпадуть тільки 2 запити з десяти, та й ті істотно змінять позиції.

Є і група слів, які виділяються жирним по дуже дивним принципом. Наприклад, якщо ввести слово «купити», то будуть підсвічуватися і його словоформи недосконалого виду (наприклад, «купувати»), причому навіть якщо ви поставите «+». Вся справа в тому, що Яндекс ввів для цього слова виняток, хоча для WordStat «купити» і «купувати» так і залишилися різними словами. Якби по синонімів і словоформам результати видачі були однаковими, то ніякого резону робити виключення для цього слова не було б.

«Купити» дуже популярний запит (WordStat свідчить, що у нього більше 40 мільйонів показів на місяць), тому були зроблені додаткові дії для поліпшення його ранжирування. Може, поліпшення результатів видачі від введення прямого зв'язку між «купувати» і «купити» і неочевидно, але розробникам і асесор видніше. Існує ще один приклад, за яким поліпшення видачі не викликає сумнівів.

Йдеться про слова «варити» і «варіння». За WordStat «варити» має мільйон показів, «варіння» - близько 100 тисяч. Однак якщо статтю не перевіряв SEO-фахівець, то називатися вона буде «Варка кави», а зовсім не «Як варити каву». Користь від такого винятку для ранжирування в наявності.

Як то кажуть, винятки лише підтверджують правила. Ми ж на основі проведених досліджень можемо говорити, що морфологічні словоформи ранжуються вище, ніж словоформи-синоніми.

високочастотні запити

Виділення синонімів жирним вимикається не тільки при додаванні «+». Зверніть увагу: якщо набрати в рядку пошуку «готелі Москви», то слово «готелі» підсвічуватися не буде. А ось якщо ввести «готелі Москви центр» або «готелі Києва», то підсвічування знову включиться. Значить, існує певний поріг, який, мабуть, залежить від кількості сторінок в індексі або релевантності перших сайтів, а не від частотності запиту. Як тільки цей поріг долається, синоніми не включаються в видачу, щоб не погіршити її результати.

Загальні правила розпізнавання словоформ

Досконалий і недосконалий вид дієслова - синоніми, а не словоформи

  • актуально лише для Яндекса
  • робити ≠ зробити
  • виключення: купити / купувати, вискубати / вискубати, відправити / відправляти

Дієслова, причастя і дієприслівники є словоформами

  • актуально лише для Яндекса
  • зробити = зроблений = зробив = зробив і т.д.

так як причастя схиляються по числу, роду і відмінку, як прикметники, і по заставі, як дієслова, то у кожного дієслова по Яндексу понад 100 словоформ. А у слова «купити», яке є винятком, їх ще більше. Причастя можна використовувати для поліпшення ранжирування дієслів (наприклад, «куплений», «купив» для слова «купити»).

Різні частини мови не є словоформами один одного

  • актуально лише для Яндекса
  • покупка ≠ покупець ≠ купувати
  • красиво заспівати ≠ співати красиво
  • силач ≠ сильний
  • виключення: варити / варіння, а також всі дієслова, дієприкметники і дієприслівники

Все словоформи іменників мають один рід

  • актуально і для Яндекса, і для Google
  • красень ≠ красуня
  • учитель ≠ вчителька

Найвищий ступінь прикметника є однією з словоформ

  • актуально лише для Яндекса
  • хороший = кращий
  • добрий = найдобріший = найдобрішого = найдобріша = найдобріша
  • красивий = красивий і т.д.
  • зверніть увагу: прекрасний ≠ красивий (ці слова є синонімами)

Вищий ступінь прикметника є однією з його словоформ

  • актуально і для Яндекса, і для Google
  • добрий = добрішими
  • красивий = красивіше
  • зверніть увагу: в Google хороший ≠ краще, оскільки цю словоформу пошуковик відносить до найвищого ступеня.

В Google об'єднання слів відбувається по інтуїтивного їх схожості, а не за формальними правилами російської мови, що відмінно видно на прикладі «хороший» - «краще». У решти прикметників вищий ступінь відноситься до звичайної, а не чудовій формі.

Як вже говорилося вище, швидше за все релевантність словоформ-синонімів в пошукових системах нижче, ніж у морфологічних словоформ. Тому, якщо ви оптимізуєте сторінку, краще використовуйте словоформи в машинному поданні. Особливо актуальна ця порада, якщо ви вставляєте популярне уточнення в шаблон ресурсу, оскільки таким чином ви змінюєте до декількох тисяч сторінок.

Наша спеціалізація - робота з різними обсягами і тематиками. Сайти-візитки, портали, інтернет-магазини.

Нами успішно реалізовано більше 113 проектів.

Схожі статті