Визначення географічних регіонів пошуку
Оскільки проведення інформаційного пошуку переслідує практичні цілі - практична цінність інформаційного ресурсу може залежати від географічного розташування відповідного джерела.
складання тезауруса
Для ефективного використання пошукових серверів необхідний список ключових слів, організований з урахуванням семантичних відносин між ними, тобто тезаурус. При складанні тезауруса необхідно передбачити обробку синонімів, омонімів і морфологічних варіацій ключових слів.
Використання законів Зіпфа
Число, що показує скільки раз зустрічається слово в тексті, називається частотою входження слова. Якщо розташувати частоти у напрямку зниження і пронумерувати, то порядковий номер частоти називається ранг частоти. Ймовірність виявлення слова в тексті = частота входження слова / число слів в тексті. Зіпф знайшов, що якщо помножити ймовірність виявлення слова в тексті на ранг частоти, то отримана величина приблизно постійна для всіх текстів на одній мові:
С = (частота входження слів X ранг частоти) / число слів
Це означає, що графік залежності рангу від частоти - рівнобічна гіпербола.
Зіпф також встановив, що залежність кількості слів з даної частотою від частоти - також гіпербола і постійна для всіх текстів в межах однієї мови.
Що можна витягти з цих законів? Дослідження вищевказаних залежностей для різних текстів показали, що найбільш значущі слова тексту лежать в середній частині діаграми, так як слова з максимальною частотою як правило є приводами, частками, займенниками, в англійській мові - артикля (так звані "стоп-слова"), а рідко зустрічаються слова в більшості випадків не мають вирішального зн