Частотний словник російської мови

Друга версія частотного списку

На цій сторінці Ви можете отримати списки найбільш частотних слів російської мови. До теперішнього часу Частотний словник російської мови під ред. Л.Н.Засоріной (1977) найчастіше використовувався в якості джерела інформації про частоту російських слів. Однак корпус, на основі якого була підрахована частота слів в цьому словнику, за сучасними стандартами дуже малий (близько мільйона слів). Крім того, список суттєво застарів: він відповідає частоті використання слів в період з 20-х до 60-х років. В результаті корпус включає велику кількість ідеологічних джерел, наприклад, твори Леніна і Калініна, Матеріали 22 і 23 з'їздів КПРС, радянські газети. Слова радянський і товариш входять в першу сотню російських слів, поряд зі службовими словами (вони зустрічаються частіше слів де, тут, ваш), слова партія, революція, комуністичний зустрічаються частіше ніж назад, близько, краще і т.д. Нарешті, список слів зі словника Засорін не існує в електронному вигляді.

Список слів, доступний з цієї сторінки, містить приблизно 35000 слів з частотою більшою 1 ipm (входжень на мільйон слів, instances per million words). Є також більш короткий список з 5000 найбільш частотних російських слів. Списки використовують кодування кирилиці Windows-1251 і упаковані утилітою WinZip (користувачі Linux або Mac можуть використовувати StuffIt для розпакування).

Структура списків відповідає формату лемматізірованних списків з British National Corpus (BNC). створених Адамом Кілгаріфом, а саме:
порядковий номер, частота (ipm), лема, частина мови (класифікація BNC).

Слова з частотою більше 1 ipm

  • lemma.al.zip - леми, відсортовані в алфавітному порядку
  • lemma.num.zip - леми, відсортовані за частотою
  • words.num.zip - словоформи, відсортовані за частотою

Список 5000 найбільш частих слів

Деякі статистичні дані про використання російських слів

Більш повна інформація про відповідність між частотою слова і покриттям корпусу знаходиться тут.

Також окремі частотні списки є для наступних класів слів:

  1. частота відповідної леми (забрав, стану, подати в якості іменника вкрай малоймовірно, тому в цих випадках вибирається дієслово);
  2. порівняльна частота конкретної форми (обидві леми для стали досить частотних, але іменник на відміну від дієслова дуже часто вживається саме в цій формі; форму пора доводиться вважати в предикативному вживанні, в той час як іменник виступає у всіх своїх інших формах).

Подібно словником Засорін прізвища, імена та по батькові були відфільтровані з лемматізірованних частотних списків, але географічні назви залишені, оскільки складно виправдати чому в словнику Засорін залишені московський або американський. але не Москва і Америка. Частотний список словоформ відфільтрований не був.

Схожі статті