Друга версія частотного списку
На цій сторінці Ви можете отримати списки найбільш частотних слів російської мови. До теперішнього часу Частотний словник російської мови під ред. Л.Н.Засоріной (1977) найчастіше використовувався в якості джерела інформації про частоту російських слів. Однак корпус, на основі якого була підрахована частота слів в цьому словнику, за сучасними стандартами дуже малий (близько мільйона слів). Крім того, список суттєво застарів: він відповідає частоті використання слів в період з 20-х до 60-х років. В результаті корпус включає велику кількість ідеологічних джерел, наприклад, твори Леніна і Калініна, Матеріали 22 і 23 з'їздів КПРС, радянські газети. Слова радянський і товариш входять в першу сотню російських слів, поряд зі службовими словами (вони зустрічаються частіше слів де, тут, ваш), слова партія, революція, комуністичний зустрічаються частіше ніж назад, близько, краще і т.д. Нарешті, список слів зі словника Засорін не існує в електронному вигляді.
Список слів, доступний з цієї сторінки, містить приблизно 35000 слів з частотою більшою 1 ipm (входжень на мільйон слів, instances per million words). Є також більш короткий список з 5000 найбільш частотних російських слів. Списки використовують кодування кирилиці Windows-1251 і упаковані утилітою WinZip (користувачі Linux або Mac можуть використовувати StuffIt для розпакування).
Структура списків відповідає формату лемматізірованних списків з British National Corpus (BNC). створених Адамом Кілгаріфом, а саме:
порядковий номер, частота (ipm), лема, частина мови (класифікація BNC).
Слова з частотою більше 1 ipm
- lemma.al.zip - леми, відсортовані в алфавітному порядку
- lemma.num.zip - леми, відсортовані за частотою
- words.num.zip - словоформи, відсортовані за частотою
Список 5000 найбільш частих слів
Деякі статистичні дані про використання російських слів
Більш повна інформація про відповідність між частотою слова і покриттям корпусу знаходиться тут.
Також окремі частотні списки є для наступних класів слів:
- частота відповідної леми (забрав, стану, подати в якості іменника вкрай малоймовірно, тому в цих випадках вибирається дієслово);
- порівняльна частота конкретної форми (обидві леми для стали досить частотних, але іменник на відміну від дієслова дуже часто вживається саме в цій формі; форму пора доводиться вважати в предикативному вживанні, в той час як іменник виступає у всіх своїх інших формах).
Подібно словником Засорін прізвища, імена та по батькові були відфільтровані з лемматізірованних частотних списків, але географічні назви залишені, оскільки складно виправдати чому в словнику Засорін залишені московський або американський. але не Москва і Америка. Частотний список словоформ відфільтрований не був.