Частотний словник національного корпусу російської мови

ЧАСТОТНИЙ СЛОВАРЬ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ: КОНЦЕПЦІЯ І ТЕХНОЛОГІЯ СТВОРЕННЯ

FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY

Словник містить представницький базовий словник сучасної російської мови (2-я половина XX - початок XXI ст.), Забезпечений інформацією про частотності вживання, статистичному розподілі за текстами і жанрами, за часом створення текстів. Словник заснований на текстах Національного корпусу російської мови обсягом 100 млн. Слововживанні.

Табл. 1. Функціональні стилі подкорпуса сучасної російської мови

2. Розмір корпусу і надійність вибірки

Існуючі частотні словники для російської мови були побудовані на порівняно невеликих корпусах: ЕОМ перших поколінь не могли працювати з корпусами більшого розміру. Цікаво, що теоретичні рекомендації, вироблені в 1970-і роки (Піотровський і ін. 1972), також доводили, що для достовірного опису 1600-1700 найбільш частотних слів досить використовувати корпус розміром 400 тис. Слововживань. Ця аргументація будувалася на понятті довірчого інтервалу, який широко використовується в статистиці і соціології: якщо ми знаємо розмір вибірки і експериментальну ймовірність події в цій вибірці (тобто частоту слова нашому корпусі), то ми можемо обчислити довірчий інтервал ймовірності цієї події на всій популяції (тобто частоту вживання того ж слова у всьому просторі мови).

Табл. 2: Порівняння частоти окремих слів (середнє на мільйон слововживань).

Як бачимо, теоретичні рекомендації щодо достатнього розміру корпусу в даному випадку виявляються не дуже достовірними. Причина цього криється в початкових припущеннях на нормальне Гаусове розподіл частоти слів, відповідно до якого кожне слово зустрічається з однаковою частотою у всіх текстах. Якщо слово зустрілося в тексті один раз, то при нормальному розподілі це не впливає на ймовірність його вживання там вдруге. Але в реальності це не так. Кожен текст має деяку власну тему, слова якої в цьому тексті будуть вживатися набагато частіше середнього. У тексті про хоббітів слово хоббіт вживатиметься так само часто, як і багато службові слова, що істотно підвищить його частоту в корпусі, який буде включати хоча б один такий текст [1]. В результаті частотний список, побудований на основі корпусу, відображає специфіку тих текстів, які потрапили в нього при його складанні.


де # 956; - середня частота слова по всьому корпусу, # 963; - середнє квадратичне відхилення цієї частоти на окремих документах, n - число документів, в яких зустрічається це слово.

Значення D у слів, що зустрічаються в більшості документів, близько до 100, а у слів, часто зустрічаються лише в невеликому числі документів, близько до 0. Частотний список словника Леннгрена навіть відсортований за значенням твори цього коефіцієнта на середню частоту слова. У зв'язку з тим, що теоретичний статус цього твору неясний, ми не вважали за доцільне сортувати наш словник по ньому. Однак його вказівка ​​для кожного слова дає можливість оцінити, наскільки воно специфічно для окремих предметних областей. Наприклад, слова моторошний, специфічний і сировину мають приблизно рівну частоту (21 вживання на мільйон слів), але при цьому коефіцієнт D у специфічний - 66, сировина - 18, а у моторошний - 78, що означає, що останнє слово значимо для більшого числа предметних областей і (за інших рівних умов) має великі шанси на місце в неспеціалізованому словнику.

3. Структура словника

Концепція словника припускає видання «паперової» версії з супутнім їй електронним варіантом, що представляє частотний словник в більш повному обсязі. Словникова частина містить такі розділи:

I. Загальна лексика

# 9679; алфавітний список лем

# 9679; частотний список лем

# 9679; розподіл лем по функціональних стилів:

Ø частотний словник художньої літератури,

словник значущою лексики художньої літератури

Ø частотний словник публіцистики,

словник значущою газетно-новинний лексики

Ø частотний словник інший нехудожньої літератури,

словник значущою лексики

Ø частотний словник живої усної мови,

словник значущою лексики живої усної мови

# 9679; алфавітний список словоформ

# 9679; частотний список імен іменників

# 9679; частотний список дієслів

# 9679; частотний список прикметників

# 9679; частотний список говірок і предикативу

# 9679; частотний список займенників (займенники-іменники, прикметники, прислівники, предикативу)

# 9679; частотний список лем службових частин мови

III. допоміжні таблиці

# 9679; дані про частотність частеречную класів і інша статистична інформація

IV. Імена власні і абревіатури

# 9679; алфавітний список лем

В алфавітному списку лем наводиться ім'я леми, частина мови, загальна частота леми, число документів, в яких вона зустрілася і коефіцієнт варіації D. Загальна частота характеризує число вживань на мільйон слів корпусу, або ipm (instances per million words). Це робиться для того, щоб спростити порівняння частоти слова в різних корпусах, які можуть досить сильно відрізнятися за своїми розмірами. Наприклад, якщо слово влада зустрічається 55 разів в корпусі розміром 400 тис. Слів, 364 рази на мільйонному корпусі і 40598 раз в 100-мільйонному корпусі сучасної російської мови і 55673 рази в великому 135-мілліо¬нном корпусі НКРЯ, то його частота в ipm складе 137,5, 364.0, 372.06 і 412.39, відповідно. Алфавітний список електронного видання включає 60 000 найбільш частотних лем.

У списку лем, що згруповані у частотності, вказуються ім'я леми, частина мови, загальна частота леми, число документів, коефіцієнт D і розподіл частотності по десятиліттях. Частотний список включає 20 000 самих частотних лем.

Частотні словники функціональних стилів складені на основі подкорпусов художньої літератури, публіцистики, інший нехудожньої літератури та усного мовлення. У список включені 5 000 самих частотних лем цих подкорпусов. Список найбільш типових лем для кожного типу текстів було виділено на основі порівняння частоти лем в таких текстах і в іншому корпусі. Як метрики порівняння був використаний критерій відношення правдоподібності (log-likelihood), який вираховується на основі такої матриці:

Словники значущою лексики для різних функціональних стилів включають по 500 лем.

Алфавітний список словоформ включає всі словоформи корпусу з частотою вище 0.1 ipm (всього близько 15 тис.); наводиться загальна частота словоформи. Омонімічние словоформи позначаються знаком *.

У розділі «Частини мови» частотний список лем розбитий на шість подсписков: іменники, дієслова, прикметники, прислівники і предикативу, займенники та службові частини мови. Для кожної леми вказана її загальна частота і ранг (порядковий номер) в загальному списку. Кожен список містить по 1 тисячі найбільш частотних лем.

Для отримання списку імен власних і абревіатур з конкордансу корпусу були виділені іменники і скорочення, написання яких в текстах з великої літери перевищувало 95-відсотковий поріг, пор. Росія, Смирнов, ГРЕС, МЗС, КЗпП. [2] До словника включено ядерна частина цього списку, що налічує 3 000 найбільш частотних одиниць.

За традицією, що склалася для видань такого роду, на сторінках словника представлена ​​рубрика «Цікаві факти»: публікуються списки найпопулярніших слів різних лексичних груп (дні тижня, погодні явища, кольору, дієслова руху і т.д.), а також найдовші словоформи і частотний список знаків пунктуації.

Табл. 3: Частотний список позначень одягу і взуття.

Як приклад в таблиці 3 ми наводимо частоти іменників, що позначають одяг і взуття. Як можна очікувати, список відображає, з одного боку, «типовість» елементів гардероба (валянки займають лише 26 місце в списку), а з іншого боку, їх «значимість» при описі зовнішності людини в текстах (костюм - більш перцептивно виділена річ, ніж черевики).

4. Підготовка словникового матеріалу

Російська мова як мова з багатим словоизменением створює додаткові труднощі для укладачів частотного словника, так як багато словоформи в текстах омонімічни (пор. Словоформу стали як форму дієслова стати і іменника сталь. Словоформу банку. Представляє леми банк і банку. Слова типу віра і Віра) . Проте, в частотному словнику вихідна форма слова, або лема, повинна бути приписана будь словоформи однозначно.

Оскільки автоматичне дозвіл омонімії та інтерпретація знайдене форм допускають певну, хоча і незначну, похибка, омоніми, що входять в перші 20 тисяч частотних слів, зазнали додаткової ручної перевірки.

Виноградов В.В. (Відп. Ред.). Словник мови Пушкіна. Т. I - IV. М. 1956-1961.

Засорина Л.Н. (Ред.). Частотний словник російської мови. Москва: Російська мова. 1977.

Піотровський Р.Г. Бектаев К.Б. Піотровська А.А. Математична лінгвістика. М. Вища школа. Тисячі дев'ятсот сімдесят дві.

Степанова О.М. Частотний словник загальнонаукової лексики. М. 1 976.

Штейнфельд Е.А. Частотний словник сучасної української літературної мови. Таллінн. 1 963.

Josselson H.H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953.

Juilland A. Brodin D. Davidovitch C. Frequency Dictionary of French Words. The Hague - Paris: Mouton, 1970.

[2] Особливо відзначимо, що прикметники типу Христов, Петін, Костромської / костромський відносяться до загальної лексики.

Схожі статті