Частотний словник національного корпусу російської мови

ЧАСТОТНИЙ СЛОВАРЬ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ: КОНЦЕПЦІЯ І ТЕХНОЛОГІЯ СТВОРЕННЯ

FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY

Словник містить представницький базовий словник сучасної російської мови (2-я половина XX - початок XXI ст.), Забезпечений інформацією про частотності вживання, статистичному розподілі за текстами і жанрами, за часом створення текстів. Словник заснований на текстах Національного корпусу російської мови обсягом 100 млн. Слововживанні.

Табл. 1. Функціональні стилі подкорпуса сучасної російської мови

2. Розмір корпусу і надійність вибірки

Існуючі частотні словники для російської мови були побудовані на порівняно невеликих корпусах: ЕОМ перших поколінь не могли працювати з корпусами більшого розміру. Цікаво, що теоретичні рекомендації, вироблені в 1970-і роки (Піотровський і ін. 1972), також доводили, що для достовірного опису 1600-1700 найбільш частотних слів досить використовувати корпус розміром 400 тис. Слововживань. Ця аргументація будувалася на понятті довірчого інтервалу, який широко використовується в статистиці і соціології: якщо ми знаємо розмір вибірки і експериментальну ймовірність події в цій вибірці (тобто частоту слова нашому корпусі), то ми можемо обчислити довірчий інтервал ймовірності цієї події на всій популяції (тобто частоту вживання того ж слова у всьому просторі мови).

Табл. 2: Порівняння частоти окремих слів (середнє на мільйон слововживань).

Як бачимо, теоретичні рекомендації щодо достатнього розміру корпусу в даному випадку виявляються не дуже достовірними. Причина цього криється в початкових припущеннях на нормальне Гаусове розподіл частоти слів, відповідно до якого кожне слово зустрічається з однаковою частотою у всіх текстах. Якщо слово зустрілося в тексті один раз, то при нормальному розподілі це не впливає на ймовірність його вживання там вдруге. Але в реальності це не так. Кожен текст має деяку власну тему, слова якої в цьому тексті будуть вживатися набагато частіше середнього. У тексті про хоббітів слово хоббіт вживатиметься так само часто, як і багато службові слова, що істотно підвищить його частоту в корпусі, який буде включати хоча б один такий текст [1]. В результаті частотний список, побудований на основі корпусу, відображає специфіку тих текстів, які потрапили в нього при його складанні.

де # 956; - середня частота слова по всьому корпусу, # 963; - середнє квадратичне відхилення цієї частоти на окремих документах, n - число документів, в яких зустрічається це слово.

Значення D у слів, що зустрічаються в більшості документів, близько до 100, а у слів, часто зустрічаються лише в невеликому числі документів, близько до 0. Частотний список словника Леннгрена навіть відсортований за значенням твори цього коефіцієнта на середню частоту слова. У зв'язку з тим, що теоретичний статус цього твору неясний, ми не вважали за доцільне сортувати наш словник по ньому. Однак його вказівка для кожного слова дає можливість оцінити, наскільки воно специфічно для окремих предметних областей. Наприклад, слова моторошний, специфічний і сировину мають приблизно рівну частоту (21 вживання на мільйон слів), але при цьому коефіцієнт D у специфічний - 66, сировина - 18, а у моторошний - 78, що означає, що останнє слово значимо для більшого числа предметних областей і (за інших рівних умов) має великі шанси на місце в неспеціалізованому словнику.

3. Структура словника

Концепція словника припускає видання «паперової» версії з супутнім їй електронним варіантом, що представляє частотний словник в більш повному обсязі. Словникова частина містить такі розділи:

I. Загальна лексика

# 9679; алфавітний список лем

# 9679; частотний список лем

# 9679; розподіл лем по функціональних стилів:

Ø частотний словник художньої літератури,

словник значущою лексики художньої літератури

Ø частотний словник публіцистики,

словник значущою газетно-новинний лексики

Ø частотний словник інший нехудожньої літератури,

словник значущою лексики

Ø частотний словник живої усної мови,

словник значущою лексики живої усної мови

# 9679; алфавітний список словоформ

# 9679; частотний список імен іменників

# 9679; частотний список дієслів

# 9679; частотний список прикметників

# 9679; частотний список говірок і предикативу

# 9679; частотний список займенників (займенники-іменники, прикметники, прислівники, предикативу)

# 9679; частотний список лем службових частин мови

III. допоміжні таблиці

# 9679; дані про частотність частеречную класів і інша статистична інформація

IV. Імена власні і абревіатури

# 9679; алфавітний список лем

В алфавітному списку лем наводиться ім'я леми, частина мови, загальна частота леми, число документів, в яких вона зустрілася і коефіцієнт варіації D. Загальна частота характеризує число вживань на мільйон слів корпусу, або ipm (instances per million words). Це робиться для того, щоб спростити порівняння частоти слова в різних корпусах, які можуть досить сильно відрізнятися за своїми розмірами. Наприклад, якщо слово влада зустрічається 55 разів в корпусі розміром 400 тис. Слів, 364 рази на мільйонному корпусі і 40598 раз в 100-мільйонному корпусі сучасної російської мови і 55673 рази в великому 135-мілліо¬нном корпусі НКРЯ, то його частота в ipm складе 137,5, 364.0, 372.06 і 412.39, відповідно. Алфавітний список електронного видання включає 60 000 найбільш частотних лем.

У списку лем, що згруповані у частотності, вказуються ім'я леми, частина мови, загальна частота леми, число документів, коефіцієнт D і розподіл частотності по десятиліттях. Частотний список включає 20 000 самих частотних лем.

Частотні словники функціональних стилів складені на основі подкорпусов художньої літератури, публіцистики, інший нехудожньої літератури та усного мовлення. У список включені 5 000 самих частотних лем цих подкорпусов. Список найбільш типових лем для кожного типу текстів було виділено на основі порівняння частоти лем в таких текстах і в іншому корпусі. Як метрики порівняння був використаний критерій відношення правдоподібності (log-likelihood), який вираховується на основі такої матриці:

Словники значущою лексики для різних функціональних стилів включають по 500 лем.

Алфавітний список словоформ включає всі словоформи корпусу з частотою вище 0.1 ipm (всього близько 15 тис.); наводиться загальна частота словоформи. Омонімічние словоформи позначаються знаком *.

У розділі «Частини мови» частотний список лем розбитий на шість подсписков: іменники, дієслова, прикметники, прислівники і предикативу, займенники та службові частини мови. Для кожної леми вказана її загальна частота і ранг (порядковий номер) в загальному списку. Кожен список містить по 1 тисячі найбільш частотних лем.

Для отримання списку імен власних і абревіатур з конкордансу корпусу були виділені іменники і скорочення, написання яких в текстах з великої літери перевищувало 95-відсотковий поріг, пор. Росія, Смирнов, ГРЕС, МЗС, КЗпП. [2] До словника включено ядерна частина цього списку, що налічує 3 000 найбільш частотних одиниць.

За традицією, що склалася для видань такого роду, на сторінках словника представлена рубрика «Цікаві факти»: публікуються списки найпопулярніших слів різних лексичних груп (дні тижня, погодні явища, кольору, дієслова руху і т.д.), а також найдовші словоформи і частотний список знаків пунктуації.

Табл. 3: Частотний список позначень одягу і взуття.

Як приклад в таблиці 3 ми наводимо частоти іменників, що позначають одяг і взуття. Як можна очікувати, список відображає, з одного боку, «типовість» елементів гардероба (валянки займають лише 26 місце в списку), а з іншого боку, їх «значимість» при описі зовнішності людини в текстах (костюм - більш перцептивно виділена річ, ніж черевики).

4. Підготовка словникового матеріалу

Російська мова як мова з багатим словоизменением створює додаткові труднощі для укладачів частотного словника, так як багато словоформи в текстах омонімічни (пор. Словоформу стали як форму дієслова стати і іменника сталь. Словоформу банку. Представляє леми банк і банку. Слова типу віра і Віра) . Проте, в частотному словнику вихідна форма слова, або лема, повинна бути приписана будь словоформи однозначно.

Оскільки автоматичне дозвіл омонімії та інтерпретація знайдене форм допускають певну, хоча і незначну, похибка, омоніми, що входять в перші 20 тисяч частотних слів, зазнали додаткової ручної перевірки.

Виноградов В.В. (Відп. Ред.). Словник мови Пушкіна. Т. I - IV. М. 1956-1961.

Засорина Л.Н. (Ред.). Частотний словник російської мови. Москва: Російська мова. 1977.

Піотровський Р.Г. Бектаев К.Б. Піотровська А.А. Математична лінгвістика. М. Вища школа. Тисячі дев'ятсот сімдесят дві.

Степанова О.М. Частотний словник загальнонаукової лексики. М. 1 976.

Штейнфельд Е.А. Частотний словник сучасної української літературної мови. Таллінн. 1 963.

Josselson H.H. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953.

Juilland A. Brodin D. Davidovitch C. Frequency Dictionary of French Words. The Hague - Paris: Mouton, 1970.

[2] Особливо відзначимо, що прикметники типу Христов, Петін, Костромської / костромський відносяться до загальної лексики.

Частотний словник національного корпусу російської мови

Схожі статті