База даних по російській і англійській морфології і лексиці

Вміст морфологічної бази

Сформований словник містить на вибір російська або англійська лексикон з повністю розкритими парадигмами змінюваних частин мови у вигляді декількох таблиць (див. Далі).

Для російської мови лексикон включає форми для іменників, прикметників, дієприкметників, дієслів, а також порівняльні ступеня прислівники.

Для англійської мови лексикон містить форми іменника, прикметника і прислівники з синтетичної моделлю освіти ступенів, а також форми дієслова.

Кожна словоформа в лексиконі супроводжується морфологічними атрибутами: відмінок, рід, число, вид, спосіб, ступінь, натхненність, особа і так далі. Незмінні частини мови (прийменники, сполучники і так далі) також представлені в словнику єдиною формою і списком морфологічних ознак.

До складу словника входить тезаурус. що включає великий список синонімів, антонімів і однокореневих слів.

Для зручності практичного використання в окремі таблиці виділено лемматізатор. що містить списки лем для кожної словоформи.

Завдання, які вирішуються за допомогою граматичного словника

Морфологічна база даних дозволяє вирішувати такі завдання, як:

отримання потрібної граматичної форми слова, тобто схиляння іменників, прикметників і дієприкметників, відмінювання дієслів. отримання порівняльних і чудових форм прислівників

лематизації - приведення слова до базової словникової формі, а також субстантивация і інші граматичні перетворення

пошук синонімів. антонімів. перекладів, гиперонимов і гіпонімії. та ін.

підбір слів по масці, зокрема, формування списків слів із заданим закінченням і т.д.

Підтримувані СУБД

Доступні скрипти для формування словникової бази в одній з підтримуваних СУБД:

MS Access (спрощений варіант словника)

Програмний доступ до словника

Даний варіант граматичного словника є звичайною, "класичної" реляційної базою даних, тому для програмного доступу до нього можуть використовуватися зручні для прикладного програміста інструменти і інтерфейси. Залежно від використовуваної СУБД і мови програмування можна застосовувати native API типу OCI, універсальні типу ODBC, і специфічні для однієї платформи OLE DB, ADO.NET.

Крім того, вміст словника повністю доступно штатним процедурних засобів СУБД, тобто Ви можете писати збережені процедури і функції на PL / SQL, T-SQL або іншими мовами.

Документація і приклади

Для основних частин мови детально описано рішення типових задач:

Демонстраційна версія бази даних

Далі перераховані посилання на архіви під конкретні СУБД і примітки по способи їх завантаження.

Під Windows завантаження може бути виконана приблизно так:

Словникова база може бути завантажена за допомогою штатної консольної утиліти isql. Приклад сценарію для MS Windows:

База даних повинна бути в кодуванні win1251 (з причин швидше історичного характеру, пов'язаними з зручністю роботи зі словником зі старих версій Delphi).

Для завантаження словникової бази можна використовувати штатну консольную утиліту mysql.

Приклад сценарію для MS Windows:

Для завантаження словникової бази можна використовувати штатну консольную утиліту psql.

Приклад сценарію для MS Windows:

База даних, в яку буде виконано завантаження словника, повинна мати кодування 'utf-8'.

Сама завантаження словника може бути виконана штатними засобами СУБД, наприклад консольної утилітою sqlcmd.exe:

Як і для інших СУБД, завантаження словникової бази в Oracle може бути виконана штатними засобами, що входять в поставку СУБД. Нам будуть потрібні дві консольні утиліти: sqlplus і sqlldr. Перша з них виконує послідовність SQL операторів для створення таблиць, завантаження в них даних і створення необхідних індексів. А друга виконує масову завантаження даних до деяких "великі" таблиці, для яких звичайний шлях вставки записів через INSERT виявляється занадто довгим з урахуванням наявності десятків мільйонів записів.

Ось скрипт для MS Windows, який виконує всі необхідні завантаження:

Версія словникової бази для MS Access стоїть дещо окремо. По-перше, вона - в форматі XML, так як він забезпечує швидке завантаження великого обсягу даних в таблиці. По-друге, спрощений набір переносите даних. У базі створюються тільки три таблиці для шапок словникових статей, словникових форм і опису частин мови.

Для завантаження словника необхідно виконати 2 кроки в MS Access. Перше - створити нову порожню базу даних. Друге - виконати в неї імпорт (Файл-Зовнішні дані-Імпорт) файлу lexicon.xml. Опис схеми з lexicon.xsd буде завантажено автоматично.

На сайті також доступна демонстраційна онлайн-версія словника

Схожі статті