Вміст морфологічної бази
Сформований словник містить на вибір російська або англійська лексикон з повністю розкритими парадигмами змінюваних частин мови у вигляді декількох таблиць (див. Далі).
Для російської мови лексикон включає форми для іменників, прикметників, дієприкметників, дієслів, а також порівняльні ступеня прислівники.
Для англійської мови лексикон містить форми іменника, прикметника і прислівники з синтетичної моделлю освіти ступенів, а також форми дієслова.
Кожна словоформа в лексиконі супроводжується морфологічними атрибутами: відмінок, рід, число, вид, спосіб, ступінь, натхненність, особа і так далі. Незмінні частини мови (прийменники, сполучники і так далі) також представлені в словнику єдиною формою і списком морфологічних ознак.
До складу словника входить тезаурус. що включає великий список синонімів, антонімів і однокореневих слів.
Для зручності практичного використання в окремі таблиці виділено лемматізатор. що містить списки лем для кожної словоформи.
Завдання, які вирішуються за допомогою граматичного словника
Морфологічна база даних дозволяє вирішувати такі завдання, як:
отримання потрібної граматичної форми слова, тобто схиляння іменників, прикметників і дієприкметників, відмінювання дієслів. отримання порівняльних і чудових форм прислівників
лематизації - приведення слова до базової словникової формі, а також субстантивация і інші граматичні перетворення
пошук синонімів. антонімів. перекладів, гиперонимов і гіпонімії. та ін.
підбір слів по масці, зокрема, формування списків слів із заданим закінченням і т.д.
Підтримувані СУБД
Доступні скрипти для формування словникової бази в одній з підтримуваних СУБД:
MS Access (спрощений варіант словника)
Програмний доступ до словника
Даний варіант граматичного словника є звичайною, "класичної" реляційної базою даних, тому для програмного доступу до нього можуть використовуватися зручні для прикладного програміста інструменти і інтерфейси. Залежно від використовуваної СУБД і мови програмування можна застосовувати native API типу OCI, універсальні типу ODBC, і специфічні для однієї платформи OLE DB, ADO.NET.
Крім того, вміст словника повністю доступно штатним процедурних засобів СУБД, тобто Ви можете писати збережені процедури і функції на PL / SQL, T-SQL або іншими мовами.
Документація і приклади
Для основних частин мови детально описано рішення типових задач:
Демонстраційна версія бази даних
Далі перераховані посилання на архіви під конкретні СУБД і примітки по способи їх завантаження.
Під Windows завантаження може бути виконана приблизно так:
Словникова база може бути завантажена за допомогою штатної консольної утиліти isql. Приклад сценарію для MS Windows:
База даних повинна бути в кодуванні win1251 (з причин швидше історичного характеру, пов'язаними з зручністю роботи зі словником зі старих версій Delphi).
Для завантаження словникової бази можна використовувати штатну консольную утиліту mysql.
Приклад сценарію для MS Windows:
Для завантаження словникової бази можна використовувати штатну консольную утиліту psql.
Приклад сценарію для MS Windows:
База даних, в яку буде виконано завантаження словника, повинна мати кодування 'utf-8'.
Сама завантаження словника може бути виконана штатними засобами СУБД, наприклад консольної утилітою sqlcmd.exe:
Як і для інших СУБД, завантаження словникової бази в Oracle може бути виконана штатними засобами, що входять в поставку СУБД. Нам будуть потрібні дві консольні утиліти: sqlplus і sqlldr. Перша з них виконує послідовність SQL операторів для створення таблиць, завантаження в них даних і створення необхідних індексів. А друга виконує масову завантаження даних до деяких "великі" таблиці, для яких звичайний шлях вставки записів через INSERT виявляється занадто довгим з урахуванням наявності десятків мільйонів записів.
Ось скрипт для MS Windows, який виконує всі необхідні завантаження:
Версія словникової бази для MS Access стоїть дещо окремо. По-перше, вона - в форматі XML, так як він забезпечує швидке завантаження великого обсягу даних в таблиці. По-друге, спрощений набір переносите даних. У базі створюються тільки три таблиці для шапок словникових статей, словникових форм і опису частин мови.
Для завантаження словника необхідно виконати 2 кроки в MS Access. Перше - створити нову порожню базу даних. Друге - виконати в неї імпорт (Файл-Зовнішні дані-Імпорт) файлу lexicon.xml. Опис схеми з lexicon.xsd буде завантажено автоматично.
На сайті також доступна демонстраційна онлайн-версія словника