Презентація на тему: "9.1. Тезауруси. Основні принципи розробки, створення і використання традиційних інформаційно-пошукових тезаурусів. Приклади тезаурусов." - Транскрипт:
1 9.1. Тезауруси. Основні принципи розробки, створення і використання традиційних інформаційно-пошукових тезаурусів. Приклади тезаурусов.
2 Понятійна система предметної області Основою будь-якої предметної області служить система понять цієї області. Визначення поняття: Поняття - думка, що відображає в узагальненій формі предмети і явища дійсності за допомогою фіксації їх властивостей і відносин; останні (властивості і відносини) виступають в понятті як загальні та специфічні ознаки, співвіднесені з класами предметів і явищ (Лінгвістичний словник)
3 Поняття і терміни Для вираження поняття предметної області в текстах служать слова або словосполучення, які називають термінами. Сукупність термінів предметної області утворюють її термінологічну систему. Ставлення конкретного терміна з іншими термінами терміносистеми предметної області задається за допомогою дефініції
4 Визначення терміна? Слово (або поєднання слів), що є точним позначенням певного поняття якої-небудь спеціальної області науки, техніки, мистецтва, суспільного життя і т.п. || Спеціальне слово або вираз, прийняте для позначення чогось л. в тому чи іншому середовищі, професії (Великий тлумачний словник російської мови)
5 Терміни - точні назви понять Зазвичай кожному поняттю області відповідає хоча б один однозначно зрозумілий термін, значенням якого є це поняття. - терміни, в сенсі традиційної теорії термінології Властивості термінів - точних найменувань понять - термін повинен ставитися безпосередньо до поняття, він повинен виражати поняття ясно; - значення терміна має бути точним і не повинно перетинатися за значенням з іншими термінами; - значення терміна не повинне залежати від контексту. Терміни, точно іменують поняття, - предмет дослідження теорії термінології, термінологів
6 Текстові терміни У реальних текстах предметної області для посилання на поняття крім основних термінів може використовуватися безліч різноманітних мовних виразів, які ми називаємо текстовими термінами: - синтактіко-словотвірні варіанти: одержувач бюджетних коштів - бюджетополучатель; - лексичні варіанти - безакцептне списання, безспірне списання; - багатозначні вирази, в залежності від контексту службовці відсиланням до різним поняттям області, наприклад, слово валюта в різних контекстах може означати національна валюта або іноземна валюта.
7 Співвідношення поняття-термін Поняття Однозначне назва = термін в сенсі Теорії термінології Текстові терміни
8 Інформаційно-пошукові тезауруси Інформаційно-пошуковий Тезаурус - контрольований словник термінів предметної області, який створюється для поліпшення якості інформаційного пошуку в даній предметній області
10 Приклади тезаурусов Тезаурус ООН - UNBIS Thesaurus Тезаурус Європейського союзу - EuroVoc Тезаурус Дослідницької служби Конгресу США - LIV СРСР-правових тезаурус -ІНІОН -Шемакін «Технічний тезаурус» Стандарти ISO, ГОСТи
11 Традиційні інформаційно-пошукові тезауруси для ручного індексування: структура Основні поняття ПО - дескриптори Умовні синоніми - аскріптори - Відносини еквівалентності аскріптор - дескриптор Відносини між дескрипторами
13 Дескриптори з позначками Посліду - частина назви дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) - зіставлення різних тезаурусів Уподобання словосполученням: -Phonograph records vs. records (phonograph) Поноси і множина: Wood (material) Woods (forested areas)
14 Вибір назви дескриптора Загальновідомість і частотність вживання Нейтральність: developing nations vs. underdeveloped countries Інші джерела: словники, законодавство, тезауруси -Місцеві бюджет - бюджет муніципального освіти
15 Вибір назви дескриптора-2 Повна форма vs. Скорочення Неологізми, сленг, жаргон Товарні знаки - vs. Аспірин, ксерокс Загальновживане і наукова назва Запозичені слова
16 Включення дескрипторів на основі багатослівних виразів Розщеплення терміна збільшує багатозначність: plant food Сенс вираження залежить від порядку слів: інформаційна наука - наукова інформація Одне зі слів-компонент знаходиться поза сферою тезауруса або занадто загальне: first aid Відносини дескриптора не випливають з його структури: - штучні нирки, статус біженця, traffic lights
17 Ієрархічні відносини Родовидові ставлення Частина -метою -орган тіла -географічний об'єкти -Дісціпліни -ієрархічна структури (полк - батальйон - рота) Ставлення прикладу: - Гімалаї - гори
18 Асоціативні відносини Сфера діяльності - дійова особа -математика - математик Дисципліна - об'єкт вивчення -Неврологія - нервова система Дія - агент або інструмент -Охота - мисливець Дія - результат дії -Ткачество - тканину Дія - мета -Переплетние роботи - книга Причина-наслідок - смерть - похорон Величина - одиниця виміру -Сила струму - ампер Дія - контрагент -Аллерген - антиалергічний препарат і т.п.
19 Інформаційно-пошукові тезауруси: етапи розробки Перший етап: індексатори описують основну тему тексту довільними словами і словосполученнями Отримані за багатьма текстів терміни зводяться разом Серед близьких за змістом термінів вибирається найбільш представницький Деякі з решти стають умовними синонімами, інші видаляються Конкретні терміни зазвичай не включаються
20 Інформаційно-пошукові тезауруси: мистецтво розробки Дескриптори - це терміни, які потрібні для вираження основної теми документа Синоніми включаються тільки найнеобхідніші (наприклад, починаються з іншої літери), щоб не ускладнювати роботу індексатора Близько терміни повинні бути зведені до одного терміну, щоб уникнути суб'єктивності індексування Рівні ієрархії, включення конкретних термінів обмежуються
22 Інформаційно-пошукові тезауруси: використання відносин Індексатор підбирає найбільш точний дескриптор для опису змісту документа Автоматичне розширення запиту. Проблеми з асоціаціями
23 Традиційні ИПТ: застосування в автоматичній обробці Брак знань про реальну мову ПОНехватка знань про реальну мову ПО Legislative Indexing Vocabulary: Legislative Indexing Vocabulary: -в тексті TROOPS - в тезаурусе MILITARY FORCES -в тексті CAPITAL - столиця, тезаурус тільки капітал Пропонується: кожен дескриптор доповнити списками слів і термінів Пропонується: кожен дескриптор доповнити списками слів і термінів Але: багатозначність або відноситься до різних дескрипторів. Але: багатозначність або відноситься до різних дескрипторів. Дозвіл багатозначності дозвіл багатозначності
24 Традиційні ИПТ: автоматичне розширення запиту Проблема з асоціаціями Пропонується: вводити ваги вводити ваги вводити назви відносин: об'єкт, властивість і т.п. вводити назви відносин: об'єкт, властивість і т.п. ВИСНОВОК: потрібно навчитися будувати лінгвістичні ресурси спеціально для автоматичної обробки текстових колекцій
25 Тезаурус EUROVOC - багатомовний тезаурус Європейського Співтовариства Тезаурус на 9 мовах Російська версія EUROVOC - + 5 тисяч понять, що відображають російську специфіку Багатомовний тезаурус -Дескріптор - назви на різних мовах -Аскріптори - для деяких мов
29 Питання до лекції Перерахуйте основні види відносин в ІПТ. Чому традиційні ИПТ мало використовуються для автоматичного індексування текстів. Методи використання традиційних ИПТ в автоматичних технологіях обробки текстів (запитів).