Автоматичне реферування тексту

Автоматичне реферування тексту

Переклад з англійської: Мащенко Микита

Величезне збільшення і легка доступність інформації у Всесвітній Павутині недавно привели до оновлення класичної завдання лінгвістики - конденсації інформації текстових документів. Це завдання - процес обробки даних. Цей процес вручну використовується з незапам'ятних часів, і вперше за допомогою комп'ютера використовувався в кінці 50-х. Наведена інформація повинна будуватися по підбору і узагальнення або на основі важливого змісту і висновків в оригінальному тексті. Останні наукові знання і більш потужні комп'ютери формують нову проблему, що дає шанс вирішити інформаційну проблему перевантаження або принаймні відкласти її рішення і зменшити її негативний вплив.

Є безліч різних визначень що насправді означає реферування текстів. наприклад:
  • короткий, але точне уявлення змісту документа;
  • дистиляція найбільш важливої ​​інформації з джерела, щоб зробити скорочену версію для конкретного користувача / користувачів і завдання / завдань;
Кількісні особливості, які можуть характеризувати основну інформацію, включають:
  • семантична інформативність (можна розглядати як міру здатності до перебудови з основної інформації оригінального тексту);
  • послідовність (показує як частини резюме створюють разом інтегровану послідовність);
  • ступінь стиснення.

Історія автоматичного тобто комп'ютеризованого реферування почалася 50 років тому. Метод Місяць використовує термін частот, щоб оцінити прийнятність пропозицій для основної інформації. Його головна ідея заснована на знанні, що істотні слова, що несуть велику частину інформації, не надто часто і не дуже рідко повторюються в тексті. Встановлення меж значення слів за допомогою їх частот було б питанням досвіду. Наступним кроком є ​​ранжування пропозицій, що відображає кількість значущих слів і їх відстань в реченні. Після цього залишається тільки вибрати один мул кілька більш значущих результатів. Слід зазначити, що мотивацією Місяць служила інформаційне перевантаження.

Наступний значний прогрес був зроблений десять років по тому. Робота Едмандсона ввела гіпотезу щодо високої інформаційної цінності фраз, пропозицій з початку і від укладення статті, пропозиції, що містять слова репліки і фрази як "важливу", "результати", "статті розглядаються" і т.д. Навіть якщо такі роки принесли подальші результати, відродження цієї галузі і значний прогрес стався в 90-е. Це час більш широкого використання методів штучного інтелекту в цій області і поєднання різних методів в гібридних системах. У новому тисячолітті в зв'язку з розширенням WWW змістився інтерес до досліджень узагальнення груп документів, мультимедійних документів і застосування нових алгебраїчний методів скорочення даних.

1. Короткий огляд методів, заснованих на класичних принципах

1.1 Новаторські роботи

Перші підходи автоматичного текстового реферування використовували тільки простий (поверхневий рівень) показника рішень, які частини тексту включити в основний текст. У 1958 був розроблений найстаріший алгоритм значущості пропозиції Основна ідея полягала в тому, що письменник буде повторювати певні слова, пишучи про тієї чи іншої теми. Значення термінів, вважається пропорційною їх частоті в отриманих в результаті документах. Інші показники релевантності використовується документах при наявності певних слів реплік (т. Е. Таких слів, як "важливо" або "відповідний") або слів, що містяться в назві. Комбінація слів реплік, слів назв і положення пропозицій використовувалися щоб зробити вилучення і було продемонстровано їх подібність з людським написання реферату.

1.2 Статистичні методи

В [] 4 був доведений, що доречність умов документа обернено пропорційна числу документів в корпусі, що містить термін. Формула для оцінки доречності терміна дана tfi x idfi, де tfi - частота терміна i в документі, і idfi - частота документів, що містять цей термін. Пропозиції можуть бути згодом обрані, наприклад, шляхом підсумовування релевантності термінів в реченні.

1.3 Методи, засновані на можливості з'єднання тексту.

Анафоріческіе вираження, які відносяться до раніше згаданим частин тексту, повинні знати своїх попередників, щоб бути понятими. Додають методи можуть не відображати відносини між поняттями в тексті. Якщо пропозиція, що містить анафорическую зв'язок, вилучено без попереднього контексту, основний текст може стати незрозумілим. Зв'язкові властивості включають відносини між виразами тексту. Вони були досліджені різними підходами реферування.

Давайте згадаємо метод Лексичної ланцюга, який був представлений в [7]. Це використовує тезаурус WordNet для того, щоб визначити зв'язкові відносини між умовами (тобто, повторення, синонімія, антонімія, hypernymy, і holonymy) і становить ланцюга по зв'язаних умовами. Їх безліч визначено на основі числа і типу відносин в ланцюгу. Тільки ті пропозиції, де найсильніші ланцюга надзвичайно сконцентровані, відібрані для основного тексту. Подібний метод, де пропозиції обрані згідно об'єктам був представлений в [8]. Об'єкти ідентифіковані co-довідкової системою резолюції. Довідкова резолюція визначає, чи належать два вирази на природній мові до того ж самого об'єкта. Пропозиції, де виникнення часто згадуваних об'єктів долає задану межу, включені в основний текст.

До групи методів, заснованих на можливості з'єднання тексту, ми можемо увімкнути метод Rhetorical Structure Theory (RST). RST - теорія про текстову організації. Вона складається з багатьох риторичних відносин, які з'єднують разом текстові одиниці. Відносини пов'язують ядро ​​- яке є головним у назві місії письменника. Зі співвідношень полягає деревоподібна уявлення, яке використовується для отримання текстової одиниці з основного тексту. Остаточна оцінка пропозиції дана сумою ваг від кореня до пропозиції. В [10], кожен батьківський вузол ідентифікує своїх ядерних дітей як істотні. Діти сприяють батьківському рівню. Цей процес є рекурсивним по деревовидної. Рахунок одиниці дан рівнем, який він отримав після заохочення.

1.4 Методи повторюваного графа

1.5 Наближені до тез

висновок

Ми представили історію і стан автоматичної області дослідження реферування тексту. Звернули більшу частину уваги на підходи, засновані на алгебраїчних методах скорочення. Їх особливість полягає в тому, що вони працюють тільки з контекстом умов, і таким чином вони не залежать від особливої ​​мови. У оцінки методів реферування є та ж сама важливість як власне підведення підсумків. Щорічна конференція по оцінці реферування DUC (Document Understanding Conference) встановила керівництво в процес оцінки тексту. Проте єдиний повністю автоматичний метод реферування - ROUGE [32], який порівнює написані людиною статті та системні тексти відповідно n-грамів. Ми плануємо брати участь в DUC '08 з нашим новим методом реферування, ядро ​​якого буде засновано на тензор LSA. Замість двох вимірювань будуть використовуватися три - умови, пропозиції і документи. Три виміри, замість два, будуть використовуватися - умови, пропозиції і документи. Ідея методу полягає в тому, що дві пропозиції будуть спроектовані близько один до одного за змістом.

Список джерел

Схожі статті