У минулому випуску ми говорили про розпізнавання мови, сьогодні ж обговоримо зворотну задачу. Отже, як відбувається синтез мови, або, іншими словами, перетворення довільного тексту в голос - про це в сьогоднішньому випуску!
Коли транскрипція складена, комп'ютер розраховує, скільки в ній фреймів, або, іншими словами, фрагментів довжиною 25 мілісекунд. Далі кожен фрейм описується безліччю параметрів: частиною якої фонеми він є, яке місце в ній займає, в який склад входить ця фонема. Також описується ударность або безударность фонеми, в разі якщо це голосна. Крім того, система створює правильну інтонацію, використовуючи дані про фразу і пропозиції.
Потім система задіє акустичну модель, щоб прочитати підготовлений текст. Вона встановлює відповідності між фонемами з певними характеристиками і звуками. Акустична модель знає, як правильно вимовити фонему і надати вірну інтонацію пропозицією завдяки машинному навчанню. Чим більше даних, на яких навчається модель, тим краще видається їй результат.
Що ж стосується голосів, то впізнаваними їх робить, в першу чергу, тембр, який залежить від особливостей будови органів мовного апарату. Тембр будь-якого голосу можна змоделювати, тобто описати його характеристики - для цього достатньо начитати в студії невеликий обсяг текстів. Після цього дані про тембрі можна використовувати при синтезі мови на будь-якій мові. Коли системі треба щось сказати, вона використовує генератор звукових хвиль - вокодер. У нього завантажується інформація про частотні характеристики фрази, отримана від акустичної моделі, а також дані про тембрі, який надає голосу впізнавану забарвлення.
Варто відзначити, що сучасні технології синтезу мови мають деякі проблеми. Перша з них полягає в штучності. Будь-яка синтезована мова сприймається людиною з працею, і він змушений задіяти додаткові ресурси для її розуміння. Тим самим люди можуть нормально сприймати синтезовану мову тільки близько 20 хвилин. Також у синтезованої мови, як правило, відсутня емоційне забарвлення, і вона має низьку завадостійкість. Іншими словами, сприйняття синтезованої мови людині заважають будь-які, навіть самі невеликі сторонні шуми.
Як це працює? | Синтез мови Hi-News.ru