Signal speech vf

Мова виникає завдяки порушенню акустичної труби або мовного (вокального) тракту, який з одного боку обмежений губами, а з іншого - голосовою щілиною.

Якщо розглядати структуру мовного тракту як музичного інструмента, то він складається з трьох основних частин:

генератора - дихальної системи, яка складається з повітряного резервуара (легких), де запасається енергія надлишкового тиску, м'язової системи і вивідного каналу (трахеї) зі спеціальним апаратом (гортанню), де повітряний струмінь переривається і модулюється;

вібраторів - голосових зв'язок;

резонаторів - розгалуженої і перебудовується системи резонансних порожнин складної геометричної форми (глотки, ротової і носової порожнини), званої артикуляційної системою.

Signal speech vf

Гортань ближче до середини звужується, і в найвужчому місці розташовуються голосові зв'язки, що представляють собою дві горизонтальні складочки. Отвір між ними називається голосовою щілиною (розміри голосової щілини у відкритому стані см в довжину і см в ширину). Над голосовими зв'язками розташовуються шлуночки гортані, над кожним з яких знаходиться складка, паралельна голосовим зв'язкам. Верхні шлуночкові складки називаються помилковими і складаються з пухкої сполучної тканини, залоз і слабо розвинених м'язів. Залози в цих складочках забезпечують зволоження голосових складок, що дуже важливо для співочого голосу. При звукообразованії голосові складки з'єднуються або змикаються, і щілина закривається. Саме голосові складки і є основним (але не єдиним) джерелом голосоутворення (вібратором). Зв'язки можуть змінювати свою довжину, товщину, і коливатися по частинах, що призводить до модуляції потоку повітря, що видихається з легких (і надає голосу співака різноманітні забарвлення, багатство звуку і рухливість). Такий процес називається фонації.

Перед початком мовлення голосові складки повинні бути зведені черпаловіднимі хрящами, що призводить до замикання потоку повітря і виникненню надлишкового подглоточного тиску. Повітря, який виштовхується легкими з трахеї, накопичується в подскладочном просторі, і починає тиснути на них. Коли надлишковий тиск підвищується до певної величини, складки розмикаються і повітря спрямовується в голосову щілину. У момент максимального відкриття щілини швидкість потоку повітря стає максимальною. Збільшення швидкості призводить до зниження тиску в голосовий щелі1). Через зниження тиску, голосові складки змикаються. Цей процес повторюється знову. Один цикл відкриття-закриття голосових складок займає по часу порядку секунди (мс), тобто процес періодичний з частотою раз в секунду (точніше - від до циклів в секунду).

Способи змикання складок при фонації можуть бути різними. Наприклад, якщо складки сходяться в повному обсязі, і між ними залишається щілина, то швидкість потоку повітря не падає до нуля і в голосі чути шум (придиховий голос, шепіт). Навпаки, якщо складки змикаються занадто сильно (голос затиснутий), це теж змінює тембр і спектр голосу. Все перерахований характеристики - основна частота коливання голосових складок, форма голосових імпульсів, їх амплітуда, спектральний склад - грають істотну роль при слуховому сприйнятті мови. Особливу роль відіграє частота коливань голосових складок, вона називається частотою основного тону (ОТ).

Signal speech vf
Осцилограма короткого фрагмента голосу (звук). За вертикальної осі відкладена амплітуда (в отсчетах), по горизонтальній - час (в секундах). Високі по амплітуді піки позначають час початку розкриття голосових складок. циклів (періодів) на інтервалі с, тобто періодів в с, отже, частота ВІД для даного диктора Гц.

У мовному потоці частота основного тону суб'єктивно сприймається як висота голосу, і її зміна використовується для зміни інтонації логічних наголосів, а іноді і сенсу слів (наприклад, в китайській мові). Частота основного тону залежить від довжини зв'язок, їх маси і натягу. Приблизно цей зв'язок можна уявити, як для струни: чим довше і важче складки (ці властивості - вроджені), тим нижчий тон має голос, ніж складки коротше і тонше - тим голос вище.

Таким чином, при утворенні звуків мови за допомогою процесу фонації (тобто коливання голосових зв'язок) формується вокалізованих звуковий сигнал, який потім трансформується в мовному тракті, де він перетворюється з «сирого» матеріалу в послідовність мовних акустичних сигналів. Рухи мовних органів самі по собі не породжують мовного сигналу. Коливний потік повітря, створений джерелом, проходячи по мовному тракту, перетворюється. При цьому не породжуються нові акустичні обурення, а змінюються характеристики «вхідного» потоку.

Крім вокалізованих, людина може видавати і шумові звуки, що підрозділяються на два типи: фрікатівние (турбулентні) і вибухові (імпульсні). Фрикативні звуки ([в], [ф], [з], [ш], [ж]) утворюються при форсованому проходженні звуку через звуження мовного тракту. Вибухові звуки ([р], [c], [т], [к]) утворюються внаслідок повного перекриття мовного тракту, створення великого тиску перед цим бар'єром і подальшого різкого зняття перешкоди.

У задачі розпізнавання мови основну роль грають вокалізованих звуки; вони і розглядаються нижче.

Signal speech vf

Знову спостерігаємо періодичні (за шкалою частот) посилення амплітуд; тонкі жовті прямі, які доходять до шкали частот, зазначають середини цих підсилень.

Signal speech vf

На малюнках означає частоту основного тону. Прояв резонансу системи спостерігається у вибірковому посилення частот всередині спектра. Резонатор вибірковий до частот, тобто коли в нього потрапляє вхідний сигнал, резонатор буде передавати одні частоти краще за інших, а деякі - так взагалі глушити.

У мовної акустиці резонансні максимуми передавальної функції, що забезпечують посилення амплітуд в спектральному поданні «вихідного» звукового сигналу отримали назву формант. Вони позначаються символами. а відповідні їм частоти -; нумерація відповідає порядку проходження формант за шкалою частот

Звукова хвиля, відбита від відкритого кінця приходить до джерела звуку в фазі або протифазі по відношенню до первинної хвилі. Коли вона приходить в фазі, відбитий звук посилюється за рахунок підсумовування енергії. Коли фаза вихідного і відбитого звуків не збігається, рівень хвилі гасне.

Передавальна функція може мати багато формант, але для генерації і розрізнення звуків найбільш істотні дві перші (і іноді додатково, третя і четверта) найбільш низькі по частоті. Крім частоти, форманта також характеризується шириною 2) - на наведених вище спектрограмах видно не просто лінії максимальної інтенсивності, але різні по ширині смуги. Ширина форманти визначається діапазоном частот в околиці частоти формант, які отримують посилення приблизно еквівалентное3) точному резонансній.

Форманти визначається як спектральні піки (максимуми) амплітудного спектра голосу. Форманта також означає акустичний резонанс. а в теорії мови і фонетиці - резонанс людського мовного тракту. Форманта часто вимірюється як амплітудний пік частотного спектра звуку, з використанням спектрограми, хоча в голосних звуках вимовлених у високій основній частоті (як, наприклад, жіночий або дитячий голос), частота резонансу може розташовуватися в широкій смузі гармонік так що ніякого піка не спостерігається.

Форманти представляють характерні відмінності істотних частотних компонент людської мови і співу. За визначенням, інформація, яка потрібна людині для відмінності голосних звуків може бути представлена ​​чисто кількісно частотної складової голосного звуку. В ході промови, це - характерні ознаки, що дозволяють слухачеві розпізнати конкретний голосний звук. Більшість цих формант утворюються як результат акустичного резонансу. проте деякі свистячі тони виходять з періодичного колапсу ефекту Вентурі зон низького тиску. Як правило перших двох формант виявляється досить для однозначності визначення голосного звуку. Так, перша форманта має більш високу частоту для відкритого звуку (такого, як [а]) і нижчу частоту для закритого звуку (такого як [і]):

Signal speech vf

друга ж форманта має більш високу частоту для звуку переднього ряду (такого як [і]) і нижчу частоту для звуку ряду заднього (такого як [у]). Голосні звуки майже завжди мають чотири або більше помітних формант; іноді їх більше шести. Однак перші дві форманти найбільш важливі для визначення якості звуку.

Вибухові ([р], [c], [т], [к]) (і, в деякій мірі, фрікатівние - [в], [ф], [з], [ш], [ж]) змінюють положення формант в оточуючих їх голосних звуках. Губно-губні звуки (такі як [б] і [п]) викликають зниження формант; заднеязичние (або велярний) звуки ([к] і [г]) майже завжди показують зближення і в «велярний стисненні» до задньоязикового звуку і їх розбіжність по проходженні звуку.

Центри формант голосних

200-400 і 3000-3500

Вивчення частотного спектра професійних співаків, особливо чоловіків, дозволили встановити явну формант в околиці 3000 Гц (між 2800 і 3400 гц), відсутню в звичайній мові і в спектрі непрофесійних співаків. Саме це збільшення енергії дозволяє почути співака, що співає з оркестром (максимум якого досягається на частотах в околиці 500 Гц). Ця форманта активно розвивається вокальними вправами і має джерелом мовної тракт, що діє як резонатор.

[1]. Фант Г.Акустіческая теорія речеобразования. М.Наука. 1964.

Всі наведені в розділі ілюстрації отримані за допомогою комплексу «Ікар Лаб II +», розробленого Центром мовних технологій.