Акустическое восприятие
Акустическое восприятие
Характерные особенности звуковых сигналов и распознавание речевых сообщений.
Одним из факторов, делающих возможным разумное поведение человека по сравнению с другими живыми существами, является его способность к сложному словообразованию и связанная с этим возможность накопления знаний путем передачи речевых сообщений. В робототехнике, обобщенным эталоном разработок которой является человек, неизбежно увеличение значимости способности роботов к распознаванию звуков — основы слухового восприятия и распознавания речевых сообщений.
Конечная цель распознавания речи заключается в понимании смысла повседневных разнообразных сообщений на естественном разговорном языке. Поскольку распознавание естественной речи и автоматическое выделение смыслового содержания таких сообщений в общем случае крайне сложно, пока экспериментально исследуется только часть этой проблемы — распознавание отдельных слогов и единичных слов, произносимых заранее определенными лицами. Каждому звуку, входящему в состав произносимого слова, соответствует характерная форма звукового сигнала. Накапливая и классифицируя эти формы, теоретически можно представить речевое сообщение в виде их последовательности и таким образом выявить смысловое содержание сообщения. Однако практическая реализация такого подхода чрезвычайно затруднена, и это дает основание отдельным лицам утверждать, что распознавание речевых сообщений на естественном языке вообще невозможно.
Выслушав сообщение на совершенно незнакомом языке, человек не в состоянии точно воспроизвести из услышанного даже короткого слова или фразы. Распознавание человеком на слух речевых сообщений есть результат обобщений данных (большого числа слов, фраз и их сочетаний в различных комбинациях) в процессе накопления личного опыта и выработки способа формирования метода генерации умозаключений на основании этих обобщений. Понимание смысла отдельных слов и целых выражений есть результат такой интеллектуальной (разумной) интерпретации речевых сообщений.

Результаты анализа этой задачи можно кратко сформулировать в виде следующих пяти положений.
1.Индивидуальные особенности произношения. Характерные параметры звуковых сигналов существенно различаются в зависимости от индивидуальных особенностей произносящего эти звуки. Эти различия могут быть использованы для идентификации личности, однако они существенно затрудняют распознавание речевых сообщений.
2.Интонационные изменения в звучании фонемы. Человек издает звуковые сочетания, последовательно управляя работой голосового аппарата. Поэтому характеристики произносимой фонемы существенно меняются в зависимости от того, какие фонемы произносятся перед ней и после нее. Например, произношение гласной «э» в последовательности «а—и—у—э—о» значительно отличается от изолированного произношения этой гласной. Различие в произношении возрастает с ускорением темпа речи.
3.Изменения в произношении каждого высказывания (темп речи, интонационные изменения). Имеют место чередования ускорения и частичного замедления темпа произнесения отдельных фрагментов слова или предложения.
4.Влияние окружающего (фонового) шума.
5.Выделение основного сообщения из нескольких.
Для упрощения решения задачи распознавания звуков вводится ряд ограничений (численности людей, речь которых анализируется, ограниченного числа слов и т. д.). В настоящее время сравнительно легко достигается распознавание порядка сотни отдельных слов, произносимых ограниченным кругом лиц.
Обобщенный алгоритм работы созданных устройств распознавания отдельных слов включает в себя на рисунке ниже:

• корреляционный анализ сигнала с применением аналоговых полосовых фильтров или цифровой обработки;
• выделение характерных значений для образа этого сигнала с возможностью расширения или сжатия (масштабирования) по временнбй оси частотного спектра сигнала. Эта операция масштабирования обеспечивается методами динамического программирования;
• сравнение полученного в результате подобной обработки образа с эталонными (ранее записанными и хранящимися в памяти устройства) и проведение идентификации по результатам сравнения.
Другими словами, использован метод, согласно которому характерный образ В поступившего звукового сигнала сравнивается с хранящимся в памяти устройства образом А, причем для обеспечения хорошего соответствия характерных точек образа с соответствующими точками эталона используется масштабирование по временной оси образа В — равномерное (линейное масштабирование) либо локально-неравномерное (нелинейное масштабирование).

Структура систем распознавания речевых сигналов.

Рассмотренный способ распознавания речевых сигналов положен в основу структурной организации системы распознавания речевых сигналов на рисунке ниже (а) Предварительно сформированные и хранящиеся в памяти этой системы эталонные образы, содержащие характерные значения распознаваемых речевых сигналов, сравниваются с входным сигналом с целью выявления совпадения образа входного сигнала с эталонным. Идентификация входного сигнала есть констатация факта такого совпадения. Идентификация может быть достигнута и в результате повторяющейся процедуры альтернативного определения фонем в многоуровневой фонетической структуре без использования эталонных образов на рисунке (б). В целом способ с использованием эталонных образов дает лучшие результаты распознавания и в настоящее время считается наиболее перспективным.

На следующем нижнем рисунке приведен пример, структурной организации системы распознавания речевых сигналов, которая обеспечивает как распознавание отдельных слов, так и семантический анализ лингвистических структур на основе информации, заключенной в предложении.
На рисунке приведена система идентификации на уровне целых слов с алфавитом эталонных образов для распознаваемых слов; на рисунке ниже (б) — структурная реализация процесса распознавания на более низком уровне слогов и фонем. Часть системы рисунок (а) работает на уровне целых слов, а часть рисунок (в) — на уровне отдельных фонем и слогов, причем идентификация отдельных слов достигается с использованием фонетического словаря этих слов, хранящегося в памяти отдельно от коэффициентов совпадения с эталонными образами. На рисунке (в) показан пример структурной организации, ориентированной в основном на распознавание предложений. Это позволяет корректировать ошибочную и недостаточно точную идентификацию, полученную на этапе распознавания слов, благодаря накоплению знаний, связанных с лингвистической информацией, касающейся структуры и семантики предложения (кроме фонетического словаря эталонных образов фонем и целых слов).
