Методы коррекции ошибок в современных системах распознавания речи

Автор работы: Пользователь скрыл имя, 25 Ноября 2011 в 00:20, курсовая работа

Краткое описание

Предшествующая работа показала, как WER может быть явно минимизирована в N-best алгоритме. Такой подход субоптимален, потому что он ограничивает выбор гипотезы довольно маленьким набором по сравнению с областью поиска устройства распознавания. Метод, основанный на решетках слов, не сталкивается с такой проблемой. Этот метод применим к словесным структурам, или частично упорядоченным сетям гипотез слова.

Содержание работы

Введение
Цели и задачи
Общее описание проблемы распознавания речи
Алгоритм метода, основанного на решетках слова
Эксперименты по распознаванию речи с использованием основных методов
Детальный анализ экспериментов
Анализ сетей спутывания
Заключение
Приложение
Оптимизированный N-best алгоритм
Алгоритм выравнивания решетки
Алгоритм получения данных из файлов типа «WAV».
Выводы
Список использованной литературы

Содержимое работы - 1 файл

Курсовая работа. Методы коррекции ошибок в соверменных системах распознавания речи.doc

— 514.00 Кб (Скачать файл)

 
 
 
   Белорусский Государственный  Университет                                          Факультет Радиофизики и Электроники 
 

 
 
 
   Курсовая работа на тему:                                                                                «Методы коррекции ошибок в современных системах распознавания речи» 
 

 

   Содержание

  1. Введение
  2. Цели и задачи
  3. Общее описание проблемы распознавания речи
  4. Алгоритм метода, основанного на решетках слова
  5. Эксперименты по распознаванию речи с использованием основных методов
  6. Детальный анализ экспериментов
  7. Анализ сетей спутывания
  8. Заключение
  9. Приложение
    1. Оптимизированный N-best алгоритм
    2. Алгоритм выравнивания решетки
    3. Алгоритм получения данных из файлов типа «WAV».
  10. Выводы
  11. Список использованной литературы
 
 
 
 
 
 
 
 
 
 
 
 

   1.Введение

   При получении данных из устройства распознавания речи, необходимо иметь методы, с помощью которых можно получить конечную информацию с наименьшим количеством ошибок. Существуют различные методы и алгоритмы для решения такого рода задач. Моя задача заключатеся в рассмотрении и сравнении основных методов для коррекции ошибок в современных устройствах распознавания речи. В стандартном MAP декодировании устройство распознавания выводит строку слов, соответствующих самым высоким апостериорным вероятностям в зависмости от данной акустики и языковой модели. Однако, даже в случае ниболее оптимальных моделей, MAP декодер не обязательно минимизирует обычно используемый показатель производительности: частота появления словесных ошибок (WER). Необходимо описать метод для того, чтобы явно минимизирвать WER, извлекая  гипотезы слова с самыми высокими апостериорными вероятностями из словесных структур. Необходимо заменить глобальный поиск по огромному набору гипотез предложения на локальный поиск по небольшому множеству подходящих слов. Таким методом является метод минимизации словесных ошибок, основанный на решетках слов. В дополнение к улучшению точности устройства распознавания этот метод дает новое представление о наборе подходящих гипотез, который определяет последовательность спутанных уровней слова (многоразрядных неупорядоченностей) в компактном структурном формате.

     Интуитивно, нужно максимизировать апостериорные вероятности слова, чтобы свести к минимуму WER.

   Предшествующая  работа показала, как WER может быть явно минимизирована в N-best алгоритме. Такой подход субоптимален, потому что он ограничивает выбор гипотезы довольно маленьким набором по сравнению с областью поиска устройства распознавания. Метод, основанный на решетках слов,  не сталкивается с такой проблемой. Этот метод применим к словесным структурам, или частично упорядоченным сетям гипотез слова. Словесные структуры используются многими словарными  распознающими устройствами как компактное промежуточное представление альтернативных гипотез и содержат упорядоченные последовательности величин, которые содеражат больше гипотез, чем типичные N-best списки. Алгоритм минмизации словесных ошибок дает лучший результат, чем N-best списки по двум причинам. Во-первых, стуктуры обеспечивают больший набор гипотез для выбора; во-вторых, более точное представление пространства гипотез дает лучшие оценки апостериорных вероятностей и, следовательно, уменьшает вероятность ошибиться. Однако, как будет видно ниже, представление структуры также приводит к новым вычислительным проблемам. Решение будет состоять в том, чтобы минимизировать измененную  функцию ошибок слова, которая может быть эффективно вычислена.

   В Разделе 2 описываются причины, в связи с которыми можно свойства, которыми должен обладать эффективный, основанные на теоретических и эмпирических основаниях. В Разделе 3 описывается непосредственно сам алгоритм. Раздел 4 дает экспериментальную оценку методов в показателях точности распознавания, сопровождаемой детальным анализом в Разделе 5. В Разделе 6 описываютя различные свойства сетей спутывания. Раздел 7 содержит заключение по проделанной работе. 
 
 
 
 
 
 
 

   2. Цели и задачи

  • Рассмотреть основные методы коррекции ошибок слов для систем распознавания речи
  • Определить достоинства и недостатки основных методов и выделить наилучший метод
  • Построить алгоритм для получения данных (откытия) файлов формата «WAV». Реализовать этот алгоритм программно, представляя данные в виде графика зависимости амплитуды сигнала от времени.
 
 
 
 
 
 
 
 
 
 
 

   3. Общее описание

   3.1. Теоретическое описание

   Можно мотивировать подход с теоретической точки зрения несоответствием между стандартной выйгрышной парадигмой (MAP) и обычно используемым показателем производительности (WER). В стандартном подходе к распознаванию речи цель состоит в том, чтобы найти такую гипотезу, которая максимизирует апостериорное значение вероятности P(W/A), где W - словесная последовательность, А - акустическая информация.

    Это называется синтаксическим MAP подходом. Полученные последовательности обычно апроксимируются как несколько источников знания, и нормируются. Например, взяв языковую модель P(W), и акустические вероятности P (A/W) мы можем аппроксимировать: 

где к перебирает все возвожные значения из множества гипотез, сгенерированных устройством распознавания.

   Теория  гласит, что максимизирование последовательности минимизирует уровень ошибки в предложении (вероятность наличия по крайней мере одной ошибки в предложении). Однако, обычно используемый показателем производительности в распознавании речи является словесная ошибка, то есть расстояние WE(W,R) между гипотезой W и строкой справочной информации R.. WE(W} R) определено как число замен, удалений и вставок в W относительно R при выравнивании двух строк, которое минимизирует взвешенную комбинацию этих типов ошибок. Строковое расстояние редактирования более удобный (а для многих приложений и более важный) показатель ошибок, потому что он дает частичное доверие к правильно распознанным частям предложений.

   Частоты появления ошибок предложения и слова, как предполагается, высоко коррелированны, таким образом, минимизация одной ошибки может привести к минимизации другой. Однако, как покажут эмпирические результаты, есть существенное различие между оптимизацией для предложения и частотой появления ошибок слова. Для того чтобы получить интуитивное понимание этого различия, исследуем пример.

   Таблица I: Пример, иллюстрирующий различие между мерой ошибки слова и предложения.

     
 
 

   В первом столбец  Таблицы I отображен список 10-ти лучших гипотез, которые были сгенерированы устройством распознавания, второй столбец показывает вероятности соответствующих соединений слов P(H\A) каждой из гипотез. Столбцы 3, 4 и 5 дают вероятности P (w\A) в отдельности для каждого слова. Эти апостериорные вероятности следуют из совместных апостериорных вероятностей, суммируя по всем гипотезам, которые совместно используют слово в данной позиции. Столбец 6 показывает ожидаемое число корректных слов E[correct]в каждой гипотезе. Это есть сумма вероятностей каждого слова в гипотезе.

 

   Как видно, у гипотезы, "BY DOING FINE" нет самой высокой апостериорной вероятности, но она имеет самое высокое ожидаемое число корректных слов, то есть минимальную ожидаемую ошибку слова. Правильный ответ для этого примера: "I’M DOING FINE”, что означает, что у гипотезы: “I DO INSIDE” все слова распознаны ошибочно (WER = 3), тогда как новая гипотеза распознала неправильно только одно слово (WER = 1). Таким образом, мы показали, что, используя ошибку предложения не всегда можно добиться лучшего результата. Это случилось, потому что у слов с высокой апостериорной вероятностью не было высоких вероятностей в комбинации с другими словами.

   3.2. Минимизация словесных ошибок

   Взяв  словесную ошибку за объективную  функцию, мы можем заменить MAP-подход новым подходом выбора гипотезы, который основан на уменьшении ожидаемой словесной ошибки при апостериорном распределении:

 

   Это уравнение позволяет получить ожидаемый  уровень словесной ошибки из ошибки предложения.

   Прямой алгоритм включает две итерации: суммирование по справочной информации R и минимизация по гипотезам W. Кроме того, вычисление функции словесной ошибки нетривиально: это вовлекает программирования выравнивания W и R и занимает время пропорциональное квадрату длин гипотез. Возникает  вопрос: может ли явная минимизация словесных ошибок быть реализована для обширного словарного распознавания. Следующий раздел делает краткий обзор подхода, основанного на N-best аппроксимации.

3.3. N-best аппроксимация

   Минимизацию словесных ошибок можно осуществить  при помощи ограничения области поиска и вычисления ожидаемой словесной ошибки и записи в N-best список:

   Мы  ссылаемся на гипотезу Wc, таким образом, получаем среднюю гипотезу. Оптимизированный алгоритм, который находит среднюю гипотезу, дан в Приложении A.

   

   3.4. Минимизация словесных ошибок, основанная на решетках слов

   Решетки показывают комбинаторное число гипотез предложения, представляя собой потенциал для улучшения N-best подхода через более точные оценки ошибок [суммирование в Уравнении (3)] и через большую область поиска для минимизации.

   С практической точки зрения решетки  генерируются как предварительный  шаг к N-best списку в системе распознавания. Получение минимизации словесных ошибок непосредственно от решеток представляет собой практическое упрощение и расширение эффективности всей системы распознавания.

   При выборе гипотезы, основанной на решетке, мы сталкиваемся с вычислительной проблемой. Число гипотез, которые содержатся в решетке, на несколько порядков выше, чем размер обычного N-best списка. Таким образом, прямое вычисление средней гипотезы как в уравнении (4) неосуществимо.

   Чтобы решить эту проблему, необходимо заменять попарное строковое выравнивание измененным, множественным строковым выравниванием.

  1. Входящая структура(“SIL” отображает паузы)

 
 
 
 

  1. Множественное выравнивание(“-“ отображает пропуск)

 

   Рисунок 1:Решетка распознавания и соответствующее множественное выравнивание.

   Этот подход преобразует все гипотезы структуры в одно выравнивание, и словесная ошибка между любыми двумя гипотезами будет вычислена согласно этому одному выравниванию. Множественное выравнивание, таким образом, определяет новое строковое расстояние редактирования, которое называется MWE(W,R). Основная выгода множественного выравнивания - то, что оно позволяет извлекать гипотезу с наименьшей ожидаемой ошибкой слова с высокой эффективностью. Рассмотрим пример. На Рисунке 1 отображены решетка слов и соответствующее выравнивание. Выравнивание также поддерживает вычисление апостериорной словесной вероятности. Апостериорная вероятность гипотезы слова - это сумма последующих вероятностей всех путей решетки, в которых присутствует данное слово. Учитывая выравнивание и последующие вероятности, легко заметить, что гипотеза с самой низкой ожидаемой словесной ошибкой будет у слова с самой высокой апостериорной вероятностью для каждой позиции в выравнивании. Это называется гипотезой согласия. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

   4. Алгоритм метода, основанного на решетках слов

   Дав идею ошибочной минимизации слова, основанной на выравнивании решетки, можно рассмотреть эти понятия более точно и описать алгоритм.

   Псевдокод алгоритма дан в Приложении B.

   4.1. Выравнивание решетки

   Основная сложность подхода находится в обнаружении подходящего множественного выравнивания гипотез решетки, то есть того, которое приближает попарные выравнивания. Как только выравнивание найдено, можно достоверно определить минимизацию словесных гипотез. Обнаружение самого оптимального выравнивания является проблемой, для решения которой нет эффективного решения. Поэтому необходимо прибегать к эвристическому подходу, основанному на схеме соединений в решетке.

Информация о работе Методы коррекции ошибок в современных системах распознавания речи