Методы коррекции ошибок в современных системах распознавания речи

Автор работы: Пользователь скрыл имя, 25 Ноября 2011 в 00:20, курсовая работа

Краткое описание

Предшествующая работа показала, как WER может быть явно минимизирована в N-best алгоритме. Такой подход субоптимален, потому что он ограничивает выбор гипотезы довольно маленьким набором по сравнению с областью поиска устройства распознавания. Метод, основанный на решетках слов, не сталкивается с такой проблемой. Этот метод применим к словесным структурам, или частично упорядоченным сетям гипотез слова.

Содержание работы

Введение
Цели и задачи
Общее описание проблемы распознавания речи
Алгоритм метода, основанного на решетках слова
Эксперименты по распознаванию речи с использованием основных методов
Детальный анализ экспериментов
Анализ сетей спутывания
Заключение
Приложение
Оптимизированный N-best алгоритм
Алгоритм выравнивания решетки
Алгоритм получения данных из файлов типа «WAV».
Выводы
Список использованной литературы

Содержимое работы - 1 файл

Курсовая работа. Методы коррекции ошибок в соверменных системах распознавания речи.doc

— 514.00 Кб (Скачать файл)

    Пусть E будет множеством узлов в решетке, каждый узел e будет характеризоваться стартовым узлом Inode(e), конечным узлом Fnode(e), стартовым временем Itime(e), конечным временем Ftime(e), и словесной меткой Word(e). Из акустической и языковой моделей в словесной решетке можно вычислить апостериорную вероятность p(e) каждого узла, то есть сумму  апостериорных вероятностей всех путей проходящих через e. Кроме того, для данного подмножества            можно записать

                                                                   -  - множество слов

                                     - суммарная апостериорная вероятность 

   Формально, выравнивание состоит из эквивалентной зависимости по словесным гипотезам в решетке, вместе с упорядочением эквивалентных классов. Каждый эквивалентный класс соответствует одной "позиции" в выравнивании, а члены класса - это те гипотезы слова, которые находятся на одном уровне, то есть представляют альтернативы. [e] используется для того, чтобы обозначить эквивалентный класс, где e – член этого класса.

    Для                                    :

          

    Формально e ≤ f значит, что e располагается перед f.

    Теперь пусть будет множеством эквивалентных классов на множестве E, и      будет частичной упорядоченностью на . То есть если                  

                , то это предопологает, что          для всех

   Эквивалентность узла инициализируется таким образом, что каждый класс состоит из всех узлов с одинаковыми начальными и конечными временами и такой же меткой слова. Начиная с такого начального разделения, алгоритм последовательно объединяет эквивалентные классы, до тех пор, пока не будет получена полностью упорядоченная эквивалентность.

    Корректность и завершение алгоритма основаны на следующем наблюдении. Взяв два неупорядоченных класса,                                        можно всегда объединить E1и E2, чтобы получить новую эквивалентность, которая будет непротиворечивой. Таким образом, гарантируется, что сможем получить полностью упорядоченную, непротиворечивую эквивалентную зависимость после конечного числа шагов.

   У алгоритма кластеризации есть две  стадии. Сначала объединяются только эквивалентные классы, соответствующие экземплярам класса одного и того же слова (кластеризация внутри слова), и затем запускается группирование гетерогенных эквивалентных классов (кластеризация между словами), основанное на фонетическом подобии компонентов слова. В конце первой стадии можно вычислить апостериорные вероятности слова, но только после второй стадии можно идентифицировать конкурирующие гипотезы слова.

   4.2. Кластеризация внутри слова

   Цель  этого шага состоит в том, чтобы  сгруппировать все узлы, соответствующие тому же классу слова. Кандидатами на объединение при этом шаге являются все эквивалентные классы, которые не находятся в отношении и соответствуют одному и тому же слову. Функцией, используемой для кластеризации внутри слова, является мера по подобию между двумя наборами узлов в решетке:

         

   где overlap(e1,e2) (перекрытие) определено как перекрытие по времени между двумя узлами, нормализованными суммой их длин. Перекрытие по времени взвешено апостериорными вероятностями узлов, чтобы сделать меру менее чувствительной к маловероятным гипотезам слова. При каждом шаге вычисляется подобие между всеми возможными парами кандидатов класса, и объединяем те, которые являются наиболее подобными. В конце этого итерационного процесса получается зависимость эквивалентных узлов.

   4.3. Кластеризация между словами

   В этом шаге группируются эквивалентные классы, соответствующие различным словам. Кандидатами на объединение являются любые два класса, которые не находятся в зависимости между собой. Алгоритм останавливается, когда заканчиваются доступные кандидаты, то есть когда получена полная упорядоченность.

   Функцией, используемой для кластеризации между словами, является мера по подобию, основанная на фонетическом подобии между словами:

   

    где а,          это фонетическое подобие между двумя словами, вычисленное с помощью использования наиболее вероятной основной фонетической формы, avg - среднее значение.  

   4.4. Отсечение возможных решений

   Типичные  словесные решетки содержат узлы с очень низкой апостериорной вероятностью. Такие связи незначительны в вычислении полных апостериорных вероятностей гипотез слова, но они могут негативно влиять на выравнивание. Это происходит, потому что выравнивание сохраняет последовательность, независимо от того насколько низкие вероятности имеют узлы. Например, на Рисунке 2 видно, что слова “ME” и “BE”, которые являются фонетически подобными и хорошо совмещаются по времени, и поэтому должны быть взаимоисключающимися. Однако, даже однократное прохождение с “BE”, которое предшествует “ME”, не допустит их выравнивания (“BE” и “ME”).

   Чтобы помочь устранять такие случаи, вводится предварительный шаг отсечения возможных решений. Отсечение возможных решений решетки удаляет все узлы, вероятности которых ниже значения, полученного эмпирически. Эквивалентная инициализация класса и последующее объединение рассматривают только те узлы, которые остались после начального отсечения возможных решений. Раздел 5.2 дает результаты, показывающие эффективность отсечения возможных решений решетки на полной работоспособности алгоритма. Эксперименты показывают, что точность распознавания слова, действительно улучшается с отсечением возможных решений решетки, и эти результаты не очень чувствительны к точному значению порога отсечения.

   

   Рисунок 2. Пример, показывающий шаг отсечения возможных решений.

   4.5. Сети спутывания

   Полная  апостериорная вероятность выровненного класса может быть строго меньше 1. Это случается, когда есть пути в решетке, которые имеют пустые позиции. Пустая позиция характеризуется вероятностью нулевого слова. Нулевые слова (удаления) обозначается узлом e_ с соответствующим пустым словом Word( e_ ) = "-".

   Например, в решетке на рисунке 1(a) есть некоторые гипотезы, имеющие слово "I" в первой позиции, в то время как у других на этом месте слово отсутствует. Конечное выравнивание, таким образом, содержит две конкурирующих гипотезы в первой позиции: слово "I" (с равной суммой по всем гипотезам, начинающимся со второго слова), и нулевое слово (с равной суммой по всем другим гипотезам).

   Как показано на  рисунке 1(b), само выравнивание эквивалентно решетке, которую мы будем называть сеть беспорядка. Можно рассматривать сети беспорядка как высоко уплотненное представление  решетки, у которой все словесные гипотезы упорядочены.

   4.6. Гипотеза согласия

   Как только получено конечное выравнивание, можно извлечь гипотезу с самой низкой ожидаемой словесной ошибкой. Пусть будет конечными узлами эквивалентных классов, составляющими выравнивание. Нужно выбрать гипотезу таким образом, что или , где . Таким образом, видно, что ожидаемая словесная ошибка гипотезы W – это сумма словесных ошибок для каждой позиции в выравнивании. Ожидаемая словесная ошибка в позиции i:

 

   Другими словами, наилучшая гипотеза получается при выборе узла, который имеет самую высокая апостериорную вероятность среди всех узлов в данной позиции. Это эквивалентно обнаружению пути через граф беспорядка с самым высоким суммарным весом узлов. 

4.7 Вычисление вероятностей

   Вернемся к уравнению 1:

   

   Ff

   Оценка  апостериорных вероятностей основана на комбинации множеств языковых и акустических моделей. Это достигается с помощью использования весовой константы языковой модели.

   Определение этой константы достигается эмпирическим путем, исходя из экспериментов, рассмотренных далее, можно получить следующее уравнение:

   где λ – вес языковой модели, P(Q|W) – совместная вероятность произношения, C – нормировочная константа, которая приводит сумму P (W|A) по всем гипотезам W к единице. 
 
 
 
 

   5. Эксперименты по распознаванию слов

   Теперь  необходимо рассмотреть эксперименты, испытывающие алгоритм минимизации словесных ошибок, основанный на словесных решетках на точности распознавания слова. Эксперименты проводились над двумя широко используемыми, сильно отличающимися наборами данных:

  • разговорная телефонная речь (the Switchboard conversational telephone speech corpus)
  • телевизионное и радио - вещание новостей (the Broadcast News corpus of radio and television news programs).
 

   5.1. Результаты по распознаванию разговорной телефонной речи

   Система, которая генерировала решетки слов, построена на основе НТК. Это система, основанная на HMM (Hidden Markov Model), позволяет обрабатывать до 60 часов разговорной телефонной речи. Система использует 6700 НММ кластеров. Языковой моделью является триграмма, содержащая до 2.2 миллионах слов из расшифровки речи.

   Первый  набор экспериментов сравнивает гипотезу согласия с MAP гипотезой предложения. Также будут рассматриваться эксперименты по сравнению подхода, основанного на решетках слова с   минимизацией ошибок слова, основанной на N-best подходе.

   5.1.1. Сравнение с MAP подходом

   Первый  столбец в Таблице II (Set I) показывает результаты по распознаванию набора, состоящего из 2427 произношений, полученных 19 разговоров, включающих приблизительно 18 000 слов. 
 

   Таблица II: Сравнение гипотезы согласия и MAP гипотезы  на двух экспериментальных наборах телефонной речи.

   

 
   Два параметра алгоритма были оптимизированы на отдельном наборе слов телефонной речи, который был несвязанным с наборами, используемыми в  распознавании. Порог для отсечения возможных решений (Раздел 3.4) был установлен таким образом, чтобы гипотезы слова с апостериорной вероятностью меньше, чем были устранены. Другим оптимизированным параметром был вес языковой модели, который будет равен 12 (Раздел 3.7).

   Гипотеза  согласия приводит к абсолютному  уменьшению WER l.2% по сравнению с MAP подходом. Это различие статистически существенно на уровне 0.0001. Чтобы проверить последовательность усовершенствования, мы выполнили подобный эксперимент на другом наборе решеток. Set II состоит из решеток, соответствующих иному набору произношения, с использованием тех же самых акустических моделей. WER на этом наборе была больше на 4 %, чем на наборе 1 (Set I). Результаты, полученные из Set II, дали схожий результат по уменьшению WER (1.3 %).

   5.1.2. Сравнение с N-best подходом

   Мы  также сравнили гипотезу согласия, основанную на решетке слова с гипотезой, основанной N-best подходе (Раздел 2.3). Максимальное число гипотез по произношению было 300. Мы определили, что увеличение числа N-best гипотез до 1000 не дало существенного уменьшения ошибки, и поэтому решили, что N = 300 достаточным для эксперимента. Таблица III отображает результаты по WER для этих двух методов на наборах, которые были использованы ранее.

Таблица III: Сравнение N-best подхода с методом, основанным на решетке слов на двух наборах.

   Видно, что существенное различие между этими двумя методами: подход, основанный на решетке слов, имеет наименьшую ошибку.  

   Из  Таблицы IV видно, что частота появления ошибок предложения (SER) увеличивается. Это объясняется тем, что, в отличие от MAP подхода объективной функцией для N-best гипотезы и гипотезы согласия является ошибка слова, а не ошибка предложения.

   Таблица IV: частота появления ошибок слова (WER) и частота появления ошибок предложения (SER) при эксперименте на Наборе 1.

   

 
 
   5.2. Результаты по распознаванию телерадиовещания новостей

   Были  проведены эксперименты на множестве из 1280 решеток. В этом эксперименте оптимизация коэффициентов не была проведена. Значения коэффициентов порога отсечения возможных решений и веса языковой модели были взяты из предыдущего эксперимента по распознаванию телефонной речи.  

Информация о работе Методы коррекции ошибок в современных системах распознавания речи