Что такое распознавание речи. Что такое система распознавание речи? Фонетический алфавит Яндекса

Распознавание речи -- процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей является синтез речи. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox. Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Классификация систем распознавания речи.

Системы распознавания речи классифицируются:

· по размеру словаря (ограниченный набор слов, словарь большого размера);
· по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
· по типу речи (слитная или раздельная речь);
· по назначению (системы диктовки, командные системы);
· по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
· по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
· по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

· Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
· Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Архитектура систем распознавания

Типичная архитектура статистических систем автоматической обработки речи.

· Модуль шумоочистки и отделение полезного сигнала.
· Акустическая модель -- позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
· Языковая модель -- позволяют определить наиболее вероятные словесные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта -- слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
· Декодер -- программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

Этапы распознавания:

1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
4. Далее параметры речи поступают в основной блок системы распознавания -- декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

· Голосовое управление
· Голосовые команды
· Голосовой ввод текста
· Голосовой поиск

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс Навигаторе, голосовой поиск Google Now.

Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:

· Телефония: автоматизация обработки входящих и исходящих звонков путём создания голосовых систем самообслуживание в частности для: получения справочной информации и консультирования, заказа услуг/товаров, изменения параметров действующих услуг, проведения опросов, анкетирования, сбора информации, информирования и любые другие сценарии;
· Решения "Умный дом": голосовой интерфейс управления системами «Умный дом»;
· Бытовая техника и роботы: голосовой интерфейс электронных роботов; голосовое управление бытовой техникой и т.д.;
· Десктопы и ноутбуки: голосовой ввод в компьютерных играх и приложениях;
· Автомобили: голосовое управление в салоне автомобиля -- например, навигационной системой;
· Социальные сервисы для людей с ограниченными возможностями.

программный автоматизация ввод распознавание

В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей , сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем

На сегодня существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice , Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Применение

Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню . Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

Голосовой набор в различной технике (мобильники , компьютеры , и пр.)
Голосовой ввод текстовых сообщений в смартфонах и прочих мобильных компьютерах

См. также

Цифровая обработка сигналов

Примечания

Ссылки

Категории:

Распознавание речи
Речевая коммуникация
Применение искусственного интеллекта
Средства реабилитации для людей с нарушением опорно-двигательного аппарата
Средства реабилитации для людей с нарушением зрения

Wikimedia Foundation . 2010 .

Смотреть что такое "Распознавание речи" в других словарях:

Процесс преобразования речи в текст. Системы распознавания речи характеризуются: объемом словаря понимаемых слов; допустимой беглостью речи; степенью зависимости от настойки на речь конкретного лица. По английски: Speech recognition См. также:… … Финансовый словарь

распознавание речи - — Тематики электросвязь, основные понятия EN speech recognition …

распознавание речи - kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f … Automatikos terminų žodynas

распознавание речи, зависящее от особенностей голоса - Процедура распознавания, основанная на учете особенностей голоса говорящего. Распознаваемый речевой сигнал обычно разделяется на короткие фрагменты, каждый из которых сравнивается с образцами речи, хранимыми в памяти. Выбирается тот, с которым… … Справочник технического переводчика

распознавание речи, не зависящее от особенностей голоса - Метод преобразования речи в осмысленную текстовую информацию без настройки на тембр голоса конкретного абонента. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва,… … Справочник технического переводчика

автоматическое распознавание речи - Процесс или технология, которые воспринимают сигнал обычной речи в качестве входного сигнала и выдают в качестве выходного сигнала кодированную версию сказанного (слово, команда, выражение, предложение и т. д.) (МСЭ Т Y.2271, МСЭ Т P.10/ G.100).… … Справочник технического переводчика

Образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи … Википедия

Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

Книги

Распознавание и понимание смысла речи в шумах на основе стохастики , В. В. Насыпный. Стохастика - это стохастическая информационная технология, разработанная в России. Она позволяет создавать эффективные интеллектуальные системы, работающие в реальном времени и исключающие…

Беленко М.В. 1 , Балакшин П.В. 2

1 студент, Университет ИТМО, 2 кандидат технических наук, ассистент, Университет ИТМО

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С ОТКРЫТЫМ КОДОМ

Аннотация

В статье проведен сравнительный анализ наиболее распространенных систем автоматического распознавания речи с открытым исходным кодом. При сравнении использовалось множество критериев, включая структуры систем, языки программирования при реализации, наличие подробной документации, поддерживаемые языки распознавания, ограничения накладываемые лицензией. Также были проведены эксперименты на нескольких речевых корпусах для определения скорости и точности распознавания. В результате для каждой из рассмотренных систем были выработаны рекомендации по применению с дополнительным указанием сферы деятельности.

Ключевые слова: распознавание речи, метрика, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), открытый код

Belenko M.V. 1 , Balakshin P.V. 2

1 student, ITMO University, 2 PhD in Engineering, assistant, ITMO University

COMPARATIVE ANALYSIS OF SPEECH RECOGNITION SYSTEMS WITH OPEN CODE

Abstract

The paper provides the comparison of the most common automatic speech recognition systems with open source code. Many criteria were used at comparison, including system structures, programming languages of implementation, detailed documentation, supported recognition languages, and restrictions imposed by the license. Also, there were conducted the experiments on the several speech bases for determination of speed and accuracy of the recognition. As a result, the recommendations were given for application with additional indication of the scope of activity for each of the systems examined.

Keywords: speech recognition, metric, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), open source code

Системы распознавания речи (англ. Automatic Speech Recognition Systems) в основном используются для моделирования привычного для человека общения с машиной, например, для голосового управления программами. В настоящее время распознавание речевых сигналов применяется в широком спектре систем – от приложений на смартфонах до систем “Умный дом” . Дополнительным подтверждением актуальности данной области является множество научно-исследовательских центров и центров разработки по всему миру. Однако подавляющее большинство работающих систем являются проприетарными продуктами, т.е. пользователь или потенциальный разработчик не имеет доступа к их исходному коду. Это негативно сказывается на возможности интеграции систем распознавания речи в проекты с открытым кодом. Также не существует какого либо централизованного источника данных, описывающего положительные и отрицательные стороны систем распознавания речи с открытым кодом. В результате возникает проблема выбора оптимальной системы распознавания речи для решения поставленной задачи.

В рамках работы были рассмотрены шесть систем с открытым исходным кодом: CMU Sphinx, HTK, iAtros, Julius, Kaldi и RWTH ASR. Выбор основан на частоте упоминания в современных научно-исследовательских журналах, существующими разработками последних лет и популярности у индивидуальных разработчиков программного обеспечения , , , , , , . Выбранные системы сравнивались по таким показателям, как точность и скорость распознавания, удобство использования и внутренняя структура.

По точности системы сравнивались по наиболее распространенным метрикам : Word Recognition Rate (WRR), Word Error Rate (WER), которые вычисляются по следующим формулам:

где S – число операций замены слов, I – число операций вставки слов, D – число операций удаления слов из распознанной фразы для получения исходной фразы, а Т – число слов в исходной фразе и измеряется в процентах. По скорости распознавания сравнение было проведено с использованием Real Time Factor – показателя отношения времени распознавания к длительности распознаваемого сигнала, также известного как Speed Factor (SF). Данный показатель можно рассчитать используя формулу:

где Т расп – время распознавания сигнала, Т – его длительность и измеряется в долях от реального времени.

Все системы были обучены с применением речевого корпуса WSJ1 (Wall Street Journal 1), содержащего около 160 часов тренировочных данных и 10 часов тестовых данных, представляющих собой отрывки из газеты Wall Street Journal. Данный речевой корпус включает в себя записи дикторов обоих полов на английском языке.

После проведения эксперимента и обработки результатов была получена следующая таблица (табл. 1).

Таблица 1 – Результаты сравнения по точности и скорости

Система	WER, %	WRR, %	SF
HTK	19,8	80,2	1.4
CMU Sphinx (pocketsphinx/sphinx4)	21.4/22.7	78.6/77.3	0.5/1
Kaldi	6.5	93.5	0.6
Julius	23.1	76.9	1.3
iAtros	16.1	83.9	2 .1
RWTH ASR	15.5	84.5	3.8

Точность и корректность исследования подтверждается тем, что полученные результаты схожи с результатами, полученными при тестировании данных систем на других речевых корпусах, таких как Verbmobil 1, Quaero, EPPS , , .

В качестве критериев сравнения структур были выбраны язык реализации системы, алгоритмы, используемые при распознавании, форматы входных и выходных данных и непосредственно внутренняя структура программной реализации системы.

Процесс распознавания речи в общем виде можно представить в виде следующих этапов :

Извлечение акустических признаков из входного сигнала.
Акустическое моделирование.
Языковое моделирование.
Декодирование.

Подходы, алгоритмы и структуры данных, используемые рассматриваемыми системами распознавания речи на каждом из перечисленных этапов представлены в таблицах (табл. 2, 3).

Таблица 2 – Результаты сравнения алгоритмов

Система	Извлечение признаков	Акустическое моделирование	Языковое модели-рование	Распознавание
HTK	MFCC	HMM	N-gramm	Алгоритм Витерби
CMU Sphinx	MFCC, PLP	HMM	N-gramm, FST	Алгоритм Витерби, алгоритм bushderby
Kaldi	MFCC, PLP	HMM,GMM, SGMM, DNN	FST, есть конвертер N-gramm->FST	Двухпро-ходной алгоритм прямого-обратного хода
Julius	MFCC, PLP	HMM	N-gramm, Rule-based	Алгоритм Витерби
iAtros	MFCC	HMM, GMM	N-gramm, FST	Алгоритм Витерби
RWTH ASR	MFCC, PLP, voicedness	HMM, GMM	N-gramm, WFST	Алгоритм Витерби

Таблица 3 – Языки реализации систем и их структура

Система	Язык	Структура
HTK	С	Модульная, в виде утилит
CMU Sphinx (pocketsphinx/sphinx4)	C/Java	Модульная
Kaldi	C++	Модульная
Julius	C	Модульная
iAtros	C	Модульная
RWTH ASR	C++	Модульная

С точки зрения удобства использования рассматривались такие показатели как подробность документации, поддержка различных программных и аппаратных сред выполнения, лицензионные ограничения, поддержка множества естественных языков распознавания, характеристики интерфейса. Результаты представлены в следующих таблицах (табл. 4, 5, 6, 7, 8).

Таблица 4 – Наличие документации

Таблица 5 – Поддержка различных операционных систем

Система	Поддерживаемые ОС
HTK	Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sphinx (pocketsphinx/sphinx4)	Linux, Mac OS, Windows, Android
Kaldi	Linux, Windows, FreeBSD
Julius	Linux, Windows, FreeBSD, Mac OS
iAtros	Linux
RWTH ASR	Linux, Mac OS

Таблица 6 – Интерфейсы систем

Таблица 7 – Поддерживаемые языки распознавания

Таблица 8 – Лицензии

Система	Лицензия
HTK	HTK
CMU Sphinx (pocketsphinx/sphinx4)	BSD
Kaldi	Apache
Julius	BSD подобная
iAtros	GPLv3
RWTH ASR	RWTH ASR

Проанализировав полученные выше результаты, можно составить характеристику каждой из рассматриваемых систем и выработать рекомендации по их применению.

Kaldi. Данная система показывает лучшую точность распознавания из всех рассматриваемых систем (WER=6.5%) и вторую скорость распознавания (SF=0.6). С точки зрения предоставляемых алгоритмов и структур данных, применяемых для распознавания речи, данная система тоже лидирует, так как предоставляет наибольшее количество современных подходов, применяющихся в сфере распознавания речи, таких как использование нейронных сетей и моделей гауссовых смесей на этапе акустического моделирования и использование конечных автоматов на этапе языкового моделирования. Также она позволяет использовать множество алгоритмов для уменьшения размера акустических признаков сигнала, и, соответственно, увеличивать производительность системы. Kaldi написана на языке программирования С++, что положительно сказывается на скорости работы системы, и имеет модульную структуру, что предоставляет возможность легко производить рефакторинг системы, добавление нового функционала, а также исправлять существующие ошибки. С точки зрения удобства использования Kaldi, также является одной из первых систем. Она предоставляет подробную документацию, но ориентированную на опытных в сфере распознавания речи читателей. Это может негативно сказаться на использовании данной системы новичками в этой области. Она кроссплатформенна, то есть запускается на большинстве современных операционных систем. Kaldi предоставляет только консольный интерфейс, что делает ее интеграцию в сторонние приложения затруднительной. По умолчанию данная система поддерживает только английский язык, распространяется под полностью свободной лицензией Apache, то есть может быть интегрирована в коммерческий продукт без раскрытия его кода. Данная система может с успехом применяться для научно-исследовательской деятельности, так как обеспечивает хорошую точность распознавания, приемлемую скорость распознавания, реализует множество современных методов распознавания речи, имеет множество готовых рецептов, что делает ее простой в использовании и обладает исчерпывающей документацией.

CMU Sphinx. Эта система распознавания речи показывает посредственную точность распознавания (WER~22%) и лучшую скорость распознавания из всех рассмотренных (SF=0.5). Нужно заметить, что наибольшая скорость распознавания достигается при использовании декодера pocketsphinx, написанного на С, декодер sphinx4 показывает вполне среднюю скорость работы (SF=1). Структурно данная система также использует множество современных подходов к распознаванию речи, включая модифицированный алгоритм Витерби, однако используемых подходов меньше, чем у Kaldi. В частности, на этапе акустического моделирования данная система работает только со скрытыми марковскими моделями. CMU Sphinx включает в себя два декодера – pocketsphinx, реализованный на С, и sphinx4, реализованный на Java. Это позволяет применять данную систему на множестве платформ, в том числе под управлением операционной системы Android, а также облегчает интеграцию в проекты, написанные на Java. Данная система имеет модульную структуру, что положительно сказывается на возможности быстрого внесения изменений и исправления ошибок. С токи зрения удобства использования CMU Sphinx опережает Kaldi, так как кроме консольного интерфейса предоставляет API, что существенно упрощает процесс встраивания системы в стороннее приложение. Также она обладает подробной документацией, ориентированной, в отличие от Kaldi, на начинающего разработчика, что сильно упрощает процесс знакомства с системой. Также сильной стороной данной системы является поддержка множества языков по умолчанию, то есть наличие языковых и акустических моделей этих языков в свободном доступе. Среди поддерживаемых языков кроме стандартного английского встречаются также русский, казахский и ряд других. СMU Sphinx распространяется под лицензией BSD, что разрешает ее встраивание в коммерческие проекты. Данная система может применяться в коммерческих проектах, так как обладает большинством достоинств Kaldi, хотя и обеспечивает несколько худшую точность распознавания, а также предоставляет API, которое можно использовать для построения сторонних приложений на базе данной системы.

HTK. С точки зрения точности и скорости работы данная система показывает средние результаты из рассмотренных систем (WER=19.8%, SF=1.4). HTK предоставляет только классические в сфере распознавания речи алгоритмы и структуры данных. Это связано с тем, что с тем, что выпуск предыдущей версии системы был произведен в 2009 году. В конце декабря 2015 года была выпущена новая версия HTK, однако она не была рассмотрена в данном исследовании. Реализована данная система на языке С, что хорошо отражается на скорости работы, так как C является низкоуровневым языком программирования. По структуре данная система представляет собой набор утилит, вызываемых из командной строки, а также предоставляет API, известное под названием ATK. С точки зрения удобства использования HTK, наравне с Julius, является лидирующей системой из рассмотренных. В качестве документации она предоставляет HTK Book – книгу, описывающую не только аспекты работы HTK, но и общие принципы работы систем распознавания речи. По умолчанию данная система поддерживает только английский язык. Распространяется под лицензией HTK, которая разрешает распространение исходного кода системы. Данную систему можно порекомендовать для использования в образовательной деятельности в сфере распознавания речи. Она реализует большинство классических подходов к решению проблемы распознавания речи, обладает очень подробной документацией, которая также описывает основные принципы распознавания речи в целом, и имеет множество обучающих статей и рецептов.

Julius. Данная система показывает худший показатель точности (WER=23.1) и средний показатель скорости распознавания (SF=1.3). Этапы акустического и языкового моделирования осуществляются с помощью утилит, входящих в состав HTK, однако декодирование происходит с помощью своего декодера. Он, как и большинство рассмотренных систем, использует алгоритм Витерби. Реализована данная система на языке С, структура реализации является модульной. Система предоставляет консольный интерфейс и API для интеграции в сторонние приложения. Документация, как и в HTK, реализована в форме книги Julius book. По умолчанию Julius поддерживает английский и японский языки. Распространяется под BSD подобной лицензией. Систему Julius можно также порекомендовать для образовательной деятельности, так как она обладает всеми плюсами HTK, и также предоставляет возможность распознавать такой экзотический язык как японский.

Iatros. Данная система показывает хороший результат по точности распознавания (WER=16.1%) и посредственный результат по скорости (SF=2.1). Она весьма ограничена в возможностях касательно алгоритмов и структур данных, применяющихся при распознавании речи, однако предоставляет возможность использовать модели гауссовых смесей в качестве состояний скрытой марковской модели на этапе акустического моделирования. Реализована данная система на языке С. Имеет модульную структуру. Кроме функционала распознавания речи содержит в себе также модуль распознавания текста. Это не имеет большого значения для данного исследования, однако является отличительно особенностью данной системы, про которую нельзя не упомянуть. С точки зрения удобства использования iAtros проигрывает всем рассмотренным в ходе исследования системам. Данная система не обладает документацией, не предоставляет API для встраивания в сторонние приложения, из поддерживаемых по умолчанию языков представлены английский и испанский. Является совершенно не кроссплатформенной, так как запускается только под управлением операционных систем семейства Linux. Распространяется под лицензией GPLv3, которая не позволяет встраивать данную систему в коммерческие проекты без раскрытия их исходного кода, что делает ее непригодной для использования в коммерческой деятельности. Система iAtros с успехом может использоваться там, где кроме распознавания речи необходимо еще применение распознавания образов, так как данная система предоставляет такую возможность.

RWTH ASR. По точности распознавания RWTH ASR показывает неплохой результат (WER=15.5%), однако по скорости распознавания является худшей системой из рассмотренных (SF=3.8). Данная система так же как и iAtros может использовать модели гауссовых смесей на этапе акустического моделирования. Отличительной чертой является возможность использования характеристики звонкости при извлечении акустических характеристик входного сигнала. Также данная система может использовать взвешенный конечный автомат в качестве языковой модели на этапе языкового моделирования. Данная система реализована на языке С++ и имеет модульную архитектуру. По удобству использования является второй с конца, имеет документацию, описывающую только процесс установки, чего явно недостаточно для начала работы с системой. Предоставляет только консольный интерфейс, по умолчанию поддерживает только английский язык. Система недостаточно кроссплатформенна, так как не может работать под управлением операционной системы Windows, которая сильно распространена в настоящее время. Распространяется под лицензией RWTH ASR, по которой код системы предоставляется только для некоммерческого использования, что делает данную систему непригодной для интеграции в коммерческие проекты. Данная система может применяться для решения задач, где важна точность распознавания, но не важно время. Также стоит заметить, что она совершенно непригодна для какой-либо коммерческой деятельности из-за ограничений, накладываемых лицензией.

Список литературы / References

CMU Sphinx Wiki [Электронный ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (дата обращения: 09.01.2017)
Gaida C. Comparing open-source speech recognition toolkits [Электронный ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (дата обращения: 12.02.2017)
El Moubtahij H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Arabic handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. №3. – P. 99-110.
Jha M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
Kaldi [Электронный ресурс]. – URL: http://kaldi-asr.org/doc (дата обращения: 19.12.2016)
Luján-Mares M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58.
El Amrania M.Y. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. – P. 305–314.
Ogata K. Analysis of articulatory timing based on a superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. – P. 3720-3725.
Sundermeyer The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – P. 2212-2215.
Алимурадов А.К. АДАПТИВНЫЙ МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ГОЛОСОВОГО УПРАВЛЕНИЯ / А.К. Алимурадов, П.П. Чураков // Труды Международной научно-технической конференции «Перспективные информационные технологии» – 2016. – С. 196-200.
Бакаленко В.С. Интеллектуализация ввода-вывода кода программы с помощью речевых технологий: дис. … магистра техники и технологии. – ДонНТУ, Донецк, 2016.
Балакшин П.В. Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов: дис. … канд. техн. наук: 05.13.11: защищена 10.12.2015: утв. 08.06.2016 / Балакшин Павел Валерьевич. – СПб.: Университет ИТМО, 2014. – 127 с.
Балакшин П.В. ФУНКЦИЯ ПЛОТНОСТИ ДЛИТЕЛЬНОСТИ СОСТОЯНИЙ СММ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ / П.В. Балакшин // Современные проблемы науки и образования. – 2011. – № 1. – С. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (дата обращения: 13.11.2016).
Беленко М.В. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С ОТКРЫТЫМ КОДОМ / М.В. Беленко // Сборник трудов V Всероссийского конгресса молодых ученых. Т. 2. – СПб.: Университет ИТМО, 2016. – С. 45-49.
Гусев М.Н. Система распознавания речи: основные модели и алгоритмы / М.Н. Гусев, В.М. Дегтярев. – СПб.: Знак, 2013. – 128 с.
Карпов А.А. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А. Карпов, Л. Акарун, А.Л. Ронжин // Труды СПИИРАН. – 2011. – Т. 19. – №. 0. – С. 48-64.
Карпов А.А. Методология оценивания работы систем автоматического распознавания речи / А.А. Карпов, И.С. Кипяткова // Известия высших учебных заведений. Приборостроение. – 2012. – Т. 55. – №. 11. – С. 38-43.
Тампель И.Б. Автоматическое распознавание речи – основные этапы за 50 лет / И.Б. Тампель // Научно-технический вестник информационных технологий, механики и оптики. – 2015. – Т. 15. – № 6. – С. 957–968.

Список литературы на английском / References in English

CMU Sphinx Wiki . – URL: http://cmusphinx.sourceforge.net/wiki/ (accessed: 09.01.2017).
Gaida C. Comparing open-source speech recognition toolkits . / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (accessed: 12.02.2017)
El Moubtahij, H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Arabic handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. №3. – P. 99-110.
Jha, M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
Kaldi . – URL: http://kaldi-asr.org/doc (accessed: 19.12.2016)
Luján-Mares, M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58.
El Amrania, M.Y. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. – P. 305–314.
Ogata, K. Analysis of articulatory timing based on a superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. – P. 3720-3725.
Sundermeyer, M. The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – P. 2212-2215.
Alimuradov A.K. ADAPTIVNYJ METOD POVYShENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradov, P.P. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii «Perspektivnye informacionnye tehnologii» . – 2016. – P. 196-200.
Bakalenko V.S. Intellektualizatsiya vvoda-vyivoda koda programmyi s pomoschyu rechevyih tehnologiy : dis. … of Master in Engineering and Technology. – DonNTU, Donetsk, 2016.
Balakshin P.V. Algoritmicheskie i programmnyie sredstva raspoznavaniya rechi na osnove skryityih markovskih modeley dlya telefonnyih sluzhb podderzhki klientov : dis. … PhD in Engineering: 05.13.11: defense of the thesis 10.12.2015: approved 08.06.2016 / Balakshin Pavel Valer’evich. – SPb.: ITMO University, 2014. – 127 p.
Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sovremennye problemy nauki i obrazovanija . – 2011. – № 1. – P. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (accessed: 13.11.2016).
Belenko M.V. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih . V. 2. – SPb.: ITMO University, 2016. P. 45-49.
Gusev M.N. Sistema raspoznavaniya rechi: osnovnyie modeli i algoritmyi / M.N. Gusev V.M. Degtyarev. – SPb.: Znak, 2013. – 141 p.
Karpov A.A. Mnogomodalnyie assistivnyie sistemyi dlya intellektualnogo zhilogo prostranstva / A.A. Karpov, L. Akarun, A.L. Ronzhin // Trudyi SPIIRAN . – 2011. – V. 19. – №. 0. – P. 48-64.
Karpov A.A. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. Karpov, I.S. Kipyatkova // Izvestiya vyisshih uchebnyih zavedeniy. Priborostroenie. – 2012. – V. 55. – №. 11. – P. 38-43.
Tampel I.B. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 let / I.B. Tampel // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii, Mekhaniki i Optiki . – 2015. – V. 15. – № 6. – P. 957–968.

Для того, чтобы распознать речь и перевести её из аудио или видео в текст , существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.

Большое число установленных в браузере плагинов сильно тормозит его работу и скорость серфинга в интернет. А сервисы, о которых сегодня пойдет речь, полностью бесплатны и не требуют установки – зашел, попользовался и ушел!

В этой статье мы рассмотрим два сервиса перевода речи в текст онлайн . Оба они работают по схожему принципу: Вы запускаете запись (разрешаете браузеру доступ к микрофону на время пользования сервисом), говорите в микрофон (диктуете), а на выходе получаете текст, который можно скопировать в любой документ на компьютере.

Speechpad.ru

Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.

поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
синхронный перевод на другой язык
поддержку голосового ввода знаков препинания и перевода строки
панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
наличие персонального кабинета с историей записей (опция доступна после регистрации)
наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)

Dictation.io

Второй онлайн сервис перевода речи в текст. Иностранный сервис, который между тем, прекрасно работает с русским языком, что крайне удивительно. По качеству распознавания речи не уступает Speechpad, но об этом чуть позже.

Основной функционал сервиса:

поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
автораспознавание произношения знаков препинания, перевода строки и пр.
возможность интеграции со страницами любого сайта
наличие плагина для Google Chrome (называется «VoiceRecognition»)

В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Отличный результат!

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!

Кстати вот как он выполнил синхронный перевод фрагмента поэмы Некрасова на английский язык:

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.

15 июля 2009 в 22:16

Распознавание речи. Часть 1. Классификация систем распознавания речи

Искусственный интеллект

Эпиграф

В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий . Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

Классификация систем распознавания речи

На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

Признаки классификации систем распознавания речи

Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.

Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.
Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.

Различия методов распознавания речи

При создании системы распознавания речи требуется выбрать, какой уровень абстракции адекватен поставленной задаче, какие параметры звуковой волны будут использоваться для распознавания и методы распознавания этих параметров. Рассмотрим основные различия в структуре и процессе работы различных систем распознавания речи.

По типу структурной единицы. При анализе речи, в качестве базовой единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, ди- или трифоны, аллофоны. В зависимости от того, какая структурная часть выбрана, изменяется структура, универсальность и сложность словаря распознаваемых элементов.
По выделению признаков. Сама последовательность отсчетов давления звуковой волны – чрезмерно избыточна для систем распознавания звуков и содержит много лишней информации, которая при распознавании не нужна, либо даже вредна. Таким образом, для представления речевого сигнала из него требуется выделить какие-либо параметры, адекватно представляющие этот сигнал для распознавания.
По механизму функционирования. В современных системах широко используются различные подходы к механизму функционирования распознающих систем. Вероятностно-сетевой подход состоит в том, что речевой сигнал разбивается на определенные части (кадры, либо по фонетическому признаку), после чего происходит вероятностная оценка того, к какому именно элементу распознаваемого словаря имеет отношение данная часть и (или) весь входной сигнал. Подход, основанный на решении обратной задачи синтеза звука, состоит в том, что по входному сигналу определяется характер движения артикуляторов речевого тракта и, по специальному словарю происходит определение произнесенных фонем.

UPD: Перенес в «Искуственный интеллект». Если будет интерес, дальше публиковать буду в нем.