Речевые технологии в образовательной деятельности

Молчанова Анастасия Александровна – студент магистратуры Южно-Российского государственного политехнического университета имени М.И. Платова, учитель информатики МБОУ Рассветовской СОШ Аксайского района Ростовской области.

Аннотация: В данной статье речь идет о речевых технологиях - новейших технологиях XXI века и возможности их использования в учебном процессе. Рассказана история возникновения, тенденции развития речевых систем, основные принципы работы этих технологий, проблемы, описаны некоторые возможности их применения в образовательном процессе.

Ключевые слова: Речевые технологии, управление голосом, голосовые технологии, синтез речи, сегментация, распознавание речи, обработка речи.

Введение

Создание систем автоматического распознавания речи достаточно актуальное направление в сфере развития информационных технологий. Мало кто задумывается о том, насколько эти технологии уже распространены в нашей жизни.

Речевые технологии – это новейшие технологии XXI века, внедрение которых в систему образования позволяит с помощью синтеза речи корректировать произношение учеников разных возрастов и национальностей, организовывать практическую деятельность учащихся в области подготовки к государственной итоговой аттестации, а также упрощать разработку методических материалов педагогам.

История возникновения

В 1939 году была продемонстрирована первая в мире система автоматического распознавания речи в Ленинградском Государственном Университете Мясниковым.

Работы по компрессии и по автоматическому распознаванию речи шли еще в 50-х годах XX века.

В 60-х годах СССР опережал другие страны в разработках в области речевых технологий. С 70-х годов в разработке речевых систем США начали выходить на лидирующий план, но до середины 80-х уровень теоретических и прикладных разработок в СССР и США оставались приблизительно одинаковыми.

В 80-х годах прекратилось финансирование этого направления в СССР, вследствие чего разработка речевых систем была приостановлена.

В настоящее время в области речевых технологий активно работают страны: США, Япония, Канада, Австралия.

Идеи и тенденции

Рассматривать голосовые технологии следует через три основные составляющие.

Первая – система синтеза речи.

Синтез речи – это технология, которая дает возможность воспроизвести текст, как можно более похожим естественным человеческим голосом. Чтобы синтезированная речь звучала натурально, следует решать такие задачи, как плавность звучания, интонации, правильная расстановка ударения, расшифровка сокращений.

Вторая – система распознавания речи.

Распознавание речи – системы, которые позволяют преобразовывать в компьютерную форму, представленную слитную проблемно-ориентированную человеческую речь. В настоящее время разработаны системы, которые могут разобрать ограниченное количество слов. Задача, распознавания произвольного слитного устного текста, все еще находится на стадии решения.

Третья – интерфейсная система.

Для совместного использования систем синтеза и распознавания речи нужно иметь некоторую программу, которая должна понимать, когда следует синтезировать, а когда распознавать полученную извне информацию. Иными словами, интерфейс. Речевому интерфейсу уделялось, мало внимания, поскольку многие разработчики считали, что для начала активного использования такой системы, будет достаточно создать хорошую программу распознавания речи.

Основные принципы работы

Голосовое управление – это способ взаимодействия с устройствами при помощи голоса. Считается, что эта технология управления устройствами перспективнее, сенсорного ввода информации. Преимуществами голосового управления можно считать возможность удаленного и интерактивного взаимодействия с устройством, а также отсутствие с ним тактильного контакта, что в учебном процессе может помочь детям с ограниченными возможностями здоровья.

Голосовое управление происходит по следующим этапам - сегментация, распознавание речи, отклик на поставленную задачу.

Обработка речи начинается с определения уровня помех и искажений, полученного речевого сигнала. Далее в сигнале выделяются участки, которые содержат речь, и происходит качественная оценка поступившей информации о формах слов. Этот этап называется сегментацией.

Далее параметры речи поступают в декодер, где сопоставляются входные речевые потоки информации с потоками, хранящимися в акустических и языковых моделях устройства. Определяется некоторая наиболее вероятная последовательность слов, которая в итоге будет являться результатом. Это этап распознавания речи.

Последнее – отклик на поставленную задачу. На этом этапе процессор, встроенный в используемое устройство, обрабатывает полученную команду, сравнивает ее с экземплярами встроенными в базу данных. И если она совпадает с, то устройство выполняет требуемую задачу, если же команда отсутствует, то используемое оборудование оповестит о невозможности ее выполнения.

Проблемы развития речевых технологий

Перед разработчиками систем речевых технологий возникли некоторые проблемы.

Невозможность полностью подавить внешний шум. Системы очень чувствительны к шуму окружающей среды, поэтому такое оборудование желательно устанавливать в отдельном кабинете.

Повышение точности распознавания слитной речи. В настоящее все системы все еще очень чувствительны к речевым оборотам диктора. От дикции зависит очень многое, любое искажение в произношении будет отмечено в программе. Но, так как система направлена на широкое использование, то функционал программы, отвечающий за распознавание речи, расширяется и делается более гибким.

Стоимость приложений. Технологии распознания голоса требуют больших инвестиционных вложений. Здесь необходимы крупные вложения, как в аппаратную часть, так и в средства разработки программного обеспечения.

Возможности использования речевых технологий

В России одной из ведущих компаний по разработке речевых технологий является «Центр речевых технологий» (ЦРТ). В настоящее время ЦРТ является ведущими разработчиками инновационных систем в сферах синтеза и распознавания речи. За последний год компания выпустила VOCO (новое решение для преобразования речи в текст), а также представила программный комплекс интеллектуального анализа спонтанной речи.

Речевые технологии охотно используются в медицине, например, для коррекционно-развивающей работы с людьми, у которых имеются нарушения звукопроизношения и/или слуха.

Такие технологии можно применять и в учебном процессе.

В настоящее время в русскоязычных школах обучаются дети из семей различных национальностей, которые владеют русским языком на низком уровне. Речевые технологии могут помочь таким ученикам в освоении учебного материала, а также в обучении русскому языку, который, впоследствии, упростит их адаптацию в современном обществе.

В последние годы наблюдается увеличение количества детей с речевыми нарушениями. Поскольку речевые системы очень чувствительны к произношению, и любая ошибка отмечается программой, то, безоговорочно, такие технологии необходимы логопедам для отработки и корректировки звуков школьников.

Новым шагом станет использование технологий распознавания естественной речи, что позволит значительно упростить учителям подготовку методических материалов к урокам: презентаций, видеозаписей, аудиозаписей. Дополнительные возможности откроются для учителей русских языков с возможность самостоятельно подготавливать тренировочные тесты для учеников, которые сдают основной государственный экзамен и пишут всероссийские проверочные работы по русскому языку.

Речевые системы так же можно внедрить в учебный процесс для помощи учителям иностранных языков, поскольку многие из них не являются носителями иноязычной культуры. Речевые технологии позволят производить корректировку речи и учителей, и учеников, совершенствуя фонетическую форму и процесс коммуникации.

Заключение

На данный момент применение речевых технологий связано с большими затратами на оборудование и сопутствующее программное обеспечение. Однако, несмотря на экономическую дороговизну этой новинки, она может себя окупить.

Технологии не стоят на месте и суммы инвестирования в область речевых технологий, только растут. Со временем обязательно появятся недорогие аналоги, которые все больше будут помогать в упрощении учебного процесса.

Конечно, сейчас это больше утопия, поскольку компьютер еще не способен разговаривать с интонацией, а полноценное распознавание слитной устной человеческой речи - невозможно. Но факты говорят о том, что эра голосовых помощников не за горами.

Список литературы

А.В. Фролов, Г.В. Фролов Синтез и распознание речи. Современные решения. 2012
Б.М. Лобанов, Л.И. Цирюльник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008.
Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н.Э. Баумана 2012.
ЦРТ [Электронный ресурс] режим доступа http://www.speechpro.ru/
Nuance Communication. [Электронный ресурс] режим доступа http://www.nuance.co.uk/