Как работает синтез речи. Синтез речи, распознавание речи - обработка речевых сигналов

Синтез устной речи - это преобразование заранее не известной текстовой информации в речь. Речевой вывод информации - это реализация речевого интерфейс, для упрощения использования системы. Фактически, благодаря синтезу речи предоставляется еще один канал передачи данных от компьютера, мобильного телефона к человеку, аналогично монитору. Конечно, передать рисунок голосом невозможно, но вот прослушать электронную почту или расписание на день в ряде случаев довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу, готовясь к переговорам, Вы могли бы поправлять у зеркала галстук или прическу, в то время как компьютер читает вслух последние новости, почту или напоминает важную информацию для переговоров.

Рисунок 2.2 - Акустическая обработка сигнала

Технология синтеза устной речи нашла широкое применение для людей, имеющих проблемы со зрением. Для всех остальных она создает новое измерение удобства пользования техникой и значительно снижает нагрузку на зрение, на нервную систему, позволяет задействовать слуховую память.


Рисунок 2.3 - Синтез речи

Любой текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы - от знаков препинания. Наконец, произнесение зависит и от смысла слова! Соответственно, для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

Существует несколько подходов к решению поставленных задач:

1) системы аллофонного синтеза - обеспечивают стабильное, но недостаточно естественное, роботизированное звучание;

2) системы, основанные на подходе Unit Selection - обеспечивают гораздо более естественное звучание, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости;

3) гибридная технология, основанная на подходе Unit Selection и дополненная единицами аллофонного синтеза.

На основе этой технологии была создана система VitalVoice, которая обеспечивает стабильное и естественное звучание на акустическом уровне.

Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди - задачи распознавания речи.

Ученые и инженеры уже много лет решают проблему речевого общения человека и машины. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Коммерческие программы по распознаванию речи появились в начале девяностых годов.

Все системы распознавания речи можно разделить на два класса:

1) Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.


Рисунок 2.4 - Распознавание речи

2) Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.

Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.

В существующих системах распознавания речи используются два принципиально разных подхода:

Распознавание лексических

Отметим, что создание систем распознавания речи представляет собой чрезвычайно сложную задачу.

Программы-синтезаторы речи с каждым годом всё больше входят в нашу жизнь. Они позволяют нам более досконально учить иностранные языки, переводят тексты в удобный аудиоформат, используются в функционале различных служебных программ и многое другое. И когда у некоторых из нас возникает потребность воспроизвести онлайн какой-либо текст в аудиформате, тогда многие из нас обращаются к различным сервисам и программам по синтезу речи, способным помочь нам в трансформации нужного там текста. В этой статье я расскажу о сетевых версиях подобных продуктов, опишу, что такое синтезатор речи онлайн, какие сервисы синтеза речи online существуют, и как их использовать.

Лучшие онлайн синтезаторы речи

Изначально, синтезаторы речи разрабатывались для людей с дефектами зрения для воспроизведения текста с помощью компьютерного голоса. Но постепенно их преимущества оценила массовая аудитория, и ныне практически любой желающий может скачать себе синтезатор речи на ПК, или воспользоваться альтернативами, которые присутствуют в некоторых версиях операционных систем.

Так какой же синтезатор речи онлайн можно выбрать? Ниже я перечислю ряд сервисов, которые позволяют воспроизвести текст в речь онлайн.

Ivona - отличный синтезатор

Голосовые движки данного онлайн сервиса отличаются очень высоким качеством, хорошей фонетической основой, звучат достаточно естественно и «металлический» компьютерный голос здесь чувствуется гораздо реже, нежели у сервисов-конкурентов.

Сервис Ivona имеет поддержку множества языков, в русском варианте присутствуют мужской голос (Maxim) и женский (Tatyana).

  1. Чтобы использовать синтезатор речи выполните вход на данный ресурс , слева будет окно, в который необходимо будет вставить текст для прочтения.
  2. Вставьте текст, кликните на кнопочку с обозначением человека, выберите язык (Russian) и вариант произношения (женский или мужской) и нажмите на кнопку «Play».

К сожалению, бесплатный функционал сайта ограничен предложением с 250 символами, и предназначен скорее для демонстрации возможностей сервиса, нежели для серьёзной работы с текстом. Большие возможности можно получить лишь платно.

https://youtu.be/TIbx4pxX6Gk

Acapela - сервис распознавания речи

Компания, торгующая своими голосовыми движками для различных технических решений, предлагает вам использовать синтезатор речи Acapela в режиме онлайн. Хотя просодия этого сервиса не на такой высоте, как у Ivona, тем не менее, качество произношения здесь тоже весьма добротное. Ресурс Acapela поддерживает около 100 голосов на 34 языках.

  1. Чтобы воспользоваться функционалом ресурса откройте указанный сервис , слева в окне выберите русский язык (Select a language – Russian).
  2. Вставьте внизу нужный текст и нажмите на кнопку «Listen» (слушать).

Максимальный размер текста для аудиопрочтения - 300 символов.

Fromtexttospeech - онлайн сервис

Чтобы перевести текст в речь онлайн можно также воспользоваться сервисом fromtexttospeech . Он работает по принципу конвертации текста в аудиофайл формата mp3, который затем можно скачать себе на компьютер. Сервис поддерживает конвертацию текста величиной в 50 тыс. символов, что является достаточно значительным объёмом.

  1. Для работы с сервисом fromtexttospeech перейдите на него, в опции «Select Language» выберите «Russian» (голос тут только один – Валентина).
  2. В большом окне введите (вставьте) нужный для озвучки текст, затем нажмите на кнопку «Create Audio File».
  3. Текст будет обработан, затем вы сможете послушать полученный результат, а потом и скачать его себе на ПК.
  4. Для этого нажмите правой клавишей мыши на «Download audio file» и выберите в появившемся меню «Сохранить объект как».

Google Переводчик также можно использовать

Всем нам известный Гугл переводчик онлайн имеет встроенную функцию воспроизведение текста в речь, причём количество прочитанного текста тут может быть весьма объёмным.

  1. Для работы с ним выполните вход на данный сервис (вот ).
  2. Выберите в окне слева русский язык, и нажмите на кнопочку с динамиком снизу «Прослушать».

Качество воспроизведения на довольно сносном уровне, но не более.

Text-to-speech - синтезатор речи онлайн

Ещё один ресурс, осуществляющий синтез речи нормального качества. Бесплатный функционал ограничен набором текста длиной 1000 символов.

  1. Для работы с сервисом перейдите на данный сайт , в окне справа рядом с опцией «Language» (язык) выберите Russian.
  2. В окне наберите (или скопируйте с внешнего источника) требуемый текст, а затем нажмите на кнопку справа «Say It».
  3. Линк на произношение указанного текста можно также разместить в вашем е-мейле или веб-странице, кликнув на кнопку «Yes» чуть ниже.

Альтернативные программы для ПК для перевода текста в речь

Также существует программы для синтеза речи, такие как TextSpeechPro AudioBookMaker, ESpeak, Voice Reader 15, ГОЛОС и ряд других, способные конвертируют текст в речь. Их необходимо скачать и установить на свой компьютер, а функционал и возможности данных продуктов обычно чуть превышает возможности рассмотренных онлайн-сервисов. Детальная же их характеристика заслуживает отдельного обширного материала.

Заключение

Так какой же синтезатор речи онлайн выбрать? В большинстве из них бесплатные возможности существенно ограничены, а по качеству звучания сервис Ivona оставит позади своих конкурентов. Если же вас интересует возможность быстрого перевода вашего текста в аудиофайл, тогда воспользуйтесь ресурсом «fromtexttospeech» - он даёт результат хорошего качества и за достаточно короткое время.

Речевые синтезаторы, установленные на компьютеры или мобильные устройства, уже не кажутся такими необычными программами, как раньше. Благодаря современным технологиям обычный настольный ПК может воспроизводить человеческий голос.

Каким образом работают синтезаторы речи? Где они применяются? Какой самый лучший речевой синтезатор? Ответы на эти и другие вопросы изложены в данной статье.

Общее понятие

Синтезаторы речи являются специальными программами, состоящими из некоторого количества модулей, которые предоставляют возможность перевести набранные тексты в озвученные человеческим голосом предложения. Не стоит думать, что вся база слов и фраз записана реальными людьми в профессиональных студиях. Выполнить подобную задачу физически невозможно. Библиотеку с таким большим количеством фраз нельзя установить ни на один современный компьютер, не говоря уже о мобильных телефонах. Для этого разработчики создали технологию Text-to-Speech.

Сфера применения

Синтезаторы речи используются при изучении иностранных языков, прослушивании текстов на страницах книг, создании вокальных партий, выдаче поисковых запросов в форме озвученных фраз и т. п.

Какие разновидности программ существуют? В зависимости от сферы применения утилиты можно разделить на 2 вида: обычные, преобразующие набранный текст в речь, и специальные вокальные модули, используемые в музыкальных приложениях.

Преимущества и недостатки

На данный момент компьютер синтезирует человеческую речь только приблизительно. В простейших программах можно наблюдать проблемы со звуком и правильной постановкой ударений в различных словах. Синтезаторы речи, установленные на мобильные устройства, расходуют много энергии. Нередко можно отметить несанкционированную загрузку дополнительных модулей.

К преимуществам следует отнести удобство восприятия. Многим пользователям гораздо проще усваивать звуковую информацию, нежели какую-либо другую.

Лучшие речевые синтезаторы с русскими голосами

Программа RHVoice была создана Ольгой Яковлевой. Стандартный вариант приложения включает 3 голоса. Настройки очень просты. Программу можно использовать и как самостоятельное приложение, совместимое с SAPI5, и как дополнительный экранный модуль.

Речевой синтезатор Acapela отличается от аналогов идеальным озвучиванием текста. Приложение поддерживает более 30 языков мира. В бесплатной версии доступен лишь 1 женский голос.

Программа Vocalizer часто применяется в call-центрах. Пользователь может настроить постановку ударения, громкость и скорость чтения. При необходимости загружаются дополнительные словари. В приложении есть 1 женский голос. Речевой движок автоматически встраивается в программы для чтения книг в электронном формате.

Утилита eSpeak поддерживает свыше 50 языков. Недостатком программы можно считать сохранение звуковых файлов лишь в формате WAV, который требует много места на жестком диске.

Приложение Festival является мощнейшей утилитой синтеза речи, поддерживающей даже финский язык и хинди.

Установка программы

Как использовать приложения такого типа? Для начала нужно установить программу. В компьютерных ОС применяется стандартный инсталлятор, в котором пользователю остается выбрать лишь поддерживаемый утилитой языковой модуль. Установщик для мобильных устройств можно скачать с официального сайта, Google Play, а также App Store. Инсталляция приложения происходит в автоматическом режиме.

Первый запуск программы

На данном этапе пользователю достаточно установить язык по умолчанию. Иногда требуется отметить качество звучания. Стандартный вариант подразумевает частоту дискретизации 4410 Гц, глубину 16 бит и битрейт 128 кбит/с. В мобильных ОС показатели могут быть ниже. В качестве основы используется определенный голос.

Фильтры и эквалайзеры помогают достичь необходимого звучания. Пользователю доступны три варианта перевода текста. Он может набрать на клавиатуре предложения, включить озвучивание уже имеющегося файла или установить в браузере расширение, которое преобразует содержимое на веб-страницах в речь. Достаточно отметить необходимый вариант действий, тембр голоса и язык, на котором будет произноситься текст. Для включения процесса воспроизведения требуется кликнуть по кнопке «Старт».

Работа со сложными программами

В музыкальных приложениях настройки гораздо сложнее. В речевом модуле программы FL Studio пользователь может выбрать несколько видов голосов, а также указать тональность и скорость воспроизведения. Постановка ударений перед слогами осуществляется с помощью символа «_». С помощью подобного речевого синтезатора можно создать лишь роботизированный голос.

Программа Vocaloid относится к приложениям профессионального типа. Помимо обычных параметров, пользователь может выбирать артикуляцию и глиссандо. В утилите есть база с вокалом профессионалов. При желании можно подгонять под ноты целые предложения. Одна только библиотека с вокалом занимает более 4 Гб в сжатом виде.

"Синтезатор речи Google": что это за программа

В мае 2014 года компания предоставила пользователям возможность опробовать новый бесплатный продукт. Что такое "Синтезатор речи Google" на «Андроиде»? Это программа, озвучивающая текст на экране мобильного устройства или планшета. Теперь нет необходимости устанавливать сторонние утилиты, которые требуют наличия лицензии. "Синтезатор речи Google" используется при чтении электронных книг, прослушивании правильного произношения слов, запуске приложения TalkBack.

Новая версия программы "Синтезатор речи Google 3.1" получила функцию поддержки английского, итальянского, испанского, корейского, немецкого, нидерландского, польского, португальского, русского и французского языков. Где найти голосовые пакеты? Они загружаются из самого приложения.

Преимущества и недостатки продукта от Google

Особенностями русскоговорящего женского голоса является четкое, громкое звучание и плавная интонация. Скорость воспроизведения можно регулировать в настройках программы. Пользователи, использующие TalkBack и русскую языковую локализацию ОС Android, должны проявлять осторожность при переключении на речевой синтезатор, если ранее в приложении по умолчанию был установлен другой голос. Могут возникнуть проблемы, связанные с сохранением контроля над мобильным устройством на слух. Практически все голоса, кроме русского, неспособны обрабатывать предложения на кириллице.

Среди минусов можно отметить задержку реакции на чтение текстов, состоящих из фраз на разных языках. Русский голос отличается металлическими нотками тембра. Можно услышать дребезжащий звук на низких частотах. К преимуществам можно отнести стабильность работы приложения и приемлемое качество чтения англоязычных слов.

"Синтезатор речи Google": как пользоваться программой

Для того чтобы утилита заработала как надо, требуется обновить ее до последней версии. Чтобы активировать процесс озвучивания текста, нужно открыть настройки. В разделе «язык и ввод» необходимо поставить флажок на пункте «синтез речи». Тут же следует отметить строку «система по умолчанию». Не стоит забывать о том, что голосовые пакеты в самой программе также нуждаются в обновлении.

Проблемы при работе с утилитой

При необходимости пользователь может отключить приложение. В самых простых утилитах кнопка остановки находится в самой программе. Деактивация расширения, установленного в браузере, производится путем отключения дополнения или полного удаления плагина. При работе с программой на мобильном телефоне также могут возникнуть проблемы. Дело в том, что синтезатор речи автоматически включает загрузку ненужных пользователю языковых модулей.

Данный процесс занимает много времени и существенно расходует трафик. Как отключить "Синтезатор речи Google" на мобильном устройстве и избавиться от этой проблемы? Для начала нужно открыть настройки приложения. Потом необходимо выбрать раздел «язык и голосовой ввод». Далее нужно отметить последнюю строку.

Выбрав голосовой поиск, следует кликнуть по крестику у пункта «распознавание речи офлайн». Затем рекомендуется удалить кэш приложений. Далее требуется перезагрузить мобильный телефон. Чтобы полностью отключить утилиту, необходимо открыть в настройках раздел «приложения», выбрать в списке синтезатор речи и кликнуть по кнопке «остановить».

Удаление программы

Бывает так, что пользователь вообще не использует "Синтезатор речи Google". Можно ли удалить утилиту с мобильного устройства? Для этого нужно открыть Google Play. Затем следует выбрать в перечне установленных программ синтезатор речи и кликнуть по кнопке «удалить».

Итоги

Обычным пользователям и людям с ограниченными возможностями подойдут приложения с простым интерфейсом. Это может быть как RHVoice, так и "Синтезатор речи Google". Русский голос озвучит отображаемый на экране текст. Большего рядовому пользователю не требуется.

Музыкантам рекомендуется отдавать предпочтение профессиональной программе Vocaloid. В приложении есть дополнительные голосовые библиотеки и множество различных опций. Программа позволит получить естественное звучание голоса. Ведь музыкантам так важно, чтобы компьютерный синтез не ощущался на слух.

Синтезаторы речи онлайн – это полезная находка, о которой раньше можно было только мечтать. Они позволяют озвучивать любой заданный вами текст, регулируя голос, тембр, темп и др. Изначально утилита была рассчитана на людей с плохим зрением, которые не имеют возможность читать текст с монитора. Сейчас же она часто используется как вспомогательный инструмент в изучении иностранных языков, позволяя воспринимать речь на слух и привыкать к правильной расстановке ударений и интонаций. Также для удобства с помощью синтезатора можно слушать книги, параллельно занимаясь бытовыми делами.

В интернете легко найти массу таких приложений, доступных для скачивания на ПК. Однако, чтобы лишний раз не заполнять память компьютера и не ставить под угрозу безопасность его работы, лучше использовать онлайн-сервисы. Мы расскажем о трех самых удобных и многофункциональных.

Acapela – самый известный синтезатор речи онлайн

Сайт Acapela предоставляет огромный выбор языков и голосов для озвучивания текста. Особенно это актуально для английского – его можно услышать в двадцати разных вариантах: женским голосом, мужским, детским, старческим, радостным и т.д.

Удобно, что все параметры настраиваются сразу на главной странице

К сожалению, с русскими текстами дела обстоят похуже – их озвучивают только одним голосом – некой Алены. Но тем не менее, результат получается вполне достойным.

Настройки здесь очень простые – достаточно только выбрать язык и голос, ввести нужный текст, затем согласиться с условиями использования ресурса и нажать кнопку «Listen!».


Интерфейс оформлен на английском, но и без перевода вполне понятно, что и как нажимать

Лимит на аудиовоспроизведение – 300 символов. В этом главный минус большинства синтезаторов речи онлайн, поэтому если вам нужна озвучка объемного файла, такой вариант явно не подойдет. Чтобы пользоваться озвучиванием без ограничений, предлагают купить полную версию программы. Она доступна для всех операционных систем на ПК и телефоне.

Google Переводчик: быстро, легко, доступно

Говоря о воспроизведении текстовых файлов, нельзя не упомянуть знаменитый Google Translate . Как понятно из названия, этот сервис предназначен для перевода текстов. Помимо этого, здесь можно также прослушивать файлы – делается это буквально в один клик.


Все оформлено на русском языке, поэтому разобраться в интерфейсе очень легко

Чтобы прослушать файл, необходимо вставить свой текст в соответствующее окно и нажать на значок мегафона в левом нижнем углу. Удобно, что сделать это можно как с оригиналом, так и с переводом. Отметим, что лимит здесь гораздо больше, чем в Акапеле – 5000 знаков. Никаких расширений и платных версий не предусмотрено.

Поскольку эта программа создана для других целей, функционал здесь оставляет желать лучшего. Тембр, скорость прочтения и другие важные параметры никак не регулируются. Озвучка получается неестественной, с отчетливыми «металлическими» нотками. Интонации, паузы, смысловые ударения – все это выполнено непрофессионально, поэтому в каждом предложении чувствуется, как слова неровно «склеены» между собой.

Это приложение удобно использовать, например, если вы хотите понять, как воспринимается на слух написанный вами текст. Для этого не особо важны интонации и тембр, ведь интересны сами формулировки, наличие тавтологий и неблагозвучных высказываний.


Из преимуществ можно отметить разве что огромный выбор языков, что, собственно, вполне логично для онлайн переводчика

Сервис Fromt exttospeech для воспроизведения голосом вашего текста

Последнее приложение, о котором мы хотим рассказать – это Fromtexttospeech . Начнем с того, что ограничения по количеству символов здесь самые лояльные – до 50 000. Это серьезное конкурентное преимущество, но давайте разберемся, обладает ли Fromtexttospeech еще какими-либо явными достоинствами.

Алгоритм работы программы примерно такой же, как и у Acapela:

  • настраиваем параметры синтезатора речи онлайн: язык, тембр и скорость;
  • нажимаем «Create Audio File»;
  • скачиваем или просто прослушиваем готовый файл.

Итак, пробуем. Копируем несколько предложений своей статьи и вставляем на fromtexttospeech.com. Чуть ниже рабочей панели высвечивается количество знаков, которые мы еще можем дописать.


Очень удобно, что есть возможность выбирать скорость начитки: медленная, средняя, быстрая и очень быстрая

Больше здесь настраивать нечего, так что переходим к самой процедуре конвертации в аудио. Этот процесс занимает несколько минут (в зависимости от размера файла), после чего в отдельном окне можно будет оценить результат работы.


Возможность сохранить получившийся аудиофайл на компьютер – очень удобная функция, которая отличает этот сервис от многих других

Подводя итоги, стоит сказать, что все рассмотренные нами сервисы очень индивидуальны и имеют свои особенности. Если вас интересует профессиональное озвучивание, то Акапела отлично подойдет для этих целей. На официальном сайте программы вы сможете протестировать ее работу, оценить звучание и функционал, чтобы принять решение о покупке полноценной версии. Если же вопрос качества для вас не слишком важен, выбирайте старый добрый Гугл Переводчик или Fromtexttospeech, которые позволяют бесплатно преобразовывать большие текстовые файлы в аудио.

Послушать, как звучат фрагменты одного текста в исполнении различных голосовых движков, можно в нашем видео.

На сегодняшний день называется технология, способная преобразовывать текстовую информацию в обычную речь. С развитием "умных машин" эта технология становится всё более актуальной, и с каждым днём требует всё большего совершенства. Собственно, на данный момент разработан целый ряд методов синтеза речи, о которых мы и будем говорить.

Синтезаторы речи могут применяться в абсолютно различных сферах, и используются для решения множества задач, начиная от "начитывания" книг, производства "говорящих" детских игрушек, объявления остановок в общественном транспорте или в системах сервисных служб, и заканчивая медициной (тут стоит вспомнить о Стивене Хокинге , пользующемся синтезатором речи для связи с миром).

Итак, рассмотрим подробнее технологию и методы синтеза речи. Как уже упоминалось, существует несколько методов синтеза речи. Таким образом, можно выделить несколько основных подходов:

  • параметрический синтез;
  • конкатенативный (компиляционный) синтез;
  • синтез по правилам (по печатному тексту);

Параметрический синтез позволяет записывать речь для любого языка, однако его нельзя применять для не заданных заранее текстов. Параметрический синтез речи применяют тогда, когда набор сообщений ограничен. Качество же такого метода синтеза может быть очень высоким.

По сути дела, параметрический синтез речи - это реализация принципа работы вокодера . В случае параметрического синтеза звуковой сигнал представлен определённым числом непрерывно изменяющихся параметров. Для формирования гласных звуков используется генератор тонального сигнала, для согласных - генератор шума. Но такой метод обычно применяют для записи голоса в музыкальных композициях, и чаще речь идет даже не о чистом синтезе голоса, а, скорее, о модуляции.

Метод компиляционного синтеза основывается на составлении текстов из заранее записанного "словаря" элементов. Размер элемента системы должен быть не менее слова. Обычно запас элементов ограничивается несколькими сотнями слов, а содержание синтезируемых текстов - объёмом словаря. Этот метод синтеза речи широко используется в повседневной жизни - как правило, в различных справочных службах и технике, требующей оснащения системами речевого ответа.

Полный синтез речи по правилам может воспроизводить речь по заранее неизвестному тексту. Этот метод не использует элементов человеческой речи, а базируется на запрограммированных лингвистических и акустических алгоритмах .

Тут также существует своё разделение - можно выделить два подхода к этому методу синтеза. Первый - это формантный синтез речи по правилам, а второй - артикуляторный синтез. Формантный синтез базируется на формантах - частотных резонансах речевой акустической системы. Алгоритм формантного синтеза моделирует работу речевого тракта человека, работающего как набор резонаторов. Сегодня, к сожалению, большинство синтезаторов , работающих исключительно на формантном синтезе, понять без подготовки сложно, но, несомненно, это универсальная и перспективная технология. Артикуляторный метод пытается доработать недостатки формантного путем добавления в модель фонетических особенностей произнесения отдельных звуков.

Также существует технология синтеза речи по правилам, которая использует записанные отрезки естественной речи. Поскольку всё-таки чаще всего применяются компиляционные методы, скажем о них пару слов подробнее.

В зависимости от того, насколько велики "отрывки" речи, используемые для синтеза, выделяют такие типы синтеза:

  • микросегментный (микроволновый);
  • аллофонический;
  • дифонный;
  • полуслоговой;
  • слоговой;
  • синтез из единиц произвольного размера.

Чаще всего используются аллофонический и дифонный методы. Для дифонного метода синтеза речи базовыми элементами являются всевозможные двучленные комбинации фонем, а для аллофонного - сочетания левого и правого контекста (аллофон - вариант фонемы, который обусловлен её конкретным фонетическим окружением). При этом различные типы контекстов объединяются в классы по степени акустической близости.

Преимущество таких систем состоит в том, что они дают возможность синтезировать текст по не заданному заранее тексту, а недостаток - в том, что качество синтезированной речи несопоставимо с качеством речи естественной (на границах сшивки элементов могут возникать искажения). Также весьма трудно управлять интонационными характеристиками речи, так как характеристики отдельных слов могут изменяться в зависимости от контекста или типа фразы.

Впрочем, это всё в теории. На практике, на современном этапе развития, несмотря на активное продвижение в этой области, разработчики технологии синтеза речи всё-таки испытывают некоторые трудности, в основном связанные с искусственностью синтезируемой речи, отсутствием в ней эмоциональной окраски и с низкой помехоустойчивостью.

Дело в том, что любая синтезированная речь, как правило, воспринимается человеком с трудом. Это связано с тем, что пробелы в синтезированном тексте заполняет человеческий мозг , который задействует для этого дополнительные ресурсы, и человек может нормально воспринимать синтезированную речь только около 20 минут.

На восприятие речи также влияет её эмоциональная окраска. В случае с синтезированной речью она отсутствует. Хотя стоит отметить, что некоторые алгоритмы всё же позволяют в некоторой степени имитировать эмоциональную окраску речи путём изменения длительности фонем, пауз и модуляции тембра, но пока их работа далека от идеала.

Что касается третьей названной проблемы - низкой помехоустойчивости, то эксперименты показывают, что восприятию синтезированного текста мешают любые, даже самые небольшие посторонние шумы. Это опять-таки связано с тем, что для обработки синтезированной речи человеческий мозг задействует дополнительные центры, которые не используются при восприятии речи естественной.

В конце этой статьи мне хотелось бы привести некоторые примеры существующих синтезаторов речи.

Всем известны так называемые "читалки " - программы для более удобного чтения текста с монитора. Многие из нах используют программы речевого синтеза для озвучивания текста, например, Balabolka и Govorilka .

Для того чтобы подобные программы озвучивали тексты, необходимо также установить библиотеку SAPI (Speech API) и голосовые движки. Наиболее распространение две версии Speech API: SAPI4 и SAPI5.Обе библиотеки могут работать на одном компьютере. В операционных системах Windows XP, Windows Vista и Windows 7 уже установлены библиотеки SAPI5.

Помимо читалок, распространены программы экранного доступа. Примерами таких программ являются:

VIRGO 4 . Программа была создана для комфортной работы слепых и слабовидящих пользователей с Windows. Она позволяет выбрать ту информацию, которая будет произноситься голосом и ту, которая будет показываться на брайлевском дисплее. Для слабовидящих пользователей предусмотрена системой увеличения экрана "Галилео".

Программа Кобра 9.1 также упрощает работу с Windows для слепых и слабовидящих пользователей. Эта программа может выводить выводит информацию с компьютерного монитора с помощью речи, брайлевского дисплея и имеет функцию увеличения экрана.