Speech Application Programming Interface (SAPI) – интерфейс программирования приложений, основанный на технологии COM и предназначенный для распознавания и синтеза речи.
Microsoft Speech API активно используется в программах по преобразованию текста в голос (читалках), а также для голосового управления операционной системой и отдельными программами.
SAPI 4.0 вышел в 1998 году. Он входил в состав пакета SDK, содержащего инструменты для распознавания и синтеза речи. Также он входил в операционную систему Microsoft Windows 2000 (только с возможностью синтеза речи).
Версия SAPI 5.1 вышла в 2001 году как составная часть Speech SDK 5.1. Эта версия входила в состав операционной системы Microsoft Windows XP.
В операционной системе Microsoft Windows Vista установлена версия SAPI 5.3, а в Microsoft Windows 7 – SAPI 5.4.
Распознавание речи
- захват и оцифровку звука, произнесённого в микрофон;
- преобразование оцифрованного звука в фонемы;
- конструирование из фонем слов;
- анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.
Синтез речи
Синтез речи – процесс преобразования текста в произносимые слова. Синтез речи включает в себя:
Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:
Примечание
Поскольку большинство современных операционных систем Microsoft Windows уже содержат SAPI4 или SAPI5, то устанавливать их не нужно. Однако возможны случаи, когда такая необходимость возникает.
Будьте особенно внимательны при установке библиотеки SAPI 5.1 – установка этой версии на компьютеры, где уже установлена высшая версия SAPI (5.3 или 5.4), может привести к ухудшению работы программ, его использующих.
Ссылки