Платы распознавания голосовых команд Dialogic

Tnx.net
 Платы Dialogic В системах компьютерной телефонии, построенных с помощью плат Dialogic, распознавание речи может осуществляться в двух режимах — с настройкой на голос конкретного пользователя и без настройки. Кроме того, распознавание речи может применяться в защитных системах с целью "опознания" звонящего по голосу. При распознавании речи с настройкой на голос конкретного пользователя словарь распознаваемых слов может составлять несколько десятков и более речевых единиц. Данная технология удобна для организации персональных голосовых CTI систем, в которых команды на основные действия могут отдаваться голосом. Кроме того, оказывается возможным составить список часто вызываемых абонентов и отдавать системе устное приказание набрать номер того или иного абонента.

Работа с распознаванием речи без настройки на голос пользователя также строится на основе словарей распознавания. Словарь составляется на основе анализа речи нескольких сотен людей. На данный момент существуют три типа словарей для работы без настройки на голос пользователя: цифровой, алфавитно-цифровой и словарь для распознавания слитной речи. В цифровой словарь входят цифры от нуля до девяти, слова "да", "нет", "стоп", "помощь" и некоторые другие, в алфавитно-цифровой, помимо этих слов, включены наименования всех букв алфавита, а словарь для распознавания слитной речи (первые два словаря предполагают произнесение слов по одному) содержит цифры от нуля до девяти и слова "да" и "нет". Цифровые словари существуют для нескольких десятков языков, включая русский.

В настоящее время поставляются два русских словаря. Первый содержит слова "ноль", "один", "два", "три", "четыре", "пять", "шесть", "семь", "восемь", "девять" и слово "остановиться"; второй словарь содержит слова "да", "нет", "остановиться", "переносится", "аннулируется", "помогите". Такое разделение сделано для того, чтобы легче различать очень похожие слова "да" и "два". При этом, физически эти два словаря содержатся в одном файле и загружаются в плату вместе, но в каждый конкретный момент может работать какой-либо один из них (при необходимость словари можно переключать "на лету").

Алфавитно-цифровые словари и словари для распознавания слитной речи разработаны для существенно меньшего числа языков; для русского языка таких словарей пока нет.


Antares 2000/50 — SCbus-совместимая DSP-платформа (DSP — Digital Signal Processing), открытая для разработки собственных речевых технологий, таких как распознавание речи, преобразование текст-речь и т.п.

В настоящий момент на базе этой CTI платы реализовано распознавание команд, произнесенных на русском языке без настройки на голос говорящего. Это разработка фирмы Voice Control Systems (VCS).

С помощью шины SCbus плата Antares соединяется с голосовой платой и предоставляет возможность пользователю системы осуществлять выбор в голосовом меню не нажатием клавиш на тональном телефонном аппарате, а просто произнося соответствующие цифры и команды.

Само распознавание производится с помощью соответствующего ПО фирмы VCS процессорами, расположенными на плате Antares, а не центральным процессором компьютера. Это позволяет одновременно распознавать команды по 32 каналам.

Возможно наращивание ресурса распознавания по одному каналу. То есть сначала можно купить Antares и, например, 8-канальную лицензию VCS. И затем по мере необходимости докупается лицензия еще на один канал и т.д.

Сейчас VCS предлагает программу распознавания для Antares под UNIX SCO и Windows NT.

Недавно появилась возможность использовать программный способ распознавания речи. В этом случае распознавание ведется средствами центрального процессора, а не аппаратно. При этом возникает естественное ограничение на мощность компьютера и количество каналов распознавания. Качество распознавания и словари абсолютно такие же как в случае аппаратного распознавания.


VRSoft — это программа, работающая под управлением MS-DOS (только), с помощью которой центральный процессор компьютера распознает те же 16 команд. VRSoft работает с платой Dialogic D/41ESC, и максимальное число каналов, на которых ведется распознавание — 4.


Цены на оборудование и аксессуары Dialogic