Краткий учебный курс по HTK

Урок 2

{Создание системы пофонемного распознавания отдельно произносимых слов с записью на русском языке}

----------------------------------------------------------------------------------------------------

{Краткая инструкция пользователя(пошаговая) в HTK }

Поздравляем! Вы усвоили первый урок и, надеемся, успешно! Все, что было в первом уроке, второй урок не отменяет, а дополняет. В частности, обучающая выборка (ОВ) остается та же:

один - v0001.wav, t0001.wav;

два - v0002.wav, t0002.wav;

три - v0003.wav, t0003.wav;

четыре - v0004.wav, t0004.wav;

пять - v0005.wav, t0005.wav;

шесть - v0006.wav, t0006.wav;

семь - v0007.wav, t0007.wav;

восемь - v0008.wav, t0008.wav;

девять - v0009.wav, t0009.wav;

десять - v0010.wav, t0010.wav.

Желаем успеха!



Шаг 1.

----------

Создать файл dict.txt с русскими словами, которые будут в дальнейшем распознаваться:

оди+н

два+

три+

четы+ре

пя+ть

ше+сть

се+мь

во+семь

де+вять

де+сять

Знак + в написании слов означает ударение, пробелы не допускаются. Одно слово на строке.

Файл dict.txt необходимо создать в редакторе Notepad.

Шаг 2.

---------

Преобразовать тексты слов из файла dict.txt в словарь dict.trn, который будет состоять из слов и их транскрипций, командой DOS (содержится в файле step2.bat, который прилагается):

trans_rus_hgf.exe dict.txt dict.trn

где

dict.txt - входной файл с русскими словами;

dict.trn - выходной файл.

Файл dict.trn содержит запись слов для распознавания и их транскрипции:

оди+н а д' и+ н

два+ д в а+

три+ т р' и+

четы+ре ч' и т ы+ р' э

пя+ть п' а+ т'

ше+сть ш э+ с' т'

се+мь с' э+ м'

во+семь в о+ с' ь м'

де+вять д' э+ в' ь т'

де+сять д' э+ с' ь т'

sil [] sil

Значок [] в последней строке означает, что в дальнейшем встречающаяся запись sil будет заменяться пробелом. Этот значок может и отсутствовать, на Ваше усмотрение, но тогда его необходимо убрать вручную в редакторе.

Шаг 3.

----------

Сформировать файлы, нужные для HTK (выходные файлы), командами

dict_to.bat dict.trn

или

dict_to_htks.exe dict.trn monophones phonems.ml words.ml gram

где

dict.trn - входной файл со словами и их транскрипциями.

Выходные файлы:

monophones - список фонем, которые встречаются в транскрипциях слов из файла dict.trn;

phonems.ml - заготовка mlf файла для обучения;

words.ml - заготовка mlf файла для тестирования;

gram - грамматика для распознавания изолированных слов.

Файлы dict_to.bat и dict_to_htks.exe прилагаются.