Вітаємо Вас на сайті!

Метою цього сайту є надання інформації про стан діяльності у галузі розпізнавання та синтезу мовлення в Україні.

Детально ця інформація викладена у розділах Про нас та Україна.

Якщо є якісь побажання, зауваження, пропозиції пишіть на speech_ua at yahoo.com.


Нове демо.

Визначення мови YouTube відео - Language recognition online.


Навчальний курс по HTK


З метою поширення знань про технології розпізнавання ми викладуємо короткий "навчальний курс по HTK".


Обчислення i-векторів


З тією ж метою викладуємо утиліти для обчислення i-векторів із wav файлів. i-вектори застосовуються при розпізнаванні мови (language recognition), текстозалежному або текстонезалежному розпізнаванні дикторів (speaker recognition), верифікації диктора (speaker verification) та визначенні фрагментів дикторів у записі (speaker diarization).

Розпізнавання дикторів за допомогою i-векторів спрощено здійснюється наступним чином.

1. Скачуємо файли - ivector-create, ivector-compare, BigFile.bin

2. Запускаємо утиліту ivector-create

./vector-create 1.wav (wav файл із записом диктора, достатньо і кількох десятків секунд, але можна і менше). Отримуємо файл 1.iv, в якому міститься створений i-вектор.

3. Робимо це ж саме, але з іншим wav файлом (цього ж або іншого диктора).

4. Запускаємо утиліту ivector-compare.
./ivector-compare 1.iv 2.iv. Отримуємо значення схожості між i-векторами (cosine distance). Чим більше значення, тим краще :-)

Для прикладу можна зайти на сайт Microsoft Speaker Recognition API. У розділі Speaker Identification показано навчання та ідентифікація дикторів на основі інаугураційних промов останніх п'яти президентів США. Можна скачати mp3 файли промов (п'ять для enrollment і п'ять для testing), сконвертувати у wav формат, за допомогою ivector-create поробити i-вектори дикторів (файли на кшталт Barack_Obama-Inaugural_Address-enrollment) i порівнювати ці i-вектори із i-векторами тестових файлів (типу Barack_Obama-Inaugural_Address-test) за допомогою ivector-compare. Найбільші значення схожості будуть на i-векторах одного диктора.
PS. Бажано вирізати із wav файлів (хоча б для enrollment файлів) ділянки мовленнєвого сигналу із оплесками.

Утиліти тестувалися на Lubuntu 15.10, 16.04.

Якщо є якісь побажання, зауваження, пропозиції пишіть на speech_ua at yahoo.com.