Про нас

Трохи історії

Колись ми, як-то кажуть, були попереду планету усієї. В кінці 60-х років минулого сторіччя роботи українського вченого Тараса Вінцюка з київського Інституту Кібернетики були переднім краєм науки. У колишньому Союзі рівних Інституту Кібернетики у розпізнаванні не було.

Сучасність

Беззаперечним лідером в Україні в розпізнаванні та синтезі мовлення є відділ розпізнавання та синтезу звукових образів Міжнародного науково-навчального центру інформаційних технологій та систем (МННЦІТС), м. Київ, та Українська асоціація з оброблення інформації та розпізнавання образів (УАСОІРО) при ньому.

У відділі написано розпізнавач на повністю власному коді, працюємо з усіма передовими опен сурсними пакетами програм та ведуться роботи в кількох напрямках:

- розпізнавання в портативних пристроях;
- дикторонезалежне розпізнавання;
- розпізнавання надвеликих словників;
- розпізнавання ключових слів;
- розпізнавання телефонного мовлення.

У галузі синтезу у відділі зусиллями Тетяни Людовик та Миколи Сажка створено синтезатор української мови, який вперше було використано в програмі "Вимова плюс" кілька років тому. Цей синтезатор застосовується для синтезу українського мовлення для проекту SMS2Voice компанії Global Message Services. Проект SMS2Voice дає можливість відправляти SMS повідомлення абонентам не лише мобільних, а і фіксованих мереж, що значною мірою розширює можливості спілкування та робить його простим та зручним. Простіше кажучи, ви можете послати смс-ку на стаціонарний телефон і її текст буде вимовлено.
Зазначу, що цей синтезатор є єдиним створеним спеціально для української мови. Інші розробники намагаються реалізувати синтез української мови на базі синтезаторів для інших мов.

Зразки синтезу можна прослухати, скачавши такі файли: Діалог - mp3, Діалог - текст, Кримінал - mp3, Кримінал - текст, Привіт - mp3, Привіт - текст, Рукавичка - mp3, Рукавичка - текст. Наталка, Панас - mp3.

Детальніше про синтез мовлення можна довідатися з статті Украинские ученые на пороге клонирования человеческого голоса.

Лідерами в Україні нас роблять не тільки відмінне знання сучасних алгоритмів розпізнаванні та синтезу мовлення, а й наявність власних мовленнєвих баз даних, без яких вести серйозного рівня розробки та дослідження неможливо.

Ми використовуємо у своїх дослідженнях такі мовленнєві корпуси:

- UkReco - україномовний багатодикторний мовленнєвий корпус, який містить понад 30 000 реалізацій слів і тисячі речень близько 100 дикторів, що мешкають в різних областях України. Реалізації слів зберігають частотні пропорції фонем і є фонетично збалансованими, при підборі слів також враховувалися їх частотні характеристики. Цей мовленнєвий корпус було створено к.т.н. М.М. Сажком завдяки гранту Президента України для обдарованої молоді, контракт №32 від 30.05.2006 р.

- Записи Верховної Ради України - записи виступів депутатів Верховної Ради України, записані через телевізор. Для корпусу характерні такі особливості: спонтанне мовлення, швидкий темп, емоційна забарвленість, висока якість запису. Обсяг - біля 240 тис. секунд. Біля 400 дикторів.

Ще є телефонна мовленнєва база даних, але поки що не анотована. Її особливості: російська та українська мови, реальні записи з різних мобільних телефонів, сигнал - 8 000 Гц, спонтанне мовлення. Обсяг - біля 5 Гб (gsm формат).



З метою допомоги поодиноким дослідникам та невеликим колективам ми викладуємо на сайті частину україномовного багатодикторного мовленнєвого корпусу UkReco. Ця частина корпусу містить записи ізольованих слів. Викладуються записи з таких міст: Київ (16 дикторів - 228 Мб), Львів (14 дикторів - 155 Мб), Ніжин (13 дикторів - 147 Мб). Скачати зархівовані wav-файли можна клікнувши на назві міста. Фонемні транскрипції будуть викладені пізніше.

Якщо у вас є власні ідеї, для реалізації яких потрібне розпізнавання або синтез мови, звертайтеся на speech_ua at yahoo.com.