Распознавание и синтез речи в Украине

Лидер в области речевых технологий в Украине - отдел распознавания звуковых образов Международного научно-учебного центра информационных технологий и систем. С конца 1960х годов в отделе (тогда при Институте Кибернетики) под руководством Винцюка Т.К. ведутся работы по распознаванию речи. В Советском Союзе мы были несомненно лучшими в распознавании речи и достойно конкурировали с зарубежными исследователями.

Сейчас отдел занимается следующими направлениями в распознавании речи:

  • - распознавание в портативных устройствах;
  • - дикторонезависимое распознавание;
  • - распознавание сверхбольших словарей;
  • - распознавание ключевых слов;
  • - распознавание через телефонные каналы связи.

    Также мы являемся лидерами в области синтеза речи в Украине.
    Созданный нашими разработчиками синтезатор украинской речи используется при озвучивании СМС-ок в проекте SMS2Voice компании Global Message Services.

    Лучшими нас делают отличные знания современных алгоритмов распознавания и синтеза речи плюс наличие самых больших речевых баз данных в Украине.

    Мы использываем в своих исследованиях такие речевые базы данных:

    - UkReco - украинский многодикторный речевой корпус, состоящий из 30 000 реализаций слов и тысячи предложений около 100 дикторов из разных областей Украины.

    - Записи Верховной Рады Украины - записи выступлений депутатов Верховной Рады Украины, записанные через телевизор. Для корпуса характерны такие особенности: спонтанная речь, быстрый темп, высокое качество записи. Обьем - 240 тис. секунд. Больше 400 дикторов.

    Еще есть телефонная речевая база данных, на пока не аннотированная. Ее особенности: русский и украинский языки, реальные записи из разных мобильных телефонов, сигнал - 8 000 Гц, спонтанная речь. Обьем - 5 Гб (gsm формат).



    В помощь небольшим коллективам исследователей мы выкладываем на сайте часть украинского многодикторного речевого корпуса UkReco. Эта часть корпуса содержит записи изолированных слов. Выкладываются записи из таких городов: Киев (16 дикторов - 228 Мб), Львов (14 дикторов - 155 Мб), Нежин (13 дикторов - 147 Мб).

  • Распознавание языка видео.

    Распознавание языка YouTube видео - Language recognition online.

    Утилиты для вычисления i-векторов.

    i-векторы используются при распознавании языка(language recognition), текстозависимом или текстонезависимом распознавании дикторов (speaker recognition), верификации диктора (speaker verification) и определении фрагментов дикторов в записи (speaker diarization).
    Распознавание дикторов с помощью i-векторов упрощенно производится так.

    1. Скачиваем файлы - ivector-create, ivector-compare, BigFile.bin

    2. Запускаем утилиту ivector-create

    ./vector-create 1.wav (wav файл с записью диктора, достаточно и нескольких десятков секунд, но можно и меньше). Получаем файл 1.iv, в котором находится созданный i-вектор.

    3. Делаем то же, но с другим wav файлом (этого же или другого диктора).

    4. Запускаем утилиту ivector-compare.
    ./ivector-compare 1.iv 2.iv. Получаем значения похожести между i-векторами (cosine distance). Чем больше значения, тем лучше :-)

    Для примера можно зайти на сайт Microsoft Speaker Recognition API. В разделе Speaker Identification показано обучение и идентификация диктора на основе инагурационных речей последних пяти президентов США. Можно скачать mp3 файлы выступлений (пять для enrollment и пять для testing), сконвертировать в wav формат, с помощью ivector-create сделать i-векторы дикторов (с использованием файлов типа Barack_Obama-Inaugural_Address_enrollment) и сравнить эти i-векторы с i-векторами тестовых файлов (типа Barack_Obama-Inaugural_Address_test) с помощью ivector-compare. Самые большие значения будут на i-векторах одного диктора.
    PS. Желательно вырезать из wav файлов (хотя бы для enrollment файлов) области речевого сигнала, состоящие из аплодисментов.

    Утилиты тестировались на Lubuntu 15.10, 16.04.

    Если есть пожелания-предложения пишите на speech_ua at yahoo.com.