Наукові статті

2016

Сажок М.М., Маріковський О.В., Мартиненко М.Р., Робейко В.В., Селюх Р.А., Федорин Д.Я. Система автоматичного моніторингу медійного простору на основі технологій розпізнавання слухових і зорових образів. - Intellectual systems for decision making and problems of computational intelligence. 2016. pdf

Сажок М.М., Селюх Р.А., Федорин Д.Я., Юхименко О.А. Текстонезалежне розпізнавання дикторів із застосуванням іншомовного корпусу. - Штучний інтелект. 2016.
У статті описано експериментальне дослідження з використання іншомовного корпусу для текстонезалежного розпізнавання дикторів. Цей підхід дав би змогу за відсутності мовленнєвих ресурсів для оцінки параметрів застосувати великий мовленнєвий корпус з іншої мови. В якості іншомовного корпусу використано відкритий для вільного доступу мовленнєвий корпус THUYG-20 SRE. pdf

2009

Пилипенко В.В. Распознавание ключевых слов в потоке речи при помощи фонетического стенографа. - Искусственный интеллект. - Донецк, 2009. - № 4.
В статье рассматривается использование фонетического стенографа для распознавания ключевых слов в потоке речи. Для моделирования фонем используются скрытые Марковские модели. Ключевое слово задается последовательностью фонем в виде транскрипции слова. Приведены результаты поиска ключевых слов в потоке речи большого количества дикторов. Предложенный подход может использоваться для поиска речевой информации в огромных массивах данных. pdf

Сажок М.М., Селюх Р. А., Юхименко О.А. Адаптація акустичних моделей фонем до голосу диктора для пофонемного розпізнавання ізольованих слів української мови. - Искусственный интеллект. - Донецк, 2009. - № 4.
У статті розглядаються проблеми адаптації моделей фонем до голосу диктора для пофонемного розпізнавання ізольованих слів української мови. Описується метод адаптації під назвою „лінійна регресія максимальної правдоподібності” (MLLR). У рамках цього методу шляхом оптимізації значення критерію розпізнавання отримуються матриці лінійних перетворень, за якими адаптуються акустичні моделі фонем. Наводяться результати експериментальних досліджень розпізнавання мовлення адаптованої системи. Аналізуються дані розпізнавання адаптованих моделей в залежності від кількості слів в адаптаційній вибірці.pdf

2008

Пилипенко В.В., Робейко В.В. Автоматизированный стенограф украинской речи. - Искусственный интеллект. - Донецк, 2008. - № 4.
В статье рассматривается автоматизированный стенограф для получения текста стенограммы из звукового файла на основе системы распознавания речи с участием оператора. Записанная фонограмма обрабатывается системой распознавания слитной речи многих дикторов из больших словарей (больше 10 тыс. слов). Оператор исправляет допущенные ошибки для получения текста, пригодного для дальнейшей работы. Он также вводит новые слова, не знакомые системе распознавания. На основе анализа ошибок и новых слов производится дообучение системы распознавания, что позволяет улучшать показатели надежности распознавания речи в процессе эксплуатации системы стенографирования.pdf

Микола Сажок, Ніна Васильєва, Руслан Селюх, Дмитро Федорин. Моделювання пофонемного розпізнавання мовленнєвого сигналу для ПК та мікропроцесорів ЦОС. - Праці 9-ї міжнародної конференції "УкрОбраз-2008", Київ, 2008.
Phoneme-based speech recognition modeling for PC and DSP. The aspects of phoneme-based recognition are analysed for both PC and DSP. The benefits of contextdependent models are spotted. The description of knowledge and data base speech for speech recognition system evaluation is given. Experimental results are discussed.pdf

2007

Valeriy Pylypenko. Extra Large Vocabulary Continuous Speech Recognition Algorithm based on Information Retrieval. - InterSpeech 2007. pdf

Valeriy Pylypenko. Two-pass Algorithm for Large Vocabulary Continuous Speech Recognition. - Specom 2007. pdf

2006

Пилипенко В.В. Алгоритм розпізнавання злитого мовлення з надвеликих словників із застосуванням вибірки інформації з баз даних. - Праці 8-ї міжнародної конференції "УкрОбраз-2006", Київ, 2006.
This paper presents a new two-pass algorithm for Extra Large (more than 1M words) Vocabulary Continuous Speech recognition based on the Information Retrieval (ELVIRCOS). The principle of this approach is to decompose a recognition process into two passes where the first pass builds the word subset for the second pass recognition. Word graph composition for continuous speech is presented. Experimental results for speech recognition system with vocabulary of about all words (approximately 2 M) are presented. pdf

Пилипенко В.В. Технология распознавания большого количества образов на примере распознавания речи из сверхбольших словарей. - Искусственный интеллект. - Донецк, 2006. - № 2.
В статье рассматривается технология отбора кандидатов для распознавания изолированных слов на основе анализа результатов пофонемного распознавания речи (фонетического стенографа). Приведены результаты экспериментов с системой, содержащей практически все слова языка (около 2 млн. слов). pdf.

Valeriy Pylypenko. Information Retrieval Based Algorithm for Extra Large Vocabulary Speech Recognition. Specom 2006.
This paper presents a new two-pass algorithm for Extra Large (more than 1M words) Vocabulary Speech recognition based on the Information Retrieval (ELVIRS). The principle of this approach is to decompose a recognition process into two passes where the first pass builds the word subset for second pass recognition. With this approach a high performances for large vocabulary speech recognition can be obtained. pdf.

2005

Людовик Т.В., Сажок М.М., Селюх Р.А. Розроблення мовленнєвих баз даних для синтезу мовлення за текстом. Автоматизовані системи управління і нові інформаційні технології. Випуск 3. 2005.
Розглядаються питання, пов'язані із розробленням мовленнєвих баз даних (МБД), які є важливим компонентом систем синтезу мовлення за текстом. Наведено принципи та етапи розроблення МБД, у відповідності до яких було створено 6 індивідуальних мовленнєвих баз даних. Наведено результати тестування синтезованого мовлення. pdf.

Taras Vintsiuk, Mykola Sazhok. Multi-Level Multi-Decision Models in ASR. Specom 2005.
Multi-Level Multi-Decision Models for Automatic Speech Recognition is discussed. It is hierarchically organized. Here there are not used the generative grammars for model speech signal synthesis as a feedback in speech recognition process. Instead of the latter significant decisions, but under simplified conditions, at all levels of a speech signal processing hierarchy are introduced. The 3-level model with phoneme recognizer, word recognizer and continuous speech interpreter is proposed. Experimental results for the 3-level model are given and problems to be solved are discussed. pdf.


Nina Vasylyeva, Mykola Sazhok. Text Selection for Training Procedures under Phoneme Units Variety. Specom 2005.
In this paper we investigate approaches to select a set of sentences for speech samples to train acoustic models for Ukrainian both TTS and ASR systems. An algorithm that is not widely known is introduced and another one is applied. Several phonemic units are analysed: phoneme, phonemetriphone and open syllable. Some experimental results are given and discussed. pdf.


Mykola Sazhok. Generative Model for Decoding a Phoneme Recognizer Output. TSD 2005.
The paper presents a way to advance to a multi-level automatic speech understanding system implementation. Two levels are considered. On the first level a free (or relatively free) grammar phoneme recognition is applied and at the second level an output of the phonemic recognizer is automatically interpreted in a reasonable way. A Generative Model approach based model for phoneme recognizer output decoding is proposed. An experimental system is described. pdf.

2004

Tetyana Lyudovyk, Mykola Sazhok. Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases. Proceedings of the 9th International Conference "Speech and Computer", 2004, St.-Petersburg, Russia, pp. 594-599.
This paper describes an approach to speech synthesis based on using speech databases at different stages of TTS process. Speech database units are phones in different segmental and prosodic contexts. Pitch synchronous segmentation and labeling of databases allows storing both segmental and prosodic information. pdf.

2003

Людовик Т.В. Моделювання просодичних характеристик для синтезатора українського мовлення.
Синтезатор українського мовлення, розроблений у відділі розпізнавання та синтезу звукових образів МННЦ ІТіС, призначений для озвучення довільних орфографічних текстів українською мовою. Він має засоби генерування просодичних, тобто тональних (інтонаційних) та темпоральних (ритмічних) характеристик слів, речень та текстів, що синтезуються. В цій статті розглядаються питання вибору просодичних моделей та алгоритми обчислення просодичних характеристик в рамках цих моделей. pdf.

Людовик Т.В., Сажок Н.Н. Использование речевых баз данных большого обьема при синтезе речи в системах искусственного интеллекта. Проблемы управления и информатики. Київ, 6'2003.
Синтезатор украинской речи предназначен для озвучивания произвольных орфографических текстов на украинском языке. В статье описывается структура синтезатора и используемый вариант конкатенативного метода синтеза речи, основанный на хранении, выборе и сглаженном склеивании предварительно записанных сегментов речи. Используются речевые БД большого объема, записанные разными дикторами. Фонетическая и просодическая информация, содержащаяся в БД, используется для поиска необходимых элементов БД. pdf.

2002

Тарас Вінцюк, Микола Сажок,Тетяна Людовик, Руслан Селюх. Автоматичний озвучувач українських текстів на основі фонемно-трифонної моделі з використанням природного мовного сигналу. Праці 6-ї міжнародної конференції "УкрОбраз-2002", Київ, 2002.
Automatic Ukrainian Text-to-Speech System Based on Phoneme-Threephone Model Using Natural Spoken Signal. The text-to-speech system in time domain for Ukrainian is described. The concatenated acoustic elements are chosen in accordance to phoneme-threephone model for speech synthesis. Acoustical data is taken from the speaker voice passport. The computerized tools for speech synthesis research and development are described. pdf.

Taras Vintsiuk, Mykola Sazhok. Speech Analysis and Recognition Synchronised by One-Quasiperiodical Segmentation. Proceedings of the Second International Workshop on Text, Speech, Dialogue - TSD'99, Brno, 1999.

1999

Taras Vintsiuk, Mykola Sazhok. Speech Analysis and Recognition Synchronised by One-Quasiperiodical Segmentation. Proceedings of the Second International Workshop on Text, Speech, Dialogue - TSD'99, Brno, 1999.
It is shown that the best ASR results are attained when a pre-processing is carried out synchronically with pitch. Specifically, an analysis step has to be equal to the current one-quasiperiod duration and current analysis intervals have to consist of an entire number of quasiperiods with total 45-60 ms duration. Quasiperiodicity and non-qusiperiodicity models and measures as well as their applications for the optimal segmentation of speech signals into one-quasiperiods are given and discussed. Then the ways to embed these pre-processing results into the recognition procedure are described. pdf.

1982

T. K. Vintsyuk. Speech recognition and understanding. Kibernetika, No. 5, pp. 101–111, September–October, 1982.
Speech recognition and understanding entails automatic processing of speech signals with the aim of finding a sequence of words (speech recognition) or a concept (speech understanding) being transmitted by the speech signal. Speech understanding represents a higher degree of information generalization, since the same thought can be transmitted by different word sequences. springer - pdf.

1971

T. K. Vintsyuk. Element-wise recognition of continuous speech composed of words from a specified dictionary. Kibernetika, No. 2, pp. 133–143, March–April, 1971.
In the article, which continues the author's work in [1 and 2], the problem of recognizing continuous (connected) speech composed of words from an arbitrary, but preassigned, dictionary is formulated and a method of solution is proposed. The result of the recognition is the word sequence contained in the speech signal presented. springer - pdf.

1970

T. K. Vintsyuk. Optimum partitioning of a sequence of elements into subsequences. Kibernetika, No. 4, pp. 128–133, July–August, 1970.
Pattern recognition involves formulation and solution of the problem of partitioning a set of signals into a given number of subsets (classes) so that some optimality criterion is observed. Such problems are most frequently referred to as problem in self-learning. Well-known works on self-learning pattern recognition [1-3] give algorithms for local solutions of the problem of partitioning a set of signals into nonintersecting subsets. Practical self-learning problems are as a rule multiextremal. Partitioning algorithms providing global solutions are thus of particular importance. springer - pdf.

1968

T. K. Vintsyuk. Speech discrimination by dynamic programming. Kibernetika, Vol. 4, No. 1, pp. 81–88, 1968.
In some papers [1, 2] on automatic speech discrimination the proposed methods include a time normalisation of the words. The reliability of classification in these methods depends to a considerable extent on the time normalization rule. The essense of these rules is that immediately before attempting recognition the duration of the unknown word is equated to the duration of the standard words. springer - pdf.