Статті

Украинские ученые на пороге клонирования человеческого голоса


Михаил Шишминцев для «Главреда» 21.08.06 // 11:58

Среди различных версий происхождения пленок Мельниченко нет предположений о том, что они могут быть созданы с помощью технологий компьютерного синтеза речи. По видимому, это объясняется не только недостатком фантазии у авторов гипотез о кассетном скандале, а их естественным стремлением к правдоподобности.

Тогда, в самом начале столетия, никто и не мог предположить, что украинские ученые могут научить компьютер озвучивать произвольные тексты голосами, которые практически невозможно отличить от человеческих, хотя многим из тех, кто интересуется исследованиями в области компьютерного синтеза речи, еще в 2000 году была известна разработка RealSpeak фирмы Lernout & Hauspie (L&H) – технологии, способствующей созданию компьютерной речи, по звучанию приближенной к естественной человеческой речи. Сейчас, по отзывам пользователей, наиболее близко приблизились к реальному звучанию человеческого голоса синтезаторы фирмы ScanSoft.
Многие пользователи, услышав синтезированный английский голос Daniel от ScanSoft не могут отличить его от записи живого диктора. Русскоязычные пользователи голосовых движков знакомы с продукцией ScanSoft по голосу Katerina.
Рассчитывать на то, что зарубежные фирмы будут разрабатывать синтезаторы, разговаривающие на украинском языке, не приходится. Здесь можно надеяться только на отечественных разработчиков, для которых украинская речь - родная. Одним из ведущих научных подразделений Украины в области речевых технологий является отдел распознавания и синтеза звуковых образов Международного научно-учебного центра информационных технологий и систем под руководством Тараса Винцюка. В отделе разрабатывается синтезатор украинской речи, который еще не имеет официального названия. Разработчики синтезатора Татьяна Людовик и Николай Сажок часто называют свое детище синтезатор Vymova от украинского слова "вимова" (произношение). Технология создания украинских компьютерных голосов основана на использовании звуковых составляющих речи реальных людей, а действующие образцы по звучанию трудно отличить от речи живых прототипов компьютерной речи. Образно говоря, украинские ученые научились клонировать человеческие голоса.
Термин "клонирование речи" - это не досужая журналистская выдумка: его употребление узаконил в научной лексике первопроходец синтеза речи в бывшем Советском Союзе белорусский ученый Борис Лобанов.
Терминология клонирования использована здесь для большей наглядности, потому что биологическое клонирование нам более знакомо по многочисленным дискуссиям в прессе. Некоторые параллели в клонировании биологических объектов и компьютерных голосов наблюдаются из-за того, что там с помощью очень маленьких информационных структур создаются сложнейшие объекты: при биологическом клонировании живой организм строится на основе деления клеток и генетической информации, при компьютерном роль клеток и генов играют отрезки голоса и его математическое описание, в котором закодирована информация о поведении голоса при чтении различных текстов.
Обычно в качестве исходного материала для создания компьютерных голосов используют речь профессиональных дикторов, которые начитывают специально подобранные тексты. При этом должна соблюдаться определённая интонация и темп речи. Очень упрощённо синтез речи можно представить как замену печатных букв в тексте на звуки, соответствующие этим буквам. При этом нужно учитывать, что одни и те же буквы могут иметь разное звучание в зависимости от расположения в слове, типа предложения, интонации, исторически сложившихся норм произношения и множества других факторов, многие из которых до еще конца не исследованы современной наукой.
В общем, процедура по созданию машинной копии человеческого голоса длительная и кропотливая, поэтому не приходится рассчитывать на то, что в ближайшее время наши компьютеры заговорят голосами знаменитостей, по которым каждый из нас сможет определить успешность научных исследований по приданию голосу самостоятельного бытия независимо от человеческого организма.
Впрочем, те, кто был знаком с Юрием Сенкевичем по телепередаче "Клуб путешественников", могут проверить качество его склонированного голоса на сайте лаборатории Бориса Лобанова. Житейское путешествие известного путешественника и телеведущего в сентябре 2003 году оборвал инфаркт, однако голос Сенкевича благодаря белорусским учёным остался жить в электронном воплощении и, наверное, ещё немало расскажет о путешествиях своего хозяина, которые не успели попасть на страницы передачи "Клуб путешественников".
А украинским учёным из отдела Тараса Винцюка голос Дмитрия Драбыка знаком не только по передачам "Громадського радіо" и телеканала К1. Он стал прототипом для компьютерного голоса "Dmytro". В Интернете наши читатели могут послушать, как компьютер голосом Дмитрия Драбыка читает радионовости и озвучивает сообщение для мобильного телефона.
Тем, кто пожелает сравнить звучание компьютерного голоса Dmytro с голосом прототипа, могут прослушать в аудиоархиве "Громадського радіо" запись одной из передач с участием Дмитрия Драбыка, например, до сих пор актуальную радиопередачу о рефератах в Интернете.
Большим успехом разработчиков этого голоса было то, что для его создания не нужно было вызывать человека, являющегося донором речи, в специально оборудованную лабораторию, заставлять его читать определённым образом подготовленные тексты: новая методика позволила получать необходимый речевой материал прямо с радиоэфира или другого удаленного источника речи.
Эта методика выводит разработки украинских ученых на самые передовые рубежи мировой науки в области искусственного интеллекта и вместе с тем ставит нас перед правовыми и этическими вопросами, неизбежно возникающими, когда результатом научных исследований является новая неведомая реальность.
Ведь клонирование голоса в неумелых или не очень чистых руках может принести опасность для общества, в некоторой степени сравнимую с клонированием живых существ.
В том, что это ненадуманные опасения и тревоги мы убедились в беседе с Дмитрием Драбыком, который не возражал, чтобы его голос способствовал развитию украинской науки, однако выразил обеспокоенность по поводу возможного использования компьютерного клона его голоса в новых кассетных скандалах и прочих голосовых мистификациях.Разработчики развеяли его опасения, сообщив, что компьютерный голос Дмитрия не выйдет за стены лаборатории и был использован лишь для отработки технологии работы с речью из радиоэфира.
С научными исследованиями и разработками отдела Тараса Винцюка пользователи Интернета могут, ознакомится благодаря статьям сотрудников отдела и самого Тараса Климовича на сайте посвященном украинским речевым технологиям.
Если вам не понравилось качество звучания голоса Dmytro, не спешите обвинять разработчиков - этот голос в компьютерном исполнении появился на свет в 2004 году и за время, прошедшее с тех пор, украинские исследования в области искусственной речи ушли далеко вперёд. О новых разработках киевской лаборатории по синтезу и распознаванию звуковых образов удалось узнать благодаря счастливому случаю, позволившему автору статьи попасть на защиту кандидатской диссертации Татьяны Владленовны Людовик. К сожалению, журналисты редко бывают на защите диссертаций и это лишает их возможности лучше узнать и понять состояние отечественной науки, а иногда даже порадоваться за то, что несмотря на мизерное финансирование она может выдавать научные результаты мирового уровня. Безусловно, изучение диссертации не такое захватывающее занятие как чтение детективов, однако при желании там можно найти много увлекательного и поучительного.
Главным результатом диссертации Татьяны Людовик "Информационная технология синтеза индивидуализированной речи по тексту" являются алгоритмы и действующие модели позволяющие синтезировать человеческий голос, достаточно близко имитирующий речь человека вместе со всеми ее персональными акустическими, фонетическими и интонационными особенностями. При этом речь очень разборчива и близка к естественному человеческому звучанию. Наши читатели имеют возможность составить собственное мнение о звучании синтезатора речи, описанного в диссертации Т. Людовик, по трем звуковым файлам, которые можно прослушать, скачав их с Интернета:
- doshchyk.mp3 - здесь голосом профессионального диктора Валерия озвучена сказка о дождике;
- poem.mp3 это небольшое стихотворение в компьютерном исполнении вполне адекватно воспроизводит стиль чтения человеком поэтических произведений (использован голос "Валерий");
- dialog.mp3 - образец диалога двух голосов "Марина" и "Валерий".
Нет сомнения, что по поводу звучания образцов синтезированной речи могут возникнуть самые противоречивые мнения и суждения. В связи с тем, что для определения результатов научных исследований субъективные мнения и оценки неприемлемы, в диссертации Т. Людовик уделено достаточно много внимания научным методам определения разборчивости и естественности звучания синтезированной речи.
Процент правильно распознанных слов в диктанте, прочитанном компьютером и написанном студентами и преподавателям Института филологии, стал показателем разборчивости речи электронных дикторов, созданного Татьяной Людовик. Разборчивость достигала 97-98 процентов. Большинство ошибок восприятия были связаны с редко употребляемыми словами, например, словом "цингель". Более высокая разборчивость наблюдалась в текстах радионовостей (98.4%), немного хуже воспринималось чтение художественных произведений (97.3%). Диссертант объясняет это тем, что структура, лексический состав и интонационное строение публицистических новостийных текстов гораздо проще, чем художественных произведений.
Естественность звучания компьютерных речей оценивалась в диссертации с помощью общепринятого в мировой практике теста "mean opinion score", то есть вычислялся средний балл от оценок, выставленных по пятибалльной шкале членами группы независимых экспертов. Средняя оценка здесь колебалась от 3.47 до 3.53 в зависимости от версии акустического процессора, создающего речевой сигнал.
Большим подспорьем для журналистов, осмелившихся окунуться в сложнейшие перипетии диссертационной работы, могут стать суждения участников её защиты, которые позволяют ощутить за бесстрастными строчками академического текста живое волнующее дыхание научного поиска, явственно и зримо представить его грядущие результаты для нашего будущего и развитии технологий.
Прежде чем перейти к описанию наиболее интересных высказываний, прозвучавших на защите диссертации, о которой рассказывается в статье, хотелось бы отметить, что это мероприятие не выглядело чопорно и академично, как можно было ожидать. Здесь состоялся очень интересный и оживлённый обмен мнениями по проблемам, поднятым в диссертации, ым необычным участником защиты диссертации был синтезатор речи, звучание голоса которого наглядно давало представление о ценности защищаемой работы.
Очень страстно и увлечённо комментировал диссертацию доктор физико-математических наук Шлезингер М.И. Его поразило, что благодаря разработкам Т. Людовик и ее коллег, связанным с автоматизацией процесса индивидуализации синтезируемой речи, можно быстро и легко озвучить какой угодно текст голосом любого человека, например, можно получить поздравление, с днем рождения, озвученное президентами США Бушем или Рейганом. Раньше для того, чтобы составить подобное поздравление необходимо было много времени и усилий.
Какая связь между незрячими и синтезом речи? Об этом во время защиты рассказал профессор Рашкевич Ю.М. из Национального университета "Львовская политехника". Он отметил с сожалением, что на Украине насчитывается большое количество слепых, для которых слуховой канал получения информации является основным источником получения информации. Профессор сказал, что было бы несправедливо, если б новые синтезаторы украинской речи не использовались для чтения электронных книг для этой категории пользователей, так как естественное звучание речи и с интонациями живого человека значительно обогатит и сделает более комфортным процесс получения информации незрячими. Еще Юрий Михайлович обратил внимание на важность применения предложенных технологий в обучении иностранным языкам.
На защите присутствовал незрячий аспирант факультета кибернетики КНУ имени Т.Шевченко Олег Кутищев. Несмотря на отсутствие зрения он прекрасно работает на компьютере с различными математическими пакетами и системами программирования, благодаря программе Jaws, способной на многих языках мира озвучивать информацию, которая выводится на монитор. Для того, чтобы Jaws разговорил по-украински, Олег использует синтезатор "Vikno" (разработчик доцент Соломонова университета Г.В.Юсим) и "UkrVox" (автор Ярослав Козак). Олег и другие незрячие могут сполна оценить достоинства синтезатора Т.Людовик только когда он сможет работать с Jaws и распространёнными программами для чтения книг. Сейчас это невозможно, так как синтезатор не имеет интерфейса MS SAPI, который позволил бы ему взаимодействовать с большинством уже разработанных говорящих программ. Впрочем, интерфейс SAPI это не только средство для доступности синтезатора незрячих, это веление времени, способствующее распространению украинских разработок во всем мире, недаром же все ведущие мировые разработчики речевых синтезаторов снабжают свои программы этим интерфейсом.
Представитель Украинского языково-информационного Фонда Игорь Шевченко отметил, что работа Людовик представляет интерес не только для разработчиков систем озвучивания украинских текстов, но и для создателей украинских мультимедийных словарей нового поколения, в которых наряду с образцами письменной речи будет представлено их живое естественное звучание. Озвучить огромное количество словоформ современного украинского языка (сейчас их насчитывается около 4 000 000) с помощью дикторских записей нереально, ведь они займут очень много места даже при современных технологиях сжатия речи, да и времени для записи потребуется уйма, гораздо проще и быстрее гновенно озвучивать словоформы с помощью программ синтеза речи, при этом речевые базы данных и программы, необходимые для этого, занимают мало места по сравнению с традиционной звукозаписью. Индивидуализация синтеза речи поможет здесь услышать, как озвучивают то или иное слово живые люди, носители языка. Более того, переключаясь на на звуковой синтез словоформ голосов прототипами, которых являются люди, проживающие в разных областях Украины, мы сможем услышать, как произносят то или иное слово в различных регионах. Неоценимы такие звучащие словари и для иностранцев, изучающих украинский язык, что будет способствовать его более широкому распространению во всем мире. По словам Игоря Шевченко, современных инструментов для украинских лингвистических технологий еще очень мало, что отрицательно влияет на престиж украинского языка в мировом научном сообществе. Поэтому нашему государству следует поддерживать такие разработки и финансировать их как приоритетные.

Ця стаття є передруком статті Украинские ученые на пороге клонирования человеческого голоса.