Компания Baidu, которую иногда именуют «китайским Гуглом», анонсировала запуск нейронной сети, которая лучше и быстрее всех аналогов имитирует человеческий голос. Она изучает исходное звучание голоса и «клонирует» его, при необходимости добавляя нужные оттенки и акценты. Ключевая особенность новинки – быстрота анализа акустических данных.
В 2017 г. был представлен предшественник этой новинки, проект Baidu Deep Voice на базе ИИ, которому требовалось 30-минутное изучение исходного материала для генерации нового голоса. Инструмент Adobe VoCo делает это за 20 минут, канадский стартап Lyrebird всего за минуту обработки. Новая технология Baidu, у которой пока нет собственного имени, укладывается в несколько секунд.
Коммерческий потенциал у такой инновационной разработки неимоверно широк, и первым делом на ум, разумеется, приходит мошенничество и фальсификация данных. Клонирование лиц, движений и генерация видео «с участием» конкретной персоны, де-факто, уже доступно, и может быть даже поставлено на поток. Достаточно добавить голосовое сопровождение и получить оптимизированную копию личности, например, для обхода систем биометрической идентификации.
Но разве не может быть и позитивного примера? Вполне – «одушевленный» электронный помощник, который говорит голосом любимого персонажа. Цифровая нянька, способная успокоить ребенка или домашнего питомца голосом старшего члена семьи. Возможность привычного общения для человека, который утратил способность говорить, пусть и временно. Запись аудиокниг или озвучка текста известным голосом без необходимости утруждать его обладателя и т.д.
[embedded content]По материалам reired