Michael Rivera / wikimedia.org

Компания Amazon запустила сервис создания системы синтеза речи конкретного человека на основе образцов его голоса. Об этом сообщается на сайте компании.

Сервис, получивший название Brand Voice, является развитием представленного ранее сервиса Polly для синтеза речи на разных языках и разными голосами. Новая функция нацелена на компании, которые хотят использовать в своих сервисах голос известного представителя бренда, созданный на основе голоса выбранного компанией человека.

Сервис доступен как в виде голоса для навыков голосового помощника Alexa, так и в виде отдельного API, получающего текст и выдающего файл с аудиозаписью, который можно использовать любым образом. В качестве примера Amazon показала результат работы с сетью фастфуда KFC, которая для своего канадского отделения создала голосовую модель символа компании – Полковника Сандерса, пишет N+1. Также компания создала голосовую модель для австралийского банка NAB.

Пока что в Amazon не раскрывают стоимость и технические детали работы сервиса. Судя по всему, в его основе лежит описанный в 2019 году алгоритм синтеза речи, который берет данные конкретного человека и добавляет их к генерализованной нейросетевой модели, обученной на других данных. В результате на обучение модели требуется гораздо меньше образцов речи, чем при использовании других подходов, но это не снижает качество синтезированной речи.

Отметим, что этот проект Amazon не единственный в своем роде. Так, в октябре прошлого года сообщалось, что компания кинопродюсера Тимура Бекмамбетова Screenlife Technologies и разработчик HR-сервиса на основе искусственного интеллекта "Робот Вера" "Стафори" создадут совместное предприятие для развития проекта Vera Voice, который позволит имитировать голоса знаменитостей на русском языке. Применять Vera Voice партнеры планируют для поздравлений и розыгрышей, а также озвучки рекламных роликов, фильмов, игр и аудиокниг. При этом с людьми, голоса которых будет имитировать алгоритм, планируется заключать договоры.