Лингвист из Йошкар-Олы Андрей Чемышев учит интернет понимать марийский язык

Компьютерный лингвист Андрей Чемышев запустил марийскую версию проекта Common Voice для создания основы будущих речевых технологий.

Компьютерный лингвист Андрей Чемышев запустил марийскую версию проекта Common Voice для создания основы будущих речевых технологий.

На данный момент в арсенале программы насчитывается около 120 часов записей, а в проекте приняли участие 200 человек. Этот проект нацелен на внедрение марийского языка в интернет, а также помощь при создании марийского голосового помощника.

«Когда мы полностью соберем аудиокорпус, для которого необходимо собрать 300 часов аудиозаписей, тогда каждый желающий разработчик сможет его использовать для своих целей, например, для разработчик своего голосового помощника», — рассказывает Андрей Чемышев, сообщает МЭТР.

Таким образом, любое приложение или программа смогут воспринимать, озвучивать и даже переводить в письменный формат марийскую речь. На данный момент записи принимаются как горного, так и лугового марийских языков, а в будущем число волонтеров, участвующих в проекте, планируется нарастить до 1000 человек.

Ранее МедиаПоток писал, что в Марий Эл создан головой помощник «Марийская Алиса».