Разработчикам из Британии удалось создать алгоритм, который способен переводить текст в жестовую речь.
Известно, что текст проходит через кодировщик и декодировщик, после чего превращается в скелетную модель тела, которая иллюстрирует жест говорящего. После этого вся полученная информация кодируется в вектор.
Этот вектор объединяется с вектором, полученным от стилевого изображения – фотографии человека, которую нужно анимировать. Лишь только потом нейросеть подает последовательность поз, которая анимируется на реалистичное видео.
В целом, на сегодняшний день алгоритм способен распознать 386 аннотационных записей. В ходе тестирования разработки были приглашены 46 добровольцев, которые оценили работу нейросети.
Подобный научный прорыв призван упростить людям с ограниченными возможностями жизнь. Скорее всего специалисты стоят на пороге изобретения серьезного инструмента, который позволит глухонемым людям общаться без границ.
Ранее МедиаПоток писал, что нейросеть научилась распознавать сарказм в речи человека. Теперь ИИ научили распознавать сарказм в высказываниях людей. Данный научный прорыв интересен тем, что искусственный интеллект постепенно развивается, а также со временем сможет выполнять более сложную работу.