В основе разработки лежит машинное распознавание и нейронные сети. При помощи камеры нейросеть анализирует жесты говорящего и переводит их в текст. Подобных программ ещё нет в мире, заявили разработки НГТУ.
«Мы внесли в программу 1 006 жестов, если быть точными. Также разработали алгоритм для распознавания жестов, теперь можно выделять компоненты жеста, конфигурацию и ориентацию ладони, локализацию жеста, а также характер движения», — сообщили разработчики из Новосибирска.
На данный момент точность распознавания жестов составляет 92%. Также исследователи пытаются настроить нейросеть так, чтобы она распознавала жесты подобно человеку, который смотрит на говорящего.
Ранее МедиаПоток сообщал, что представлен прототип голосового потокового переводчика от «Яндекса» на основе ИИ.