18+
  • Город
  • Наука и образование
  • News
Наука и образование

Петербургские ученые научили нейросеть распознавать речь по губам через приложение

Алгоритм точнее считывает речь пользователя в шумных местах и тем самым повышает качество распознавания слов. Ученые считают, что приложение можно будет использовать в различных сферах: от рынка услуг до тяжелой промышленности.

Shutterstock.com

«Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжелой техникой», — рассказали ТАСС в пресс-службе Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН).

Голосовые помощники могут помочь как на работе, так и в повседневной жизни. Однако пока они обучены работать в относительной тишине, а воспринимать речь, к примеру, на шумных улицах у них плохо получается: команда либо не распознается, либо искажается и даже обретает противоположный смысл.

Чтобы решить эту проблему, ученые из СПб ФИЦ РАН создали нейросеть, которая собирает два вида информации (по аналогии с человеческим восприятием) — звуковую речь и движения губ.

«В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность», — пояснили в университете.

Программу тестировали водители шумных большегрузных автомобилей одной из логистических компаний в России. Как показали результаты эксперимента, при совмещении двух видов считывания информации повышается эффективность работы алгоритмов. При считывании информации только по чтению губ точность распознавания команд составила 60-80%, а в комбинации со звуковым сигналом — более 90%.

«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — отметил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Следите за нашими новостями в Telegram

Комментарии (0)