21.04.2021      37      0
 

Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам

Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший…


Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020.

Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation).

При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных.

Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.

 

В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность.
Разработчики обучали и проверяли работу метода на стандартных для такой задачи датасетах: LRS2, содержащий более 45 тысяч предложений, произнесенных в эфире BBC, а также CMLR — крупнейший датасет для чтения по губам на севернокитайском (мандаринском) языке, содержащий более 100 тысяч предложений из эфира CNTV.

Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв).

Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность.

Григорий Копиев

https://nplus1.ru/

Ключевые слова:

Читайте также:
Медики назвали доступный способ защиты от коронавируса

Ученые Королевского колледжа Лондона доказали, что прием пробиотиков, жирных кислот Омега-3, а также мультивитаминов уменьшает риск заражения коронавирусом. Это крайне важно для людей, которые пока не могут пройти через вакцинацию.
Подробнее »»

Источник


Об авторе: admin

Ваш комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Некоторым группам людей реально стоит задуматься о сохранении фертильности

Некоторым группам людей реально стоит задуматься о сохранении фертильности

Сохранение фертильности нужно женщинам для планирования беременности в более позднем возрасте, то есть...

Рождественское чудо: малышка, которой не оставляли шансов, выздоровела и вернулась домой

Рождественское чудо: малышка, которой не оставляли шансов, выздоровела и вернулась домой

Родители девочки до сих пор не могут поверить в случившееся. Крошка Изабелла родилась на 25-неделе...

25 бесплатных способов сделать твой Instagram популярным

25 бесплатных способов сделать твой Instagram популярным

Красочные и цепляющие картинки – визитная карточка любого Instagram-аккаунта. Но чтобы раскрутить свой профиль...