Новая программа распознаёт речь по губам лучше специалистов

Кадр из немого кино, которое, возможно, в скором времени начнёт "переводить" искусственный интеллект.

Кадр из немого кино, которое, возможно, в скором времени начнёт "переводить" искусственный интеллект.
Фото Global Look Press.

Чтение по губам, как известно, часто используется глухими и слабослышащими людьми. Обучить такому навыку непросто и занимает много времени, но теперь эту задачу может взять на себя искусственный интеллект. Причём, как выяснилось, работает он эффективнее человека-специалиста.

Чтение по губам, как известно, часто используется глухими и слабослышащими людьми для общения с другими членами общества. Обучить такому навыку непросто и занимает много времени, однако теперь эту задачу может взять на себя искусственный интеллект.

Новая компьютерная программа под названием Watch, Attend and Spell ("смотри, следи и читай по буквам"), или WAS, разработанная специалистами Оксфордского университета совместно с компанией DeepMind, не только упростит коммуникацию для глухих людей, но также позволит учёным продвинуться в усовершенствовании искусственного интеллекта.

Напомним, что ещё осенью 2016 года специалисты рассказали о разработке алгоритма, который распознаёт речь по губам лучше, чем профессионалы. ИИ-систему, использующую компьютерное зрение и методы машинного обучения, "тренировали", показывая ей выпуски различных телешоу общей продолжительностью пять тысяч часов (примерно 118 тысяч предложений).

Затем последовала проверка эффективности: из случайной выборки 200 видеофрагментов профессиональный чтец по губам безошибочно распознал только 12,4% произнесённых слов, в то время как компьютерные алгоритмы — 46,8%. При этом ошибки системы были незначительными, например, единичный пропуск буквы либо потеря буквы на конце слова (напомним, что в английском языке буква "s" на конце существительного может обозначать множественное число слова).

Как отмечает соавтор разработки Джун Сон Чун (Joon Son Chung), очень важную роль играет также понимание контекста, а этому программу обучить сложнее, нежели человека. К примеру, слова mat (коврик), bat (летучая мышь) и pat (погладить) по артикуляции практически неотличимы, и выбрать нужный вариант поможет только контекст.

При этом программа WAS обеспечивает не только точность, но и скорость понимания, добавляют авторы. Но есть у неё и недостатки. Пока что система не способна работать в режиме онлайн, а кроме того, она умеет распознавать лишь цельные предложения. Заставить систему работать в режиме онлайн, а также усовершенствовать точность распознавания слов – сейчас это основные задачи авторов проекта. "Тренировки" планируется продолжить на телевизионных программах.

Что же касается перспектив использования, то они представляются весьма широкими. "Чтение по губам – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: давать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно", — добавляет Джун Сон Чун. Но, что самое главное, программа поможет адаптироваться к просмотру видео и даже общению глухим и слабослышащим людям.

Подробное описание программы Watch, Attend and Spell представлено на сайте Оксфордского университета.

Напомним, что ранее казанские учёные создали распознаватель речи. Кроме того, специалистами была создана новая система аутентификации, которая распознаёт пользователя по движению губ и предотвращает взлом систем безопасности.