VK обновила технологию распознавания речи ASR для субтитров и голосовых сообщений
Команда AI VK представила обновленную технологию автоматического распознавания речи ASR с повышением точности на 20% по сравнению с предыдущей версией. Улучшения затрагивают качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах экосистемы VK, обеспечивая более естественную и точную транскрибацию аудиоконтента для миллионов пользователей платформы.
Технология ASR переводит голос в текст, очищая звук от шумов и анализируя особенности речи говорящего. VK использует сочетание машинного обучения, больших языковых моделей и нейросетей, которые помогают системе лучше понимать контекст, устойчивые выражения и смысловые связи. Обновленная версия была дообучена на расширенном датасете аудиодорожек из публичных роликов VK Видео, что позволило модели точнее интерпретировать разные темпы и манеру речи.
По итогам внутренних тестов ASR VK превосходит зарубежные аналоги по качеству распознавания русскоязычных аудио согласно метрике WER. Технология используется в VK Видео и VK Клипах для автоматических субтитров, в образовательной платформе Учи.ру, ВКонтакте для расшифровки голосовых сообщений и внутренних инженерных сервисах для транскрибации встреч, суммаризации и улучшения мультимодальных моделей Discovery.
Обновленная ASR уже внедрена в VK Видео и VK Клипы и будет постепенно интегрироваться в другие продукты группы компаний. В планах AI VK дальнейшее повышение точности распознавания голосовых сообщений, добавление диаризации для разделения по голосам и расширение языковой поддержки. Ранее VK внедрила технологии Discovery для глубокого понимания контента с ростом вовлеченности на 7%.
Развитие технологий распознавания речи открывает новые возможности для специалистов по интернет-маркетингу и SMM, позволяя автоматизировать создание субтитров для видеоконтента, повышать доступность материалов для разных аудиторий и улучшать взаимодействие с пользователями через более точную обработку голосовых сообщений, что способствует росту вовлеченности и улучшению пользовательского опыта в социальных сетях и мессенджерах.