VK обновила технологию распознавания речи ASR для субтитров и голосовых сообщений

09.12.2025
2 мин
VK обновила технологию распознавания речи ASR с повышением точности на 20% для субтитров и голосовых сообщений

Команда AI VK представила обновленную технологию автоматического распознавания речи ASR с повышением точности на 20% по сравнению с предыдущей версией. Улучшения затрагивают качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах экосистемы VK, обеспечивая более естественную и точную транскрибацию аудиоконтента для миллионов пользователей платформы.

Технология ASR переводит голос в текст, очищая звук от шумов и анализируя особенности речи говорящего. VK использует сочетание машинного обучения, больших языковых моделей и нейросетей, которые помогают системе лучше понимать контекст, устойчивые выражения и смысловые связи. Обновленная версия была дообучена на расширенном датасете аудиодорожек из публичных роликов VK Видео, что позволило модели точнее интерпретировать разные темпы и манеру речи.

По итогам внутренних тестов ASR VK превосходит зарубежные аналоги по качеству распознавания русскоязычных аудио согласно метрике WER. Технология используется в VK Видео и VK Клипах для автоматических субтитров, в образовательной платформе Учи.ру, ВКонтакте для расшифровки голосовых сообщений и внутренних инженерных сервисах для транскрибации встреч, суммаризации и улучшения мультимодальных моделей Discovery.

Обновленная ASR уже внедрена в VK Видео и VK Клипы и будет постепенно интегрироваться в другие продукты группы компаний. В планах AI VK дальнейшее повышение точности распознавания голосовых сообщений, добавление диаризации для разделения по голосам и расширение языковой поддержки. Ранее VK внедрила технологии Discovery для глубокого понимания контента с ростом вовлеченности на 7%.

Развитие технологий распознавания речи открывает новые возможности для специалистов по интернет-маркетингу и SMM, позволяя автоматизировать создание субтитров для видеоконтента, повышать доступность материалов для разных аудиторий и улучшать взаимодействие с пользователями через более точную обработку голосовых сообщений, что способствует росту вовлеченности и улучшению пользовательского опыта в социальных сетях и мессенджерах.

Закрыть

Получить пример отчета

Мы собираем детальную аналитику, чтобы каждое решение было основано на данных. Сюда включены все аспекты маркетинга - от поведения аудитории до рентабельности кампаний.

✉ Укажите вашу почту, чтобы мы могли отправить вам пример отчета