Новая ИИ-модель Qwen 3.5-Omni умеет писать код по видеогайдам
Alibaba выпустила Qwen 3.5-Omni — новую версию фирменной мультимодальной LLM. Нейросеть, представленная в конфигурациях Plus, Flash и Light, умеет одновременно обрабатывать текстовые, графические, аудио- и видеоданные.
Главным отличием Qwen 3.5-Omni от предшественницы стало увеличившееся с 32 до 256 тысяч токенов контекстное окно. Благодаря этому ИИ способен разом обработать более 10 часов аудио или примерно 400 секунд видео в разрешении 720p. Распознавание речи охватывает 113 языков и диалектов против всего 19 у предыдущей версии.
Модель была обучена на более чем 100 миллионах часов аудио- и видеоданных. В бенчмарках версия Plus обошла Gemini 3.1 Pro в распознавании, переводе и диалогах, а в работе с аудио и видео оказалась на уровне соперницы. В режиме генерации речи нейросеть превзошла ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках.
Набор функций Qwen 3.5-Omni включает семантическое прерывание, клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также технику ARIA (Adaptive Rate Interleave Alignment). Последняя динамически выравнивает текстовые и речевые токены, достраивая пропуски слов и нечёткое произношение чисел.
Ещё одной уникальной особенностью модели стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding. Модель «смотрит» запись экрана с аудиоинструкциями и пишет по этим данным работающий код без текстовых подсказок. В компании отмечают, что эта способность возникла случайно без соответствующих тренировок.