Qwen3.5-Omniが音声指示と映像からコードを書く方法を誰にも教わらずに習得
Alibabaが発表したオムニモーダルAIモデル「Qwen3.5-Omni」は、音声指示と動画入力からコードを生成する能力を訓練なしで獲得し、音声タスクではGemini 3.1 Proを上回る性能を主張している。
キーポイント
オムニモーダルAIモデルの発表
Alibabaがテキスト、画像、音声、動画を処理できる多様な入力に対応するAIモデル「Qwen3.5-Omni」をリリースした。
訓練なしでのコード生成能力獲得
モデルは音声指示と動画入力からコードを書く能力を、そのための特別な訓練を受けずに自発的に獲得したと報告されている。
競合モデルに対する性能主張
AlibabaはQwen3.5-Omniが音声タスクにおいてGoogleのGemini 3.1 Proモデルを上回る性能を示すと主張している。
予期せぬ能力の発現
コード生成能力は開発者が意図的に訓練したものではなく、モデルが自発的に獲得した「予期せぬトリック」として紹介されている。
影響分析・編集コメントを表示
影響分析
この発表は、AIモデルが訓練されていないタスクでも能力を獲得できる可能性を示しており、AIの汎用性と自律的学習の進展を示唆している。また、中国企業のAI競争力強化と多様な入力形式からのコード生成という実用的応用の可能性を提示している。
編集コメント
訓練なしでのコード生成能力獲得は、AIの汎用性と自律的進化の可能性を示す興味深い事例。ただし、具体的な評価方法や比較データの詳細が記事に含まれていない点に注意が必要。

Alibabaは、テキスト、画像、音声、動画を処理するオムニモーダルAIモデル「Qwen3.5-Omni」をリリースしました。同社は、このモデルが音声タスクにおいてGemini 3.1 Proを上回ったと主張しており、開発過程で予期せぬ能力を獲得しました。それは、音声指示と動画入力からコードを記述することです。
記事「Qwen3.5-Omni learned to write code from spoken instructions and video without anyone training it to」は、The Decoderで最初に公開されました。
原文を表示

Alibaba has released Qwen3.5-Omni, an omnimodal AI model that processes text, images, audio, and video. It claims to beat Gemini 3.1 Pro on audio tasks and picked up an unexpected trick along the way: writing code from spoken instructions and video input.
The article Qwen3.5-Omni learned to write code from spoken instructions and video without anyone training it to appeared first on The Decoder.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み