The Decoder·2026年3月31日 21:23·約1分

Qwen3.5-Omniが音声指示と映像からコードを書く方法を誰にも教わらずに習得

#オムニモーダルAI #コード生成 #音声AI #Alibaba #マルチモーダル学習 #ゼロショット学習

TL;DR

Alibabaが発表したオムニモーダルAIモデル「Qwen3.5-Omni」は、音声指示と動画入力からコードを生成する能力を訓練なしで獲得し、音声タスクではGemini 3.1 Proを上回る性能を主張している。

AI深層分析2026年3月31日 22:40

重要/ 5段階

深度40%

キーポイント

オムニモーダルAIモデルの発表

Alibabaがテキスト、画像、音声、動画を処理できる多様な入力に対応するAIモデル「Qwen3.5-Omni」をリリースした。

訓練なしでのコード生成能力獲得

モデルは音声指示と動画入力からコードを書く能力を、そのための特別な訓練を受けずに自発的に獲得したと報告されている。

競合モデルに対する性能主張

AlibabaはQwen3.5-Omniが音声タスクにおいてGoogleのGemini 3.1 Proモデルを上回る性能を示すと主張している。

予期せぬ能力の発現

コード生成能力は開発者が意図的に訓練したものではなく、モデルが自発的に獲得した「予期せぬトリック」として紹介されている。

影響分析・編集コメントを表示

影響分析

この発表は、AIモデルが訓練されていないタスクでも能力を獲得できる可能性を示しており、AIの汎用性と自律的学習の進展を示唆している。また、中国企業のAI競争力強化と多様な入力形式からのコード生成という実用的応用の可能性を提示している。

編集コメント

訓練なしでのコード生成能力獲得は、AIの汎用性と自律的進化の可能性を示す興味深い事例。ただし、具体的な評価方法や比較データの詳細が記事に含まれていない点に注意が必要。

image

Alibabaは、テキスト、画像、音声、動画を処理するオムニモーダルAIモデル「Qwen3.5-Omni」をリリースしました。同社は、このモデルが音声タスクにおいてGemini 3.1 Proを上回ったと主張しており、開発過程で予期せぬ能力を獲得しました。それは、音声指示と動画入力からコードを記述することです。

記事「Qwen3.5-Omni learned to write code from spoken instructions and video without anyone training it to」は、The Decoderで最初に公開されました。

原文を表示

Alibaba has released Qwen3.5-Omni, an omnimodal AI model that processes text, images, audio, and video. It claims to beat Gemini 3.1 Pro on audio tasks and picked up an unexpected trick along the way: writing code from spoken instructions and video input.

The article Qwen3.5-Omni learned to write code from spoken instructions and video without anyone training it to appeared first on The Decoder.

この記事をシェア

GitHub Changelog重要度42026年7月3日 08:19

Copilot 利用状況レポートの精度と網羅性が向上

MarkTechPost重要度42026年7月3日 05:51

アリババのページエージェント：DOM を介して自然言語で Web インターフェースを制御する JavaScript 内蔵 GUI エージェント

TechCrunch AI重要度42026年7月3日 03:44

Meta が静かに「Pocket」というバイブコーディング対応ゲームアプリをリリース

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む