Qwen3.7-Plus:多モーダルエージェント知能(36 分読)
アリババは、視覚・言語を統合し GUI 操作やコード生成を自律的に行う「Qwen3.7-Plus」を発表し、マルチモーダルエージェント分野における新たな基準を示した。
キーポイント
マルチモーダルインタラクティブハイブリッドエージェントの確立
視覚認識と言語処理を統合し、GUI と CLI の両方をシームレスに操作できるユニバーサル・エージェント基盤として機能する。
高度なコーディングおよび生産性支援能力
ビジュアル参照からのコード記述、フロントエンドから複雑なソフトウェアエンジニアリングまでをカバーし、フルモダリティ入力に対応する。
クロス・ハーンシス(汎用フレームワーク)対応
Claude Code, OpenClaw, Qwen Code など多様なエージェント枠組みにおいて一貫したパフォーマンスを発揮し、柔軟な展開を可能にする。
ベンチマークにおける競合他社との比較優位性
Terminal Bench 2.0-Terminus で 70.3 を記録するなど、主要なコーディングエージェントベンチにおいて先行モデルや競合を上回るスコアを示した。
影響分析・編集コメントを表示
影響分析
この発表は、LLM が単なるテキスト処理から、実際のデジタル環境(GUI/CLI)を自律的に操作・制御する「エージェント」としての成熟度を示す重要な転換点です。特に、視覚情報を理解してコード生成やタスク実行を行う能力が強化されたことで、開発者向けの生産性ツールや自動化ワークフローの実装において、より高度で複雑なシナリオへの適用が可能になります。
編集コメント
視覚認識と実世界操作を統合した「エージェント」モデルの進化は、AI の実用化において決定的なステップです。特にベンチマークでの高スコアは、開発現場での即戦力としての期待感を高める内容となっています。
imageDISCORD
本日、Qwen3.7-Plusをご紹介いたします。これは、視覚と言語を単一の多用途なエージェント基盤に統合したマルチモーダルエージェントモデルです。Qwen3.7の強力なテキストバックボーンを継承し、Qwen3.7-Plus はビジョン・言語能力において包括的なアップグレードを実現すると同時に、コーディング、ツール利用、生産性ワークフローにおける完全なエージェントとしての強さを維持しています。
Qwen3.7-Plus を際立たせるのは、マルチモーダルインタラクティブハイブリッドエージェントとして動作できる能力です。現実世界のシーンを認識し、画面を読み取り GUI(グラフィカルユーザーインターフェース)を操作し、視覚的な参照からコードを記述し、モバイルアプリをエンドツーエンドでナビゲートし、ウェブ知識に基づいた視覚的質問に回答します。これらは単一のエージェントループ内で GUI と CLI(コマンドラインインターフェース)の相互作用をシームレスに融合させたものです。多用途なコーディングエージェントおよび生産性アシスタントとして、フロントエンドのプロトタイピングから複雑なソフトウェアエンジニアリング、そしてマルチステップのワークフロー自動化まで、フルモダリティ入力を活用して幅広く対応します。また、エージェントのスキャフォールド(骨組み)全体にわたって汎化し、Claude Code、OpenClaw、Qwen Code、またはその他のフレームワークを通じてデプロイされた場合でも一貫したパフォーマンスを発揮します。
- Qwen3.7-Plus — 現在、Alibaba Cloud Model Studio を通じて利用可能です:マルチモーダルインタラクティブハイブリッドエージェントとして、視覚タスクとテキストタスクにわたる統一された GUI および CLI 操作を提供
- 多様な入力モダリティに対応する汎用コーディングエージェントおよび生産性アシスタント
- ビジュアルエージェント:知覚、推論、グラウンディング、検索強化 QA を実現
- 多様なエージェントフレームワーク間でのクロスハーネス一般化能力
- Alibaba Cloud Model Studio 経由で API を通じて呼び出し可能。
パフォーマンス

テキストベンチマーク
Opus-4.6 MaxK2.6 ThinkingGLM-5.1 ThinkingDeepSeek-V4-Pro MaxQwen3.6-PlusQwen3.7-Plus
コーディングエージェント
Terminal Bench 2.0-Terminus65.466.763.567.961.670.3
SWE-Verified80.880.2--80.678.877.7
SWE-Pro57.359.558.859.056.657.6
SWE-Multilingual77.576.7--76.273.875.8
NL2repo47.642.841.035.534.441.1
SciCode51.952.245.1--41.451.3
QwenWebDev1617--1564157015001536
QwenSVG154113251605150614321588
一般エージェント
Qwenclaw65.554.758.759.257.261.8
CoWorkBench68.258.266.066.364.565.1
ClawEval70.461.562.758.457.162.7
Skillsbench--56.253.152.345.754.9
BFCL-V476.771.370.970.668.972.9
MCP-Mark56.755.957.557.148.258.7
MCP-Atlas75.866.671.873.674.173.2
Vitabench--39.145.151.942.845.6
Deep-Planning58.942.334.144.640.962.3
SpreadSheetBench-v189.384.585.284.980.286.3
Kernel Bench L32.63/98%1.41/80%2.00/78%1.07/54%1.03/48%2.06/98%
QwenWorldBench56.150.950.252.347.662.1
STEM & 推論
GPQA Diamond91.390.586.290.190.490.3
HLE40.036.434.737.728.834.7
LiveCodeBench88.889.6--93.587.189.6
HMMT 2026 Feb96.292.789.495.287.892.9
IMOAnswerBench75.386.083.889.883.886.0
CritPT12.68.04.612.92.96.0
Apex34.524.011.538.38.822.7
一般的能力
MMLU-Pro89.787.186.387.588.588.5
MMLU-Redux95.295.394.394.894.594.5
SuperGPQA72.571.368.069.971.671.4
IFEval91.994.594.591.994.394.6
IFBench62.576.076.077.074.279.1
MRCR-v2 128k84.063.162.074.485.991.7
多言語対応
WMT24++82.781.681.882.284.384.6
MAXIFE81.387.787.788.988.288.8
MMMLU90.687.587.287.989.589.0
MMLU-ProX86.183.783.983.984.785.4
NOVA-6359.156.754.652.857.958.8
INCLUDE87.484.284.386.185.183.0
Global PIQA91.289.289.590.589.890.3
PolyMATH80.282.767.672.077.484.0
- Terminal-Bench 2.0: Harbor/Terminus-2 ハーネス; タイムアウト 5 時間、12 CPU/24 GB RAM; temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K コンテキスト; 5 回のランの平均。すべての実験では各ターンで <thinking> トークンを先頭に付加し、モデルが拡張思考を行うかどうかを決定できるようにしています。
- SWE-Bench シリーズ: 内部エージェントスキャフォールド (bash + ファイル編集ツール); temp=1.0, top_p=0.95, 200K コンテキストウィンドウ。
- SWE-bench Pro: 問題のあるタスクを修正し、洗練されたベンチマーク上ですべてのベースラインを評価。
- QwenClawBench: リアルユーザー分布に基づく Claw エージェントベンチマーク; オープンソース: https://github.com/SKYLENAGE-AI/QwenClawBench。
- CoWorkBench: 内部の共同作業ベンチマーク; コンピュータサイエンス、金融、法律、医療、その他の生産性ドメインにわたる長期ホライズンタスク。
- SkillsBench: OpenCode を通じて 78 のタスクで評価 (外部 API に依存する 9 タスクを除く); 5 回のランの平均。
- MCP-Mark: GitHub MCP v0.30.3; Playwright の応答は 32K トークンで切り捨て。
- MCP-Atlas: パブリックセットスコア; gemini-2.5-pro がジャッジ役を務める。
- VITA-Bench: サブドメインごとの平均スコア; 古い公式ジャッジが利用できなくなったため、claude-4.5-sonnet をジャッジとして使用。
- Kernel Bench L3: 報告された指標: PyTorch イーグル参照に対する問題ごとの速度向上の中央値 / torch.compile より高速な問題の割合を 50 の問題にわたって算出。各テストサンプルは、CUTLASS コードベースと公式 CUDA ドキュメントへのインターネットアクセスが制限され、ツール呼び出しが最大 500 回まで、100 回の非改善ターン後に早期停止する孤立した Docker コンテナ内で実行されます (H100 80GB GPU 1 基使用)。GPT-5.4 (xhigh) を用いて潜在的なハッキング行動を検出します。カーネルレベルのタイミングには CUPTI を使用。
- Reasoning シナリオ: 推奨システムプロンプト: "推論努力度は xhigh に設定されています。タスクを注意深く考え、主要な仮定を検証し、妥当な代替案を検討し、最終回答において正確性、一貫性、明瞭性を優先してください"。
- WMT24++: より困難な WMT24 サブセット; 55 言語における平均スコアを XCOMET-XXL で算出。
- MAXIFE: EN および多言語プロンプトの精度 (合計 23 の設定)。
- MMLU-ProX: 29 言語にわたる平均精度。
- 空欄セル (--) は、まだスコアが利用できないことを示します。
Qwen3.7-Plus は、あらゆる分野において Max タイプのモデルに迫る競争力のあるテキスト性能を提供します。コーディングエージェントにおいては、Terminal Bench 2.0、SWE-bench シリーズ、SciCode で強力なパフォーマンスを発揮し、実世界のソフトウェアエンジニアリングおよび科学プログラミングタスクを効果的に処理します。汎用エージェントとしては、MCP-Mark、Deep-Planning、Kernel Bench L3 にわたって堅牢なツール使用と計画能力を示し、特に複雑な多段階の計画策定や GPU カーネル最適化において顕著な強みを示しています。その推論性能は GPQA Diamond、HMMT、IMOAnswerBench における結果から、困難な STEM ベンチマークにおいて Plus タイプモデルの中で最も強力なものの一つに位置づけられます。指示従順性と多言語タスクにおいては、IFBench、WMT24++、PolyMATH で一貫した品質を提供し、多様な言語に対する広範なカバレッジを有しています。
多モーダルベンチマーク
GPT-5.4 (xhigh)Opus-4.6 MaxGemini-3.1 ProQwen3.6-PlusQwen3.7-Plus
多モーダル推論
MMMU-Pro81.273.981.878.879.0
MathVision91.065.587.488.090.3
BabyVision53.112.655.937.470.4 / 64.7
CharXiv(RQ)84.566.084.481.585.9 / 84.4
HiPhO65.040.885.480.484.1
ERQA67.840.868.065.769.8
VisFactor40.824.439.836.042.8
MedXpertQA-MM77.364.480.768.771.0
ビジュアルエージェント & コーディング
ScreenSpot Pro67.449.568.168.279.0
OSWorld-Verified75.072.7--62.573.3
AndroidWorld--62.070.767.281.0
QwenVision2Code1884.01518.01632.01522.01772.0
ClawEval-MM54.454.745.749.155.7
多モーダル検索 & 知識 QA
SimpleVQA69.479.676.969.481.7
WorldVQA45.965.456.133.661.1
MMSearchPlus19.738.942.019.641.4
BC-VL48.151.549.926.151.1
MMBC18.846.328.218.346.3
一般視覚理解 (General Visual Understanding)
RealWorldQA83.873.983.585.486.9
CountQA58.432.572.871.777.0
OmniDocBench1.585.586.690.091.291.4
OCR-Bench-V2(EN)59.154.364.667.070.7
OCR-Bench-V2(ZH)57.754.958.263.667.1
ODinW13------51.851.1
自律走行 (Autonomous Driving)
LingoQA78.277.666.876.083.4
Ego3D-Bench↓6.98.110.46.15.9
SURDS64.658.364.073.277.2
VLADBench77.148.073.175.677.2
動画理解 (Video Understanding)
VideoMME (字幕あり)89.586.188.487.888.0
VideoMMMU82.485.285.384.085.4
MLVU (M-Avg)86.181.784.786.787.4
TVBench82.569.873.076.078.2
LVBench77.463.075.174.876.2
- 多言語検索・知識 QA: すべてのモデルは検索拡張機能を有効にして評価されました。
*** BabyVision および CharXiv(RQ): スコアは「CIあり / CIなし」の形式で報告されています。
- VideoMME (字幕あり): スコアは字幕付きでの結果を報告しています。
- BC-VL および MMBC: スコアは BC タスクにおいて推奨される存在ペナルティ 1.5 を適用した状態で報告されています。
- ScreenSpot Pro および OSWorld-Verified: スコアは「enable_thinking=False」の条件で報告されています。
- 空欄 (--) は、スコアがまだ未入手であることを示します。
Qwen3.7-Plus の多言語改善は、視覚理解における孤立した向上に留まりません。むしろ、それは多言語エージェントが要求する中核的能力——複雑な視覚入力の理解、視覚情報に基づく推論、問題解決のためのツール使用、そして最終的にコードまたは GUI 環境でのタスク実行——に対する体系的な強化を反映しています。
多言語推論において、Qwen3.7-Plus は BabyVision, MathVision, HiPhO, ERQA, VisFactor といった困難な視覚推論ベンチマークで強力なパフォーマンスを発揮します。これらの結果は、モデルが微細な視覚知覚、空間関係、物理的な常識、そして多段階の論理的推論を統合する能力を示しています。特に、Qwen3.6-Plus から BabyVision における大幅な改善が見られることは、初期の人間の視覚認知や空間推論に近いタスクに対するより強力な汎化能力を暗示しています。
ビジュアルエージェントとコーディングにおいて、Qwen3.7-Plus は ScreenSpot Pro、OSWorld-Verified、AndroidWorld において顕著な向上を示します。これは、モデルが単に画面コンテンツを認識するだけでなく、重要な UI 要素の特定を行い、タスクの意図を理解し、多段階のインタラクションを完了できることを示しています。QwenVision2Code においても、モデルは画像、動画、デザインリファレンスを実行可能なコードに変換する強力なビジョンからコードへの生成能力を示しており、これらの機能はマルチモーダルエージェントが「インターフェースを理解する」段階から「インターフェースを操作する」、さらには「インターフェースを構築する」段階へと移行するための基盤を形成しています。
マルチモーダル検索および知識 QAにおいては、Qwen3.7-Plus は SimpleVQA、WorldVQA、MMSearchPlus、BC-VL、MMBC において明確な改善を達成しました。このモデルは、視覚入力と外部知識の検索を組み合わせて、画像コンテンツのみからは解決できない質問に回答することができます。これにより、ユーザーが単に「画像の中に何があるか」を尋ねるのではなく、視覚的証拠、常識、そして最新の知識を組み合わせることで信頼性の高い回答を提供することを期待する現実世界のタスクに対して、より適したモデルとなっています。
一般的な視覚的理解において、Qwen3.7-Plus は、現実世界のシーン、ドキュメント解析、チャート理解、OCR(光学文字認識)、数え上げ、空間位置特定など across 幅広いタスクで高いパフォーマンスを維持しています。RealWorldQA、CountQA、OmniDocBench、CharXiv、OCR-Bench-V2 などのタスクでも強力な性能を発揮します。これらの機能は、スクリーンショット、領収書、表、レポート、ポスター、製品画像、複雑な UI ページなどを含む、現実のビジネス入力に対して堅牢に対応するために不可欠です。
画像を超えて、Qwen3.7-Plus は動画理解と運転シーン理解をさらに強化しています。VideoMMMU、MLVU、TVBench、LVBench などの動画ベンチマークでは、短編および長編の動画におけるイベント、アクション、時間的ダイナミクス、意味関係について推論を行うことができます。また、LingoQA、Ego3D-Bench、SURDS、VLADBench などの運転関連の評価においても、動的シーン、交通参加者、空間関係に対する強力な理解力を示しています。これらの機能は、現実世界のマルチモーダルエージェント、自動運転の理解、そして具現化 AI(Embodied AI)のシナリオにとって重要な基盤を築きます。
Qwen3.7-Plus での構築
Qwen3.7-Plus は現在、Alibaba Cloud Model Studio を通じて利用可能です。
API の使用法
マルチモーダルモデルとして、Qwen3.7-Plus はテキストと画像/動画の両方の入力を接受します。また、preserve_thinking 機能もサポートしており、これはメッセージ内のすべての先行するターンからの思考内容を保持するものであり、エージェントタスクには推奨されます。
Alibaba Cloud Model Studio
Alibaba Cloud Model Studio は、チャット完了および OpenAI の仕様に準拠したレスポンス API を含む業界標準プロトコルをサポートしています。
環境変数:
DASHSCOPE_API_KEY: https://modelstudio.console.alibabacloud.com から取得した API キー
DASHSCOPE_BASE_URL: (オプション) 互換モード API のベース URL。
- 北京:https://dashscope.aliyuncs.com/compatible-mode/v1
- シンガポール:https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- 米国(バージニア): https://dashscope-us.aliyuncs.com/compatible-mode/v1
詳細については、API ドキュメントをご覧ください。
多モーダル・インタラクティブ・ハイブリッドエージェント
Qwen3.7-Plus は、現実世界のタスクのクローズドループ実行を目的とした、多モーダル・ハイブリッドエージェント機能を備えています。これは単に視覚インターフェースを理解し、画面内のコンテンツを認識するだけでなく、GUI(グラフィカルユーザーインターフェース)操作と CLI(コマンドラインインターフェース)操作の両方を実行でき、さらに環境フィードバックを活用してコード生成、アプリケーション操作、テスト、検証、そして反復的な最適化を行うことができます。"見て、考え、書き、実行し、検証する"という一連のワークフローを統合されたエージェントループに組み込むことで、初期理解から最終納品に至るまで、複雑なソフトウェアタスクのエンドツーエンド自動化を実現します。
Qwen3.7 を基盤としたハイブリッドエージェントインテリジェンスシステムを構築し、大規模言語モデルのコード生成能力と GUI 自動化実行を深く統合することで、要件分析からバージョン反復に至るまで、アプリ開発の全チェーンを実現しました。このエージェントは 11 時間以上連続かつ安定して稼働し、英語語彙学習アプリの完全な R&D サイクルを完全に自動化しました。生成されたコード量は 10,000 行を超え、エージェント呼び出し回数は 1,000 回を超えました。これはソフトウェア開発ライフサイクル全体にわたる中核段階を網羅しており、要件文書の作成、自動コーディング、インストールとデプロイ、テストケースの作成、GUI ベースの自動化テスト、マルチシナリオ並列化テスト、自動的な製品ドキュメントの更新、自律的なバージョン進化が含まれます。
プロフェッショナル向けデスクトップアプリケーションのシナリオにおいて、ハイブリッドエージェントシステムはモデルのGUI知覚機能とコード生成能力を深く統合し、プロフェッショナルなデスクトップアプリケーションの一括自動複製を実現します。このエージェントは、要件理解から納品検証までのフルパイプラインを自律的に完了し、ネイティブmacOS Stocksアプリの高忠実度再現を行いました:ネイティブアプリとの自律的なインタラクションを通じてUIレイアウトと機能詳細を理解し、インタラクション記録からSwiftUIソースコードを生成し、LongBridgeのリアルワールド市場APIと統合して生データを提供し、自動的にコンパイルして複製されたアプリを起動し、最終的に10件の機能的検証テストを自律的に実施しました。これには、リアルタイム株価情報の読み込み、銘柄選択と切り替え、複数期間表示の切替、検索フィルタリング、詳細統計パネルの表示が含まれますが、すべてに合格しました。納品されたアプリケーションは、ネイティブStocksアプリのダークテーマ、分割ビューレイアウト、リアルタイム市場データ、そして完全なインタラクション性を忠実に再現しています。
Visual Agent
Qwen3.7-Plus は強力なビジュアルエージェントとして機能し、視覚的理解とツール利用を組み合わせることで複雑な視覚タスクを解決します。コードインタプリタとの統合を通じて、画像内の違いを特定したり、欠落したパズルピースを完成させたり、スライドブロックパズルや迷路を解いたり、ジグソーパズルを組み立てたりすることができ、これらはすべて自律的にコードを生成・実行することによって実現されます。検索機能の強化により、ウェブ上の知識を活用して現実世界の視覚的質問に推論し、単一画像、複数画像、および動画入力に対するマルチモーダルな回答を提供することも可能です。
以下では、Qwen3.7-Plus のマルチモーダルエージェント能力を示すいくつかの例を紹介しています。
Multimodal Reasoning
マルチモーダル推論においては、モデルの問題解決能力をさらに高めるためにコード実行を導入しました。モデルはまず視覚入力内の構造と制約を理解し、次に視覚タスクを計算可能な表現に変換し、最後に回答を解決・検索・検証するためにコードを記述して実行します。
違いを探すタスク、ブロックの欠落部分の完成、スライドブロックパズル、迷路、ジグソーパズルなどのタスクでは、モデルは視覚コンテンツの認識を超えた能力が必要です。空間モデリング、経路探索、状態シミュレーション、結果検証も行う必要があります。これらの例は、Qwen3.7-Plus が視覚的知覚からプログラムによる問題解決へと移行する能力を強調しています。
Multimodal Search
検索拡張型視覚質問応答において、Qwen3.7-Plus は画像、動画、または複数枚の画像入力とウェブ検索を組み合わせることで、現実世界の知識に関する質問に回答できます。モデルはまず視覚入力から主要なエンティティ(対象物)、シーン、テキスト、文脈の手がかりを抽出し、次に検索を通じて外部知識を取得し、最後に視覚的証拠と取得した情報を統合して回答を生成します。
これにより、モデルは場所の特定、イベントの背景理解、製品やオブジェクトの分析、最新の知識に依存する視覚質問への回答など、幅広いオープンワールド型の質問に対応できるようになります。
Visual Coding
Qwen3.7-Plus は強力なビジョンからコードへの変換能力を示します。画像、動画、UI スクリーンショット、デザインリファレンスを実行可能なコードに変換することができ、SVG の再構築から完全なウェブページの生成に至るまで、広範なシナリオをカバーしています。
Image/Video to SVG
画像・動画から SVG への変換タスクでは、モデルは視覚コンテンツの幾何構造、色、レイアウト、階層関係、動的変化を理解し、これらの要素をコード上で正確に表現する必要があります。これには視覚的理解だけでなく、構造化された表現とコード生成能力が求められます。
アイコン、イラスト、アニメーション、グラフィックデザイン、情報可視化において、この機能は視覚リファレンスを編集可能なコード資産に変換するコストを大幅に削減できます。

画像に基づいて SVG コードを生成してください。


Qwen3.7
ビジョン駆動型ウェブデザイン
ビジョン駆動型ウェブデザインにおいて、Qwen3.7-Plus は視覚的な参照資料、動画素材、あるいはデザインの意図に基づいて、完全なインタラクティブな Web ページを生成することができます。また、このモデルは生成ツールを使用して、Web ページ設計のためのアセット(資産)も作成可能です。
これは単に参照ページの視覚的スタイルを再現するだけでなく、レイアウトの構成、フロントエンドコードの記述、インタラクションロジックの処理、そしてマルチモーダルアセットの最終ページへの統合まで行います。これにより、「参照画像が与えられた場合」から「実行可能な Web プロトタイプを生成する」という段階へと移行し、Qwen3.7-Plus がビジュアルコーディングアシスタントとして持つ可能性を示しています。
ブラウザエージェント
Qwen3.7-Plus を基盤とするブラウザエージェントは、Chrome に埋め込まれたブラウザ拡張機能である「Qwen for Chrome」を通じてデモンストレーションおよび記録されています。ユーザーはブラウザのサイドバーから直接 Qwen と対話することができ、承認を得ることでエージェントモードに切り替えることができます。このモードでは、Qwen は現在の Web ページを認識し、ユーザーのタスクを理解し、次のステップを計画して、実際のブラウザ環境内でクリック、入力、ナビゲーション、設定、検証などを直接実行するブラウザエージェントとして動作します。
この設定により、Qwen3.7 ブラウザエージェントはページ理解、タスク計画、GUI 自動化を統合し、実際の Web ベースの作業環境内で動作します。非技術的なユーザーからの最も安価な ECS サーバーを購入するというリクエストに対し、エージェントはクラウドコンソールをナビゲートし、インスタンスオプションを比較して低コストの設定を選択し、イメージ、ストレージ、セキュリティグループ、注文詳細を設定します。さらに、価格の変動や在庫の不足、購入制限が生じた際には戦略を動的に調整します。続くタスクでは、エージェントはさらにインスタンスのスケーリングと保守を担当し、シャットダウン、設定更新、ディスク拡張、サービス復旧、最終検証を完了させます。このシナリオはサーバー購入からアップグレードまでの実際のクラウドワークフローを網羅しており、複雑なコンソールベースのプロセスを、継続的で効率的かつ実行可能なブラウザ自動化タスクへと変換します。
現実世界の知覚と推論
Qwen3.7-Plus はまた、現実世界の知覚と多モーダル推論においても強力なパフォーマンスを示します。現実世界のシーンは、標準的な視覚的質問応答よりもはるかに複雑であることが多く、物体の遮蔽、雑然とした背景、小さなオブジェクト、複数のエンティティ間の関係、画像間比較、暗黙的な物理的常識などが関与することがあります。
これらの質問に確実に回答するためには、モデルはまず視覚的詳細を堅牢に特定し、それらを空間関係、常識知識、論理的推論と組み合わせる必要があります。
コーディングアシスタント
Qwen3.7-Plus は、人気のエージェントフレームワークやコーディングアシスタントとシームレスに統合されます:
Claude Code
Qwen APIs は Anthropic API プロトコルをサポートしており、Claude Code と直接利用可能です:**
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.7-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
OpenClaw
Model Studio を介して OpenClaw に接続します:
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_api_key>
openclaw dashboard
~/.openclaw/openclaw.json を設定します:
{
"models": {
"mode": "merge",
"providers": {
"modelstudio": {
"baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
"apiKey": "DASHSCOPE_API_KEY",
"api": "openai-completions",
"models": [
{
"id": "qwen3.7-plus",
"name": "qwen3.7-plus",
"reasoning": true,
"input": ["text"],
"contextWindow": 1000000,
"maxTokens": 65536
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "modelstudio/qwen3.7-plus"
}
}
}
}
Qwen Code
Qwen Code は Qwen シリーズに深く最適化されています:
npm install -g @qwen-code/qwen-code@latest
qwen
まとめ
Qwen3.7-Plus は、視覚理解と言語推論を統合した多機能なエージェント基盤であり、私たちが持つ最も能力の高いマルチモーダルエージェントモデルです。これはリアルワールドのシーンを知覚し、グラフィカルインターフェースを操作し、視覚的な参照からコードを記述し、GUI および CLI の両環境にわたってエンドツーエンドのタスクを完了する、マルチモーダルなインタラクティブハイブリッドエージェントとして動作します。多機能なコーディングエージェントおよび生産性アシスタントとして、フロントエンドのプロトタイピングから複雑なソフトウェアエンジニアリング、そして多段階のワークフロー自動化に至るまで、あらゆる種類のタスクを処理します。また、Claude Code、OpenClaw、Qwen Code、あるいはその他のフレームワークを通じてデプロイされた場合でも、エージェントのスキャフォールド(基盤構造)にわたって汎化し、一貫したパフォーマンスを発揮します。コミュニティからのフィードバックをお待ちしており、皆様が何を作り出すかを楽しみにしています。
引用
@misc{qwen37plus, title = {{Qwen3.7-Plus}: Multimodal Agent Intelligence}, url = {https://qwen.ai/blog?id=qwen3.7-plus}, author = {{Qwen Team}}, month = {May}, year = {2026}}
原文を表示

Today we introduce Qwen3.7-Plus — a multimodal agent model that unifies vision and language into a single, versatile agent foundation. Building on Qwen3.7’s strong text backbone, Qwen3.7-Plus delivers a comprehensive upgrade in vision-language capabilities while retaining full agentic strength in coding, tool use, and productivity workflows.
What sets Qwen3.7-Plus apart is its ability to operate as a multimodal interactive hybrid agent. It perceives real-world scenes, reads screens and operates GUIs, writes code from visual references, navigates mobile apps end-to-end, and answers visual questions grounded in web knowledge — seamlessly blending GUI and CLI interactions within a single agent loop. As a versatile coding agent and productivity assistant, it handles the full spectrum from frontend prototyping to complex software engineering and multi-step workflow automation with full-modality input. It generalizes across agent scaffolds, performing consistently whether deployed through Claude Code, OpenClaw, Qwen Code, or other frameworks.
- Qwen3.7-Plus — now available via
Alibaba Cloud Model Studio:Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks
- Versatile coding agent & productivity assistant with full-modality input
- Visual Agent: perception, reasoning, grounding, and search-augmented QA
- Cross-harness generalization across diverse agent frameworks
- Call via API on Alibaba Cloud Model Studio.
Performance

Text Benchmarks
Opus-4.6 MaxK2.6 ThinkingGLM-5.1 ThinkingDeepSeek-V4-Pro MaxQwen3.6-PlusQwen3.7-Plus
Coding Agent
Terminal Bench 2.0-Terminus65.466.763.567.961.670.3
SWE-Verified80.880.2--80.678.877.7
SWE-Pro57.359.558.859.056.657.6
SWE-Multilingual77.576.7--76.273.875.8
NL2repo47.642.841.035.534.441.1
SciCode51.952.245.1--41.451.3
QwenWebDev1617--1564157015001536
QwenSVG154113251605150614321588
General Agent
Qwenclaw65.554.758.759.257.261.8
CoWorkBench68.258.266.066.364.565.1
ClawEval70.461.562.758.457.162.7
Skillsbench--56.253.152.345.754.9
BFCL-V476.771.370.970.668.972.9
MCP-Mark56.755.957.557.148.258.7
MCP-Atlas75.866.671.873.674.173.2
Vitabench--39.145.151.942.845.6
Deep-Planning58.942.334.144.640.962.3
SpreadSheetBench-v189.384.585.284.980.286.3
Kernel Bench L32.63/98%1.41/80%2.00/78%1.07/54%1.03/48%2.06/98%
QwenWorldBench56.150.950.252.347.662.1
STEM & Reasoning
GPQA Diamond91.390.586.290.190.490.3
HLE40.036.434.737.728.834.7
LiveCodeBench88.889.6--93.587.189.6
HMMT 2026 Feb96.292.789.495.287.892.9
IMOAnswerBench75.386.083.889.883.886.0
CritPT12.68.04.612.92.96.0
Apex34.524.011.538.38.822.7
General Capability
MMLU-Pro89.787.186.387.588.588.5
MMLU-Redux95.295.394.394.894.594.5
SuperGPQA72.571.368.069.971.671.4
IFEval91.994.594.591.994.394.6
IFBench62.576.076.077.074.279.1
MRCR-v2 128k84.063.162.074.485.991.7
Multilingualism
WMT24++82.781.681.882.284.384.6
MAXIFE81.387.787.788.988.288.8
MMMLU90.687.587.287.989.589.0
MMLU-ProX86.183.783.983.984.785.4
NOVA-6359.156.754.652.857.958.8
INCLUDE87.484.284.386.185.183.0
Global PIQA91.289.289.590.589.890.3
PolyMATH80.282.767.672.077.484.0
- Terminal-Bench 2.0: Harbor/Terminus-2 harness; 5h timeout, 12 CPU/24 GB RAM; temp=1.0, top_p=0.95, top_k=20, max_tokens=80K, 256K ctx; avg of 5 runs. All experiments prepend a <think> token at each turn, allowing the model to decide whether to engage extended thinking.*** SWE-Bench Series: Internal agent scaffold (bash + file-edit tools); temp=1.0, top_p=0.95, 200K context window.
- SWE-bench Pro: Problematic tasks corrected and all baselines evaluated on the refined benchmark.
- QwenClawBench: a real-user-distribution Claw agent benchmark; open-source: https://github.com/SKYLENAGE-AI/QwenClawBench.
- CoWorkBench: an internal cowork benchmark; long-horizon tasks across computer science, finance, law, medical, and other productivity domains.
- SkillsBench: Evaluated via OpenCode on 78 tasks (excluding 9 external API-dependent tasks); avg of 5 runs.
- MCP-Mark: GitHub MCP v0.30.3; Playwright responses truncated at 32K tokens.
- MCP-Atlas: Public set score; gemini-2.5-pro judger.
- VITA-Bench: Avg subdomain scores; using claude-4.5-sonnet as judger, as the older official judgers are no longer available.
- Kernel Bench L3: Metrics reported: median of per-problem speedup over PyTorch eager reference / fraction of problems faster than torch.compile, across 50 problems. Each test sample runs in an isolated Docker container with one H100 80GB GPU, with internet access restricted to the CUTLASS codebase and official CUDA documentation, limited to 500 tool calls with early stopping after 100 non-improving turns. GPT-5.4 (xhigh) is applied to detect potential hacking behaviors. CUPTI is used for kernel-level timing.
- Reasoning scenarios: Recommended system prompt: "Reasoning effort is set to xhigh. Please think carefully through the task, validate key assumptions, consider plausible alternatives, and prioritize correctness, consistency, and clarity in the final answer."
- WMT24++: Harder WMT24 subset; avg scores on 55 langs via XCOMET-XXL.
- MAXIFE: Accuracy on EN + multilingual prompts (23 settings total).
- MMLU-ProX: Avg accuracy across 29 languages.
- Empty cells (--) indicate scores not yet available.
Qwen3.7-Plus delivers competitive text performance that approaches Max-tier models across the board. In coding agents, it performs strongly on Terminal Bench 2.0, SWE-bench series, and SciCode, handling both real-world software engineering and scientific programming tasks effectively. In general-purpose agents, it demonstrates robust tool-use and planning capabilities across MCP-Mark, Deep-Planning, and Kernel Bench L3, showing particular strength in complex multi-step planning and GPU kernel optimization. Its reasoning performance on GPQA Diamond, HMMT, and IMOAnswerBench places it among the strongest Plus-tier models on hard STEM benchmarks. In instruction following and multilingual tasks**, it delivers consistent quality across IFBench, WMT24++, and PolyMATH, with strong coverage across diverse languages.
Multimodal Benchmarks
GPT-5.4 (xhigh)Opus-4.6 MaxGemini-3.1 ProQwen3.6-PlusQwen3.7-Plus
Multimodal Reasoning
MMMU-Pro81.273.981.878.879.0
MathVision91.065.587.488.090.3
BabyVision53.112.655.937.470.4 / 64.7
CharXiv(RQ)84.566.084.481.585.9 / 84.4
HiPhO65.040.885.480.484.1
ERQA67.840.868.065.769.8
VisFactor40.824.439.836.042.8
MedXpertQA-MM77.364.480.768.771.0
Visual Agent & Coding
ScreenSpot Pro67.449.568.168.279.0
OSWorld-Verified75.072.7--62.573.3
AndroidWorld--62.070.767.281.0
QwenVision2Code1884.01518.01632.01522.01772.0
ClawEval-MM54.454.745.749.155.7
Multimodal Search & Knowledge QA
SimpleVQA69.479.676.969.481.7
WorldVQA45.965.456.133.661.1
MMSearchPlus19.738.942.019.641.4
BC-VL48.151.549.926.151.1
MMBC18.846.328.218.346.3
General Visual Understanding
RealWorldQA83.873.983.585.486.9
CountQA58.432.572.871.777.0
OmniDocBench1.585.586.690.091.291.4
OCR-Bench-V2(EN)59.154.364.667.070.7
OCR-Bench-V2(ZH)57.754.958.263.667.1
ODinW13------51.851.1
Autonomous Driving
LingoQA78.277.666.876.083.4
Ego3D-Bench↓6.98.110.46.15.9
SURDS64.658.364.073.277.2
VLADBench77.148.073.175.677.2
Video Understanding
VideoMME (w/ sub.)89.586.188.487.888.0
VideoMMMU82.485.285.384.085.4
MLVU (M-Avg)86.181.784.786.787.4
TVBench82.569.873.076.078.2
LVBench77.463.075.174.876.2
- Multimodal Search & Knowledge QA: All models evaluated with search augmentation enabled.*** BabyVision and CharXiv(RQ): Scores are reported as "with CI / without CI".
- VideoMME (w/ sub.): Scores are reported with subtitles.
- BC-VL and MMBC: Scores are reported with the recommended presence penalty 1.5 in BC tasks.
- ScreenSpot Pro and OSWorld-Verified: Scores are reported with "enable_thinking=False".
- Empty cells (--) indicate the scores are not yet available.
Qwen3.7-Plus’s multimodal improvements are not limited to isolated gains in visual understanding. Instead, they reflect a systematic enhancement of the core capabilities required by multimodal agents: understanding complex visual inputs, reasoning over visual information, using tools to solve problems, and ultimately executing tasks in code or GUI environments**.
In Multimodal Reasoning, Qwen3.7-Plus delivers strong performance on challenging visual reasoning benchmarks such as BabyVision, MathVision, HiPhO, ERQA, and VisFactor. These results demonstrate the model’s ability to integrate fine-grained visual perception, spatial relationships, physical commonsense, and multi-step logical reasoning. In particular, its significant improvement on BabyVision over Qwen3.6-Plus suggests stronger generalization on tasks that are closer to early human visual cognition and spatial reasoning.
In Visual Agent & Coding, Qwen3.7-Plus shows substantial gains on ScreenSpot Pro, OSWorld-Verified, and AndroidWorld. This indicates that the model can not only recognize screen content, but also localize key UI elements, understand task intent, and complete multi-step interactions. On QwenVision2Code, the model also demonstrates strong vision-to-code generation capabilities, turning images, videos, and design references into executable code. These capabilities form the foundation for multimodal agents to move from “understanding interfaces” to “operating interfaces” and even “building interfaces.”
In Multimodal Search & Knowledge QA, Qwen3.7-Plus achieves clear improvements on SimpleVQA, WorldVQA, MMSearchPlus, BC-VL, and MMBC. The model can combine visual inputs with external knowledge retrieval to answer questions that cannot be solved from image content alone. This makes it better suited for real-world tasks, where users do not simply ask “what is in the image,” but expect the model to combine visual evidence, commonsense, and up-to-date knowledge to provide reliable answers.
In General Visual Understanding, Qwen3.7-Plus maintains strong performance across real-world scenes, document parsing, chart understanding, OCR, counting, and spatial localization. It performs strongly on tasks such as RealWorldQA, CountQA, OmniDocBench, CharXiv, and OCR-Bench-V2. These capabilities are essential for robustly handling real business inputs, including screenshots, receipts, tables, reports, posters, product images, and complex UI pages.
Beyond images, Qwen3.7-Plus further strengthens video understanding and driving-scene understanding. On video benchmarks such as VideoMMMU, MLVU, TVBench, and LVBench, it can reason over events, actions, temporal dynamics, and semantic relationships in both short and long videos. On driving-related evaluations such as LingoQA, Ego3D-Bench, SURDS, and VLADBench, it also demonstrates strong understanding of dynamic scenes, traffic participants, and spatial relationships. These capabilities lay an important foundation for real-world multimodal agents, autonomous driving understanding, and embodied AI scenarios.
Build with Qwen3.7-Plus
Qwen3.7-Plus is now available through Alibaba Cloud Model Studio.
API Usage
As a multimodal model, Qwen3.7-Plus accepts both text and image/video inputs. It also supports the preserve_thinking feature: preserving thinking content from all preceding turns in messages, which is recommended for agentic tasks.
Alibaba Cloud Model Studio
Alibaba Cloud Model Studio supports industry-standard protocols, including chat completions and responses APIs compatible with OpenAI’s specification.
"""
Environment variables:
DASHSCOPE_API_KEY: Your API Key from https://modelstudio.console.alibabacloud.com
DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
- Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
- Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""from openai import OpenAIimport osapi_key = os.environ.get("DASHSCOPE_API_KEY")if not api_key: raise ValueError( "DASHSCOPE_API_KEY is required. " "Set it via: export DASHSCOPE_API_KEY='your-api-key'" )client = OpenAI( api_key=api_key, base_url=os.environ.get( "DASHSCOPE_BASE_URL", "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ),)messages = [{"role": "user", "content": "Write a Python function to merge two sorted linked lists."}]completion = client.chat.completions.create( model="qwen3.7-plus", messages=messages, extra_body={ "enable_thinking": True, # "preserve_thinking": True, }, stream=True)reasoning_content = ""answer_content = ""is_answering = Falseprint("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")for chunk in completion: if not chunk.choices: print("\nUsage:") print(chunk.usage) continue delta = chunk.choices[0].delta if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None: if not is_answering: print(delta.reasoning_content, end="", flush=True) reasoning_content += delta.reasoning_content if hasattr(delta, "content") and delta.content: if not is_answering: print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n") is_answering = True print(delta.content, end="", flush=True) answer_content += delta.contentFor more information, please visit the API doc.
Multimodal Interactive Hybrid Agent
Qwen3.7-Plus features multimodal hybrid-agent capabilities designed for closed-loop execution of real-world tasks. It can not only understand visual interfaces, perceive on-screen content, and perform both GUI interactions and CLI operations, but also leverage environmental feedback for code generation, application manipulation, testing, validation, and iterative optimization. By integrating the full workflow of “see, think, write, act, and verify” into a unified agent loop, it enables end-to-end automation of complex software tasks from initial understanding to final delivery.
We built the Hybrid-Agent intelligent agent system based on Qwen3.7, deeply integrating the code generation capabilities of large language models with GUI automation execution, achieving full-chain APP development from requirement analysis to version iteration. The Agent operated continuously and stably for over 11 hours, fully automating the complete R&D cycle of an English vocabulary learning APP. It generated more than 10,000+ lines of code, triggered over 1,000+ Agent calls, and covered core stages across the entire software development lifecycle: requirement document generation, automated coding, installation and deployment, test case creation, GUI-based automated testing, multi-scenario parallelized testing, automatic product documentation updates, and autonomous version evolution.
For professional desktop application scenarios, the Hybrid-Agent system deeply integrates the model’s GUI perception and code generation capabilities to enable one-click autonomous replication of professional desktop applications. The Agent autonomously completed a high-fidelity recreation of the native macOS Stocks app, covering the full pipeline from requirement understanding to delivery validation: autonomously interacting with the native app to comprehend UI layout and feature details, generating SwiftUI source code from interaction records, integrating with the LongBridge real-world market API for live data, automatically compiling and launching the recreated app, and finally conducting 10 functional verification tests autonomously – including real-time quote loading, stock selection and switching, multi-period view toggling, search filtering, and detailed stats panel display – all passed. The delivered application faithfully reproduces the native Stocks app’s dark theme, split-view layout, real-time market data, and full interactivity.
Visual Agent
Qwen3.7-Plus can serve as a powerful visual agent, combining visual understanding with tool use to solve complex visual tasks. Through integration with a code interpreter, it can analyze images to spot differences, complete missing puzzle pieces, solve sliding-block puzzles, navigate mazes, and assemble jigsaw puzzles—all by autonomously generating and executing code. With search augmentation, it can also leverage web knowledge to reason over real-world visual questions and provide multimodal answers across single-image, multi-image, and video inputs.
Below, we showcase several examples that demonstrate the multimodal agent capabilities of Qwen3.7-Plus.
Multimodal Reasoning
For multimodal reasoning, we introduce code execution to further enhance the model’s problem-solving ability. The model first understands the structure and constraints in the visual input, then transforms the visual task into a computable representation, and finally writes and executes code to solve, search, or verify the answer.
In tasks such as spot-the-difference, missing-block completion, sliding-block puzzles, mazes, and jigsaw puzzles, the model needs to go beyond recognizing visual content. It must also perform spatial modeling, path search, state simulation, and result verification. These examples highlight Qwen3.7-Plus’s ability to move from visual perception to programmatic problem solving.
Multimodal Search
In search-augmented visual question answering, Qwen3.7-Plus can combine image, video, or multi-image inputs with web search to answer real-world knowledge questions. The model first extracts key entities, scenes, text, and contextual clues from the visual input, then retrieves external knowledge through search, and finally synthesizes visual evidence with retrieved information to produce the answer.
This enables the model to handle a wide range of open-world questions, such as identifying locations, understanding the background of events, analyzing products or objects, and answering visual questions that depend on up-to-date knowledge.
Visual Coding
Qwen3.7-Plus demonstrates strong vision-to-code generation capabilities. It can transform images, videos, UI screenshots, and design references into executable code, covering a broad range of scenarios from SVG reconstruction to full webpage generation.
Image/Video to SVG
In image/video-to-SVG tasks, the model needs to understand geometric structures, colors, layouts, hierarchical relationships, and dynamic changes in visual content, and then express these elements precisely in code. This requires not only visual understanding, but also structured representation and code generation.
For icons, illustrations, animations, graphic design, and information visualization, this capability can significantly reduce the cost of turning visual references into editable code assets.

Please generate svg code according to the image.


Qwen3.7
Vision-Driven Web Design
In vision-driven web design, Qwen3.7-Plus can generate complete interactive webpages based on visual references, video materials, or design intent. The model can also use generation tools to produce assets for webpage design.
It not only reproduces the visual style of a reference page, but also organizes layout, writes frontend code, handles interaction logic, and integrates multimodal assets into the final page. This demonstrates the potential of Qwen3.7-Plus as a visual coding assistant: moving from “given a reference image” to “generate a runnable web prototype.”
Browser Agent
Built on Qwen3.7-Plus, the browser Agent is demonstrated and recorded through Qwen for Chrome, a browser extension embedded in Chrome. Users can interact with Qwen directly from the browser sidebar and, with authorization, switch it into Agent mode. In this mode, Qwen can perceive the current webpage, understand the user’s task, plan the next steps, and operate as a Browser Agent to perform clicks, typing, navigation, configuration, and verification directly in the real browser environment.
With this setup, the Qwen3.7 browser Agent integrates page understanding, task planning, and GUI automation to operate inside real web-based work environments. Given a non-technical user’s request to purchase the cheapest ECS server, the Agent can navigate the cloud console, compare instance options, select a low-cost configuration, set up images, storage, security groups, and order details, while dynamically adjusting its strategy when prices change, inventory is limited, or purchase constraints arise. In the follow-up task, the Agent further handles instance scaling and maintenance, completing shutdown, configuration updates, disk expansion, service recovery, and final verification. This scenario covers the real cloud workflow from server purchase to upgrade, turning a complex console-based process into a continuous, efficient, and deliverable browser automation task.
Real-world Perception & Reasoning
Qwen3.7-Plus also shows strong performance in real-world perception and multimodal reasoning. Real-world scenes are often much more complex than standard visual question answering. They may involve occlusion, cluttered backgrounds, small objects, relationships among multiple entities, cross-image comparison, and implicit physical commonsense.
To answer these questions reliably, the model must first identify visual details robustly, then combine them with spatial relationships, commonsense knowledge, and logical reasoning.
Coding Assistants
Qwen3.7-Plus integrates seamlessly with popular agent frameworks and coding assistants:
Claude Code
Qwen APIs support the Anthropic API protocol, enabling direct use with Claude Code:
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.7-plus"export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-plus"export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
OpenClaw
Connect to OpenClaw via Model Studio:
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_api_key>
openclaw dashboard
Configure ~/.openclaw/openclaw.json:
{ "models": { "mode": "merge", "providers": { "modelstudio": { "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", "apiKey": "DASHSCOPE_API_KEY", "api": "openai-completions", "models": [ { "id": "qwen3.7-plus", "name": "qwen3.7-plus", "reasoning": true, "input": ["text"], "contextWindow": 1000000, "maxTokens": 65536 } ] } } }, "agents": { "defaults": { "model": { "primary": "modelstudio/qwen3.7-plus" } } }}Qwen Code
Qwen Code is deeply optimized for the Qwen series:
npm install -g @qwen-code/qwen-code@latest
qwen
Summary
Qwen3.7-Plus is our most capable multimodal agent model, unifying vision understanding and language reasoning into a versatile agent foundation. It operates as a multimodal interactive hybrid agent — perceiving real-world scenes, operating graphical interfaces, writing code from visual references, and completing end-to-end tasks across both GUI and CLI environments. As a versatile coding agent and productivity assistant, it handles the full range of tasks from frontend prototyping to complex software engineering and multi-step workflow automation. It generalizes across agent scaffolds, performing consistently whether deployed through Claude Code, OpenClaw, Qwen Code, or other frameworks. We welcome community feedback and look forward to seeing what you build.
Citation
@misc{qwen37plus, title = {{Qwen3.7-Plus}: Multimodal Agent Intelligence}, url = {https://qwen.ai/blog?id=qwen3.7-plus}, author = {{Qwen Team}}, month = {May}, year = {2026}}関連記事
LWiAIポッドキャスト第236回 - GPT 5.4、Gemini 3.1 Flash Lite、サプライチェーンリスク
OpenAIがGPT-5.4 Proをリリースし、100万トークンのコンテキストウィンドウ、応答中の軌道修正機能、コンピューター使用能力を搭載。GoogleはGemini 3.1 Flash Liteを発表し、コスト削減と高速化を実現。サプライチェーンリスクに関する議論も行った。
EVA-Bench Data 2.0:3 ドメイン、121 ツール、213 シナリオ(9 分読了)
TLDR AI が公開した EVA-Bench データセットの第 2 版は、3 つのドメインにわたる 121 のツールと 213 のシナリオを含む評価データを提供し、AI ツール利用能力の評価基準を強化します。
iPhone のメッセージアプリにサードパーティ製 AI エージェントが導入される
Apple が iPhone のメッセージアプリでサードパーティ製 AI サービス「Poke」の利用を承認し、ユーザーは iMessage 内で直接チャットして各種タスクを実行できるようになった。ただし、需要の高さにより応答速度に遅延が生じる事例も報告されている。