対話モデル:人間と AI の協調のためのスケーラブルなアプローチ
Thinking Machines Lab は、音声・動画・テキストを横断するリアルタイムな人間-AI協働を実現する「Interaction Models」の研究プレビューを発表し、従来のターンベースの制限を解消するスケーラブルなアプローチを示した。
キーポイント
マルチストリーム設計による即時応答性
音声、動画、テキストの複数の入力ストリームを同時に処理する設計で、従来のターンベース(交互に話す)モデルではなく、常時双方向のやり取りを可能にする。
ゼロからの学習とスケーラビリティ
既存モデルの微調整ではなく、新しいタスクに適応するために最初からトレーニングされたモデルであり、様々なドメインで拡張可能なアプローチを採用している。
人間-AI協働のパラダイムシフト
従来の「指示→回答」の一方通行ではなく、人間の行動とAIの応答が常時同期する新しいインタラクションモデルを確立し、実用性を高めている。
影響分析・編集コメントを表示
影響分析
この発表は、AI と人間のインタラクションの根本的な構造を変える可能性があり、チャットボットのような静的な対話から、ライブストリーミングやリアルタイム支援ツールのような動的な協働へとシフトする契機となる。特にマルチモーダル処理と即時応答性の向上は、医療、教育、エンターテインメントなどの分野でより自然で高度なAI活用を可能にする。
編集コメント
従来の AI 対話の壁を破る「常時双方向」モデルの実現は、次世代 UI の基盤となる重要な一歩であり、実用化への期待が高まります。
本日、インタラクションモデルの研究プレビューを発表します。これは外部の足場を介するのではなく、ネイティブにインタラクションを処理するモデルです。私たちは、対話性が知能と並行して拡張されるべきだと考えています。AI との協働方法は後回しにしてはなりません。インタラクションモデルにより、人々は互いに自然に行うように AI と協働できます——継続的に音声、映像、テキストを取り込み、リアルタイムで思考し、応答し、行動します。
インタラクションモデルをゼロから訓練します。リアルタイムでの応答性を確保するため、マルチストリーム・マイクロターン設計を採用しています。本研究プレビューは、質的に新しい対話能力と、知能と応答性の両面で最先端の組み合わせパフォーマンスを示しています。
協働のボトルネック#
AI ラボでは、AI が自律的に作業できる能力をモデルの最も重要な機能とみなす傾向があります。Kwa, T., West, B., Becker, J., et al. Measuring AI Ability to Complete Long Tasks. METR, 2025。その結果、現在のモデルやインターフェースは、人間がループ内(in the loop)に留まることを最適化していません。最近のフロンティアモデルカードには、「重要なのは、対話的で同期型の「キーボードを直接操作する」パターンで使用した場合、モデルの利点が必ずしも明確ではないという点です。このように使用すると、一部のユーザーは [当社のモデル] が遅すぎると感じ、期待されるほどの価値を実感できませんでした。自律的な長期実行型エージェント(agent)の方が、モデルのコーディング能力を引き出すのに優れています。」と記載されています。
自律型インターフェースは価値がありますが、実際の業務の多くでは、ユーザーが事前に要件を完全に指定して完了することはできず、人間がループ内にとどまり、その過程で明確化やフィードバックを行う協働プロセスによって良い結果が得られます。しかし、人間が排除されるのは仕事に人間が必要ないからではなく、インターフェースに人間の余地がないからです。人々が最も効果的なのは、他の人と協力するのと同じように AI と協力できる場合です:メッセージを送受信し、話し合い、聞き取り、視覚的に共有し、必要に応じて介入することであり、モデル側も同様に行動する必要があります。
コミュニケーションは以下の点で向上します:(a) 共在性(Copresence):人々は他者が対話している対象と相互作用できます;(b) 同時性(Contemporality):人々は他者によって生成された情報を即時フィードバックとともに受け取ります;(c) 並行性(Simultaneity):人々は同時に情報を受け取り、生成します。Clark H. and Brennan S., "Grounding in Communication," in Perspectives on Socially Shared Cognition, 1991.
口承の参加型性質(対照的に客観的距離を置いた性質)の消滅について。今日のコンピュータや知識作業の媒体は、同様の対話的性質を持っています。Ong, W. J.. In *Orality and Literacy: The technologizing of the word*, 1982.
これを解決するには、現在のモデルに対するターンベースのインターフェースを超えていく必要があります。今日のモデルは、単一のスレッドの中で現実を経験します。ここで言及しているのは、商用の汎用フロンティアモデルです。Moshi、PersonaPlex、Nemotron VoiceChat、GPT-Realtime-Translate といった小規模または専門的なモデルとは異なります。ユーザーがタイピングや発話を完了するまで、モデルは待機しており、ユーザーが何をしているか、どのようにしているかを認識していません。また、モデルが生成を完了するまで、その知覚は凍結され、完了するか中断されるまで新しい情報を取得できません。これにより、人間の知識や「メティス(Metis)の重視する実践的知識、経験、確率的推論…は、不確実性があまりにも甚大で、我々は(経験に基づく)直感を信頼し、手探りで進む必要があるような複雑な物質的・社会的タスクにおいて最も適切な推論様式である」とスコット、J. C: メティス。『国家のように見る:人間の状況改善を目的とした特定の計画がいかにして失敗したか』、1998 年、「少しの考察により、非常に重要だが未整理された知識…すなわち、時間と場所の具体的な状況に関する知識が存在することが示される」とヘイエク、F. A.「社会における知識の利用」。『アメリカ経済学会誌』、1945 年。といった人間の意図や判断がモデルにどの程度伝わるか、またモデルの作業を人間がどの程度理解できるかが制限される、狭いチャネルが生み出されます。対面ではなくメールで重要な意見の相違を解決しようとする状況を想像してみてください。
Thinking Machines では、あらゆるモダリティにわたって AI をリアルタイムでインタラクティブにすることで、この帯域幅のボトルネックを解決できると信じています。これにより、AI インターフェースが人間に合わせて機能し、人間が AI インターフェースに合わせて無理な姿勢をとる必要がなくなります。
既存の多くの AI モデルは、インタラクション機能をハーン(harness)に後付けするアプローチを採用しています。これは、中断やマルチモーダル性、並行処理を模倣するためにコンポーネントをつなぎ合わせる手法です。多くのリアルタイム商用音声システムでは、ターン境界を検出するために音声活動検知(voice-activity-detection)コンポーネントが使用されています。しかし、サットン R. The Bitter Lesson、2019 年が示す「苦い教訓」は、これらの手作業で設計されたシステムが、汎用能力の進展に後れをとるだろうと示唆しています。インタラクションを知能の拡大に合わせてスケールさせるためには、それがモデルそのものの一部である必要があります。このアプローチにより、モデルをスケーリングすることは、より賢くなるだけでなく、より優れたコラボレーターにもなります。
機能#
インタラクションをモデルの一部とすることで、それまでハーンで実装する必要があったさまざまな機能が解放されます。
- シームレスな対話管理。モデルは、話者が思考中か、譲っているか、自己修正しているか、応答を求めているかを暗黙的に追跡します。対話管理のコンポーネントは別途存在しません。
- 言語的および視覚的な割り込み。モデルは文脈に応じて必要な時に介入し、ユーザーが話し終わるのを待つだけではありません。
- 同時発話。ユーザーとモデルは同時に話すことができます(例:ライブ翻訳)
- タイムアウェアネス。モデルは経過時間の直接的な感覚を持っています。
- 同時実行のツール呼び出し、検索、生成型 UI。ユーザーに話しかけながら聴取している間も、モデルは並行して検索を行ったり、ウェブを閲覧したり、UI を生成したりできます—必要に応じて結果会話を織り交ぜます。
より長い実際のセッションでは、これらすべてが継続的に発生し、プロンプトを入力するよりも協働しているかのような体験を生み出します。
これらのビデオに登場するブランドや製品は、Thinking Machines Labs とは何の関係もありません。これらのビデオはモデルの能力を実証するためのものであり、スポンサーシップやパートナーシップを示すものではありません。
私たちのアプローチ#
タイムアライメントされたマイクロターンベース
相互作用は時間に基づいており、連続的な入力と出力ストリームがマイクロターンに分割されます
ターンベースのモデルは交互のトークンシーケンスを見ますが、タイムアウェアな相互作用モデルはマイクロターンの連続ストリームを見ます。そのため、沈黙、重なり、中断もモデルの文脈の一部として残ります。
相互作用モデルはユーザーと絶えず双方向で交換を行い、同時に知覚して応答します。一部の領域では、このような対話性が当然のものとして扱われます—物理世界では、ロボットや自律走行車がリアルタイムで動作することを要求されます。オーディオフルデュプレックスモデルMoshi, PersonaPlex, nemotron-voicechat, Seeduplex. はもう一つの例であり、ここでは相互作用が双方向かつ連続的です。
同じ原則を適用し、音声・動画・テキストにわたって連続ループ内で知覚し応答する、このレジームにネイティブな相互作用モデルの構築に取り組みました。その結果得られたシステムは、2 つのアイデアを中心に設計されています。一つはリアルタイムでの存在感を維持する時間認識型相互作用モデルであり、もう一つは持続的な推論、ツール使用、より長期的な作業を処理する非同期バックグラウンドモデルです。
システム概要#
相互作用モデルはユーザーと絶えずやり取りを行います。タスクに即座に生成できる以上の深い推論が必要な場合、相互作用モデルは非同期で動作するバックグラウンドモデルに委任します。このアプローチは、Qwen-omni、KAME、MoshiRAG などの先行研究に基づいています。相互作用モデルは応答のフォローアップ、新しい入力の受け取り、会話のスレッド維持を行いながら、常に存在し続け、バックグラウンドからの結果が到着次第会話に統合されます。
real-time
user
interaction**model
background
model
context
response
tool calls
browsing
etc
ユーザーは相互作用モデルと継続的にやり取りを行い、一方バックグラウンドモデルは非同期タスクを実行します。両システムはコンテキストを共有しています。
この分割により、ユーザーは両方の利点を享受できます。すなわち、レスポンスの遅延が非思考型モデル並みであるにもかかわらず、計画立案、ツール使用、推論モデル特有のエージェントワークフローといった知能の全範囲を活用できる点です。背景にあるモデルと対話モデルの双方が知的であることを念頭に置いてください。単独でも、対話モデルは対話性能および知能に関するベンチマークにおいて競争力があります。
対話モデル#
私たちの出発点は、本質的にリアルタイムである連続する音声と動画というモダリティです。テキストは待機できますが、ライブでの会話はそのようにはいきません。最も困難なケースを最初に設計の中心に据えることで、ネイティブにマルチモーダルであり、時間認識機能を備え、あらゆるモダリティにおいて入出力ストリームを同時に処理できるアーキテクチャへと到達します。これを可能にするいくつかの設計上の選択があります。
時間同期されたマイクロターン。**対話モデルはマイクロターンで動作し、200 ミリ秒分の入力処理と 200 ミリ秒分の出力生成を連続的にインターリーブ(交互に)行います。ユーザーのターン全体を消費して応答全体を生成するのではなく、入力トークンも出力トークンもストリームとして扱われます。これらのストリームの 200 ミリ秒チャンクで動作することで、複数の入出力モダリティにおけるほぼリアルタイムな並行処理が可能になります。
Human perception
input
0
input
1
input
2
input
3
input
4
output
0
output
1
output
2
output
3
Model token sequence
Human perception preserves concurrent input and output streams, while the model receives a single interleaved token sequence.
With this design, there are no artificial turn boundaries that the model must adhere to. In contrast, most existing real-time systems require a harness that predicts turn boundaries in order for the turn-based models to feel real-time and responsive.Moshi, PersonaPlex, and Nemotron Voicechat are examples of full duplex systems that do not use harnesses to detect turns. They are smaller scale models focused on latency rather than intelligence benchmarks. This harness is made out of components like voice-activity-detection (VAD) that are meaningfully less intelligent than the model itself. This precludes a variety of interaction modes like proactive interjections (“interrupt when I say something wrong”) or reactions to visual cues (“tell me when I’ve written a bug in my code”). Moreover, the model can do things like speak while listening (“translate from spanish to english live”) or watching (“live-commentate this sports game”).
Thus, all of these different interaction modes that require special harnesses today become special-cases of what the model can do and improve in quality as we scale up model size and training data.
エンコーダー不要の早期融合。 音声と映像を大規模な個別エンコーダーを通じて処理するのではなく、最小限の前処理を行うシステムを採用します。多くのオムニモーダルモデルでは、別個のエンコーダー(Whisper 型など)またはデコーダー(TTS モデル型など)の訓練が必要となりますが、当アプローチでは音声信号を dMel (Bai, et al. 2024) として取り込み、軽量な埋め込み層を通じて変換します。画像は 40x40 パッチに分割され、hMLP (Touvron et al. 2022) によってエンコードされます。音声デコーダーにはフローヘッド (Lipman at al. 2022) を使用します。すべてのコンポーネントは、トランスフォーマーとともにゼロから共同訓練されます。
Text
Frame
Audio
Embedding
Tokens
40x40 Patch
hMLP
dMel
Bag of
embeddings
Transformer
Text
Unembedding
Mel
Flow
200 ミリ秒のマイクロターンに対するインタラクションモデルアーキテクチャの図。このモデルは、テキスト、音声、ビデオのいずれかのサブセットを入力として受け取り、テキストと音声を予測します。
推論最適化。 推論時には、200 ミリ秒ごとのチャンクに対して頻繁に小規模なプリフィル(初期化)とデコードが発生し、それぞれが厳格なレイテンシ制約を満たす必要があります。残念ながら、既存の LLM 推論ライブラリは頻発する小規模なプリフィルには最適化されておらず、ターンごとに大きなオーバーヘッドが生じることがあります。これに対処するため、ストリーミングセッションを実装しました。クライアントは各 200 ミリ秒チャンクを別々のリクエストとして送信し、推論サーバーはこれらのチャンクを GPU メモリ内の永続的なシーケンスに追加します。これにより、頻繁なメモリ再割り当てやメタデータ計算が回避され、この機能のバージョンを SGLang へアップストリームしました こちら。さらに、双方向サービングで観測される形状についても、レイテンシおよび形状に特化したカーネル最適化を行いました。例えば、MoE(Mixture of Experts)カーネルには、従来の PyTorch こちら や Cursor こちら の先行研究で用いられた標準的なグループ化された GEMM(General Matrix Multiply)ではなく、gather+gemv 戦略を採用しています。
トレーナーとサンプラーの整合性。 トレーナーとサンプラーのビット単位の整合性は、トレーニングの安定性だけでなく、システムの各種コンポーネントのデバッグにも有用であることが分かりました。私たちは、エンドツーエンドのパフォーマンスオーバーヘッドを最小限(5% 未満)に抑えた バッチ不変カーネル を実装しています。面白いことに、ある期間中、カスタム通信カーネルがバッチ不変であるだけでなく、非常に低レイテンシであったため、バッチ不変カーネルを使用する方が実際にはエンドツーエンドで高速でした。
特に注目すべき2つのカーネルを挙げます:
- All-reduce および reduce-scatter: 低遅延の通信カーネルを実装するために NVLS を使用し、Blackwell 上で決定論的な動作を実現するとともに、やや異なる並列化戦略(シーケンス並列化とテンソル並列化)の間でビット単位の整合性を達成しています。
- アテンション:アテンションにおける主な課題は Split-KV で、これは通常、デコードとプリフィルの間に不整合な累積順序をもたらす可能性があります。Colfax との共同研究により、デコードとプリフィルの間で一貫した分割を行うことで、一貫した累積順序を維持できます。例えば、SM(ストリーミングマルチプロセッサ)を分割して一度に 4096 トークンを処理する(左アライメント)ようにすれば、プリフィルとデコードの両方で高い効率を達成できます。
インタラクションモデルとバックグラウンドモデルの連携。 インタラクションモデルが委譲を行う際、単独のクエリではなく、豊富なコンテキストパッケージ(会話全体)を送信します。結果はバックグラウンドモデルが生成するたびにストリーミングされ、インタラクションモデルはユーザーが現在何をしているかに応じて適切なタイミングでこれらの更新を会話に織り交ぜます。これは abrupt な文脈の切り替え(abrupt context switch)としてではなく行われます。
安全性。 リアルタイムでのインタラクションは、ターンベースのやり取りとは異なる形で安全性への負荷をかけるため、当社の安全に関する取り組みは 2 つの軸に焦点を当てました:モダリティに応じた拒絶と、長期にわたる堅牢性です。音声で自然な表現となるよう拒絶を行うために、テキストから音声への変換(text-to-speech)モデルを用いて、禁止されたトピックの範囲をカバーする拒絶および過剰拒絶のトレーニングデータを生成し、拒絶の境界線を調整しました。これにより、自然に表現されつつも決して弱腰ではない拒絶が可能になります。また、音声から音声への会話が長期化する際の堅牢性を向上させるため、自動化されたレッドチーム(red-teaming)ハーンを用いて多段階の拒絶データを生成しましたが、モデルのテキストベースでの拒絶行動との振る舞いの整合性も維持しました。
ベンチマーク#
知能と対話性のフロンティア#
私たちは、TML-Interaction-Small と名付けられた当社のインタラクションモデルが、強力な知能・指示従順性かつ双方向性を兼ね備えた初のモデルであることを示します。インタラクションの質を測定するために、双方向性を測定することを意図した既存ベンチマークの一つである FD-bench を使用しています。FD-bench v1.5 では、モデルに事前録音されたオーディオが与えられ、特定のタイミングで応答する必要があります。このベンチマークは、ユーザーによる中断、ユーザーからのバックチャネル(相槌)、他者との会話、背景音声といった複数のシナリオにおけるモデルの行動を測定します。当社のモデルはこれらのすべての領域で良好なスコアを獲得しています。知能を定量化するために、知能と指示従順性を追跡する一般的なベンチマークである Audio MultiChallenge を使用しています。
TML-interaction-small
GPT-realtime-2.0 (minimal)
GPT-realtime-2.0 (xhigh)
GPT-realtime-1.5
Gemini-3.1-flash-live-preview (minimal)
Gemini-3.1-flash-live-preview (high)
知能と双方向性のフロンティア。当社のモデルは、思考を伴わないどのモデルよりも優れた知能を持ちながら、インタラクションの質において支配的な地位を占めています。ユーザーとモデルのターン間の遅延として測定される、最良の応答性を達成しています。
より高い知能、安全性、および双方向性/遅延に関する結果については、以下の表をご覧ください。ストリーミング型とターンベース型の両方のベンチマークにおける当社のパフォーマンスを報告します。
Instant
Thinking
TML-interaction**-small
GPT-realtime-2.0
(minimal)
GPT-realtime-1.5
Gemini-3.1-flash-live
(minimal)
Qwen 3.5
OMNI-plus-realtime
GPT-realtime-2.0
(xhigh)
Gemini-3.1-flash-live
(high)
Streaming
FD-bench V1
Turn-taking latency (s) · Audio
0.40
1.18
0.59
0.57
2.14
1.63
0.94
FD-bench V1.5
Average · Audio
77.8
46.8
48.3
54.3
39.0
47.8
45.5
FD-bench V3
Response Quality (%) / Pass@1 (%) · Audio + Tools
82.8* / 68.0*
80.0 / 52.0
77.9 / 55.0
68.5 / 48.0
60.0 / 50.0
81.0 / 58.0
71.4 / 48.0
QIVD**
Accuracy (%) · Video + Audio
54.0
57.5
41.2
54.7
59.0
58.2
56.1
Turn-based
Audio MultiChallenge
APR (%) · Audio
43.4
37.6
34.7
26.8
-***
48.5
36.1
BigBench Audio
Accuracy (%) · Audio
75.7 / 96.5*
71.8
81.4
71.3
73.0
96.6****
96.6
IFEval (VoiceBench)
精度 (%) · オーディオ
82.1
81.7
68.1
67.6
80.3
83.2
82.8
IFEval
精度 (%) · テキスト
89.7
89.6
87.5
85.8
83.4
95.2
90.0
Harmbench
拒否率 (%) · テキスト
99.0
99.5
100.0
99.0
99.5
100.0
98.0
各行の最高値
インスタントモデル間の最高値
- 推論やツール呼び出しを必要とするベンチマークについては、背景エージェントを有効化した状態で結果を報告します。
** Qualcomm IVD をストリーミング設定で評価しました。これはビデオ・オーディオ QA ベンチマークです。各ビデオクリップでは、誰かが行動を行い質問を発声します。ストリーミング設定で評価を行い、最初から生クリップを送信し、モデルのトランスクリプトを採点します。Qwen 3.5 Omni に倣い、GPT-4o-mini をグラダーとして使用しました。
*** Audio MultiChallenge の全ベースラインモデルのメトリクスは Scale AI によって報告されており、Qwen 3.5 OMNI-plus-realtime はリストされていません。
**** Bigbench Audio の全ベースラインモデルのメトリクスは Artificial Analysis によって報告されており、GPT-realtime-2.0 thinking は高設定です。
インタラクティブ性の新たな次元#
上記の既存の対話指向ベンチマークは、私たちが認識する対話能力における質的な飛躍を十分に捉えていません。そこで、これらの能力を定量化することを目的とした初期の研究があります。
時間意識と同時発話。対話管理システムを持つターンベースモデルは、正確な時間推定や同時発話をサポートしていません。例としては、「1 マイル走るのにどれくらいかかりましたか?」「聞き取った瞬間に誤発音を修正してください」「この関数を書くのにどれくらいかかりましたか?」などがあります。
これらの能動的な音声能力を測定するために、2 つの内部ベンチマークを作成しました:
- TimeSpeak: ユーザーが指定した時間にモデルが発話を開始できるかどうか、かつ正しい内容を生成できるかをテストします。例:「呼吸の練習をしたいので、私が止めるまで、4 秒ごとに息を吸って吐くようにリマインドしてください」。
- CueSpeak: モデルが適切な瞬間に発話し、意味的に正しい応答ができるかどうかをテストします。データセットのエントリは、モデルが満点を得るためにユーザーと同じタイミングで発話する必要があることを保証するように作成されています。例:「私がコードスイッチングして別の言語を使うたびに、元の言語での正しい単語を教えてください」。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等)は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "上記の既存の対話指向ベンチマークは、私たちが認識する対話能力における質的な飛躍を十分に捉えていません。そこで、これらの能力を定量化することを目的とした初期の研究があります。
時間意識と同時発話。ターンベースモデル(対話管理システムを持つ)は、正確な時間推定や同時発話をサポートしていません。例としては、「1 マイル走るのにどれくらいかかりましたか?」「聞き取った瞬間に誤発音を修正してください」「この関数を書くのにどれくらいかかりましたか?」などがあります。
これらの能動的な音声能力を測定するために、2 つの内部ベンチマークを作成しました:
- TimeSpeak: ユーザーが指定した時間にモデルが発話を開始できるかどうか、かつ正しい内容を生成できるかをテストします。例:「呼吸の練習をしたいので、私が止めるまで、4 秒ごとに息を吸って吐くようにリマインドしてください」。
- CueSpeak: モデルが適切な瞬間に発話し、意味的に正しい応答ができるかどうかをテストします。データセットのエントリは、モデルが満点を得るためにユーザーと同じタイミングで発話する必要があることを保証するように作成されています。例:「私がコードスイッチングして別の言語を使うたびに、元の言語での正しい単語を教えてください」。」}
両方のベンチマークにおいて、各例には単一の期待される意味的な応答とタイミングの窓が存在します。LLM 判定器を用いて採点を行います:応答が期待される意味を伝え、かつ適切なタイミングで提供された場合にのみ正解としてカウントされ、いずれかの基準を満たさない場合は加点されません。我々は例全体にわたるマクロ平均精度を報告します。
ビジュアルの能動性。 今日のコマーシャル向けリアルタイム API は、音声のみによる対話管理ハーンネスを通じてターン検出を実行しています。発話されたターンに応答しますが、視覚的な世界が変化した際に自発的に発言を選択することはできません。音声出力におけるビジュアルの能動性をサポートする商業用 API については現時点で知られていませんが、いくつかの学術論文で関連する研究プロトタイプが構築されています。StreamBridge、Streamo、StreamingVLM、および MMDuet2 は、ストリーミング動画入力設定においていつテキストを出力するかを検討しています。これらはテキスト出力に限定されるため、音声出力インタラクションにおける追加の制約(音声には持続時間があり、ユーザーと重なり得るほか、ターンテイク、割り込み、バックチャネリングとの調整が必要であるなど)については研究していません。最も近いのは AURA で、これはテキストを出力するか沈黙するかの判断を行う VideoLLM の周りに ASR/TTS デモを追加したものです。対照的に、私たちのアプローチは音声ネイティブかつフルデュプレックスです。例えば、「プッシュアップの回数を数えてください」と尋ねられた場合、そのようなシステムは「もちろん!」と応答した後、決して来ない音声のみによる合図を待って沈黙し続けるかもしれません。
私たちは、モデルのビジュアルの能動性を評価するために 3 つのベンチマークを適応させました:
- RepCount-A は反復動作の動画を含み、オンラインカウントタスクに適応されています。音声指示「Please count out reps for {action}」に従って動画をストリーミングします。正解の最終から 2 つ目の反復の後、モデルが発した最後の数字を抽出し、それが正解の反復数から 1 回以内かどうかで採点します。このタスクは、継続的な視覚的追跡とタイムリーなカウント能力を測定するものです。
- ProactiveVideoQA は質問付きの動画で構成され、その答えは特定の瞬間に利用可能になります。音声で質問をストリーミングし、その後動画を再生します。具体的には、以下のように TTS(テキスト読み上げ)を行います:"Watch the video and stay quiet until a new moment answers the question. When one happens, say a concise answer. {question}"。その後、モデルが指示を理解したことを示すために 2 秒間の沈黙をストリーミングします。字幕がある場合は動画に埋め込み(burn subtitles)、視覚的な能動性をテストするために入力動画の音声をミュートします。論文で報告されているターン加重 PAUC@ω=0.5 メトリクス(0-100 にスケーリング)を、ターンとカテゴリ全体で平均化して報告します。沈黙していること自体は 25.0 点として評価されます。より高いスコアを得るには、正しいタイミングで正解を答える必要があり、誤った回答は減点対象となります。
- Charades は標準的な時系列動作局所化ベンチマークです。各動画には、ラベル付けされた時間区間にわたって発生するアクションが含まれています。ユーザーの音声指示をストリーミングします:「{action} を行う人が始めたら『start』と言い、終わったら『Stop』と言いなさい」。その後、動画をストリーミングします。モデルは、予測された区間と参照区間の間の時系列 IoU(交差率)によって評価されます。
時間認識
TimeSpeak · マクロ平均精度
音声手がかりによるトリガー
CueSpeak · マクロ平均精度
視覚に基づくカウント
RepCount-A · オフバイワン誤り
視覚手がかりによるトリガー
ProactiveVideoQA · PAUC@ω=0.5
視覚手がかりによるトリガー
Charades · mIoU
- ProactiveVideoQA の応答なしベースラインは 25.0 です
既存のモデルはいずれも、これらのタスクを意味ある形で実行できません。完全性を期すため、GPT Realtime-2(最小構成)の結果を報告しますが、評価されたすべてのモデル(思考機能付きの高レベルモデルを含む)は、これらタスクにおいて同程度かそれ以下の性能しか発揮できず、沈黙するか誤った回答を与えます。
内部音声・動画ベンチマークからの例。
将来の評価。 私たちは、対話性が将来の研究における重要な領域であると信じており、コミュニティにこの分野でのベンチマークへの貢献を呼びかけます。インタラクションモデルおよび人間と AI の協働に関する研究、特にインタラクション品質を評価するための新しいフレームワークなどを含む、より多くの研究を奨励するために研究助成金を開始します。詳細は近日公開予定です。
制限事項と今後の課題#
長時間のセッション。 連続する音声およびビデオは文脈を急速に蓄積します。ストリーミング・セッション設計は短時間および中時間の対話にはよく対応していますが、非常に長いセッションでは依然として慎重な文脈管理が必要であり、これは現在活発に取り組まれている分野です。
計算資源と展開。 低遅延で音声やビデオをストリーミングするには、信頼性の高い接続が必要です。良好な接続がない場合、体験は著しく劣化します。私たちは、システムの信頼性を向上させることに加え、遅延したフレームに対してモデルをより頑健に訓練することで、将来これを大幅に改善できると信じています。
アライメントと安全性。 リアルタイム・インターフェースは、アライメント(調整)および安全性の両面において研究にとって魅力的な領域を開きます。私たちはフィードバックの収集および研究助成金の審査を行っています。
モデルサイズの拡張。 現在の TML-Interaction-Small は、12B がアクティブである 276B パラメータの MoE(Mixture of Experts)です。モデル規模の拡大に伴いインタラクション性が向上すると予想していますが、より大規模な事前学習済みモデルは現在、この設定で提供するには遅すぎます。今年後半により大規模なモデルをリリースする予定です。
改善されたバックグラウンドエージェント。虽然我们这篇文章主要关注实时交互性,但代理智能也是一项不可或缺的能力。除了将代理智能推向前沿之外,我们相信在背景 Agent 如何与交互模型协同工作方面,我们才刚刚触及皮毛。
告诉我们您的想法,加入我们#
在接下来的几个月里,我们将开放有限的研究预览以收集反馈,并于今年晚些时候进行更广泛的发布。
我们非常欢迎您 加入我们。请在 interaction@thinkingmachines.ai 分享您的想法。
引用#
请引用本作品如下:
Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.
或使用以下 BibTeX 引用格式:
@article{thinkingmachines2026interactionmodels,
author = {Thinking Machines Lab},
title = {Interaction Models: A Scalable Approach to Human-AI Collaboration},
journal = {Thinking Machines Lab: Connectionism},
year = {2026},
month = {May},
note = {https://thinkingmachines.ai/blog/interaction-models/},
doi = {10.64434/tml.20260511},
}
原文を表示
Today, we’re announcing a research preview of interaction models: models that handle interaction natively rather than through external scaffolding. We think interactivity should scale alongside intelligence; the way we work with AI should not be treated as an afterthought. Interaction models let people collaborate with AI the way we naturally collaborate with each other—they continuously take in audio, video, and text, and think, respond, and act in real time.
We train an interaction model from scratch. To ensure real-time responsiveness, we adopt a multi-stream, micro-turn design. Our research preview demonstrates qualitatively new interaction capabilities, as well as state-of-the-art combined performance in intelligence and responsiveness.
The collaboration bottleneck#
AI labs often treat the ability for AI to work autonomously as the model’s most important capability.Kwa, T., West, B., Becker, J., et al. Measuring AI Ability to Complete Long Tasks. METR, 2025. As a result, today’s models and interfaces aren’t optimized for humans to remain in the loop.A recent frontier model card states: “Importantly, we find that when used in an interactive, synchronous, “hands-on-keyboard” pattern, the benefits of the model were less clear. When used in this fashion, some users perceived [our model] as too slow and did not realize as much value. Autonomous, long-running agent harnesses better elicited the model’s coding capabilities.”
Autonomous interfaces are valuable, but in most real work, users can’t fully specify their requirements upfront and walk away—good results benefit from a collaborative process where the human stays in the loop, clarifying and giving feedback along the way. However, humans increasingly get pushed out not because the work doesn’t need them, but because the interface has no room for them. Instead, people are most effective when they can collaborate with AI the same way we do with other people: messaging, talking, listening, seeing, showing, and interjecting as needed—and for the model to do the same.Communication gets better with: (a) Copresence: people can interact with what others are interacting with; (b) Contemporality: people receive information as it’s produced by others with instant feedback; (c) Simultaneity: people receive and produce information at the same time. Clark H. and Brennan S., “Grounding in Communication,” in Perspectives on Socially Shared Cognition, 1991., The evanescence of orality for its participatory (cf. objectively distanced) nature. Today’s computers and mediums of knowledge work have similar interactive properties. Ong, W. J.. In *Orality and Literacy: The technologizing of the word*, 1982.
In order to resolve this, we need to move beyond the current turn-based interface for the models. Today’s models experience reality in a single thread.We are referring to commercial general-purpose frontier models—there are smaller-scale or specialized models like Moshi, PersonaPlex, Nemotron VoiceChat, or GPT-Realtime-Translate. Until the user finishes typing or speaking, the model waits with no perception of what the user is doing or how the user is doing it. Until the model finishes generating, its perception freezes, receiving no new information until it finishes or is interrupted. This creates a narrow channel for human-AI collaboration that limits how much of a person’s knowledge,“Metis, with the premium it places on practical knowledge, experience, and stochastic reasoning…is the mode of reasoning most appropriate to complex material and social tasks where the uncertainties are so daunting that we must trust our (experienced) intuition and feel our way.” Scott, J. C: Métis. In *Seeing like a State: How certain schemes to improve the human condition have failed*, 1998., “A little reflection will show that there is…a body of very important but unorganized knowledge…: the knowledge of the particular circumstances of time and place.” Hayek, F. A. “The use of knowledge in society.” *The American Economic Review*, 1945. intent, and judgement can reach the model, and how much of the model’s work can be understood. Picture trying to resolve a crucial disagreement over email rather than in person.
At Thinking Machines, we believe we can solve this bandwidth bottleneck by making AI interactive in real time across any modality. This enables AI interfaces to meet humans where they are, rather than forcing humans to contort themselves to AI interfaces.
Most existing AI models bolt on interactivity with a harness: stitching components together to emulate interruptions, multimodality, or concurrency.Most real-time commercials speech systems use voice-activity-detection components to detect turn boundaries. However, “the bitter lesson”Sutton R. The Bitter Lesson, 2019. suggests that these hand-crafted systems will be outpaced by the advance of general capabilities. For interactivity to scale with intelligence, it must be part of the model itself. With this approach, scaling a model makes it smarter *and* a better collaborator.
Capabilities#
Having interactivity be part of the model unlocks a variety of capabilities that would otherwise need to be implemented in the harness.
- Seamless dialog management. The model tracks implicitly whether the speaker is thinking, yielding, self-correcting, or inviting a response. There is no separate dialog management component.
- Verbal and visual interjections. The model jumps in as needed depending on the context, not only when the user finishes speaking.
- Simultaneous speech. The user and the model can speak concurrently (e.g. live translation)
- Time-awareness. The model has a direct sense of elapsed time.
- Simultaneous tools calls, search, and generative UI. While speaking and listening to the user, the model can concurrently search, browse the web, or generate UI—weaving back results into the conversation as needed.
In a longer real session, all of this happens continuously, creating an experience that feels more like collaborating and less like prompting.
None of the brands or products appearing in these videos are associated with Thinking Machines Labs. These videos are to demonstrate the model's capabilities and do not indicate sponsorship or partnership.
Our approach#
An interaction model is in constant two-way exchange with the user—perceiving and responding at the same time. Some domains take such interactivity as a given—the physical world demands that robotics and autonomous vehicles operate in real time. Audio full-duplex modelsMoshi, PersonaPlex, nemotron-voicechat, Seeduplex. are another example where interaction is bidirectional and continuous.
Applying the same principle, we set out to build an interaction model native to this regime—one that perceives and responds in the same continuous loop, across audio, video, and text. The result is a system architected around two ideas: a time-aware interaction model that maintains real-time presence, and an asynchronous background model that handles sustained reasoning, tool use, and longer-horizon work.
System overview#
The interaction model is in constant exchange with the user. When a task requires deeper reasoning than can be produced instantaneously, the interaction model delegates to a background model that runs asynchronously.This approach builds upon prior work like Qwen-omni, KAME, MoshiRAG. The interaction model remains present throughout — answering follow-ups, taking new input, holding the thread — and integrates background results into the conversation as they arrive.
This split lets the user benefit from both responsiveness as well as the full extent of intelligence: the planning, tool-use, and agentic workflows of reasoning models at the response latency of non-thinking ones. Note that both the background and interaction models are intelligent — on its own, the interaction model is also competitive on both interactive and intelligence benchmarks.
The interaction model#
Our starting point is continuous audio and video — modalities that are inherently real-time. Text can wait, but a live conversation cannot. By designing around the hardest case first, we arrive at an architecture that is natively multimodal, time-aware, and capable of handling concurrent input and output streams across all modalities. Several design choices make this possible.
Time-aligned micro-turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.
With this design, there are no artificial turn boundaries that the model must adhere to. In contrast, most existing real-time systems require a harness that predicts turn boundaries in order for the turn-based models to feel real-time and responsive.Moshi, PersonaPlex, and Nemotron Voicechat are examples of full duplex systems that do not use harnesses to detect turns. They are smaller scale models focused on latency rather than intelligence benchmarks. This harness is made out of components like voice-activity-detection (VAD) that are meaningfully less intelligent than the model itself. This precludes a variety of interaction modes like proactive interjections (“interrupt when I say something wrong”) or reactions to visual cues (“tell me when I’ve written a bug in my code”). Moreover, the model can do things like speak while listening (“translate from spanish to english live”) or watching (“live-commentate this sports game”).
Thus, all of these different interaction modes that require special harnesses today become special-cases of what the model can do and improve in quality as we scale up model size and training data.
Encoder-free early fusion. Rather than processing audio and video through large, standalone encoders, we opt for a system with minimal pre-processing. Many omnimodal models require training a separate encoder (e.g. Whisper-like) or decoder (e.g. TTS model-like). We instead take in audio signals as dMel (Bai, et al. 2024) and transform it via a light-weighted embedding layer. Images are split into 40x40 patches which are encoded by an hMLP (Touvron et al. 2022). For the audio decoder we use a flow head (Lipman at al. 2022). All components are co-trained from scratch together with the transformer.
Inference optimization. At inference time, 200ms chunks require frequent prefills and decodes of small sizes, each having to meet strict latency constraints. Unfortunately, existing LLM inference libraries are not optimized for frequent small prefills—they often have a significant amount of overhead per turn. To address this, we implemented streaming sessions. The client sends each 200ms chunk as a separate request, while the inference server appends these chunks into a persistent sequence in GPU memory. This avoids frequent memory reallocations and metadata computations, and we’ve upstreamed a version of this feature to SGLang. In addition, we also optimized our kernels for latency as well as the shapes we see for bidirectional serving. For example, we use a gather+gemv strategy for MoE kernels instead of the standard grouped gemm, as in prior work from PyTorch and Cursor.
Trainer-sampler alignment. We’ve found bitwise trainer-sampler alignment to be useful for training stability as well as debugging the various components of our system. We implement batch-invariant kernels with minimal (<5%) e2e performance overhead.Funnily enough, for some period of time using the batch-invariant kernels was actually faster e2e, due to the custom communication kernels which were not only batch-invariant but also much lower latency. To highlight two particular kernels:
- All-reduce and reduce-scatter: We use NVLS to implement low-latency comm kernels which are deterministic on Blackwell, and achieve bitwise alignment between somewhat different parallelism strategies (i.e. Sequence Parallelism and Tensor Parallelism).
- Attention: The primary challenge with attention is Split-KV, which can typically lead to inconsistent accumulation orders between decode and prefill.Work done in collaboration with Colfax However, we can maintain consistent accumulation order by choosing to split consistently between decode and prefill. For example, we could split SMs to process 4096 tokens at a time (left-aligned), achieving good efficiency in both prefill and decode.
Coordination between interaction and background models. When the interaction model delegates, it sends a rich context package — not a standalone query, but the full conversation. Results stream back as the background model produces them, and the interaction model interleaves these updates into the conversation at a moment appropriate to what the user is currently doing, rather than as an abrupt context switch.
Safety. Because real-time interaction stresses safety differently than turn-based exchanges, our safety work focused on two axes: modality-appropriate refusals and long-horizon robustness. To make refusals colloquial in speech, we use a text-to-speech model to generate refusal and over-refusal training data covering a range of disallowed topics, with the refusal boundary calibrated to favor naturally-phrased, but no less firm, refusals. To improve robustness across extended speech-to-speech conversations, we used an automated red-teaming harness to generate multi-turn refusal data, while maintaining close behavioral parity with the model’s text-based refusals.
Benchmarks#
Intelligence and interactivity frontier#
We show that our interaction model, named TML-Interaction-Small, is the first model that has both strong intelligence/instruction following and interactivity. To measure interaction quality we use FD-bench which is one of the few existing benchmarks intended to measure interactivity. In FD-bench v1.5, the model is given prerecorded audio, and must respond at certain times. This benchmark measures model behavior across several scenarios: user interruption, user backchannel, talking to others, and background speech. Our model scores well in all of these areas. To quantify intelligence we use Audio MultiChallenge, a common benchmark that tracks intelligence and instruction following.
For more intelligence, safety, and interactivity/latency results please see the table below. We report our performance on both streaming and turn-based benchmarks.
Instant
Thinking
TML-interaction**-small
GPT-realtime-2.0
(minimal)
GPT-realtime-1.5
Gemini-3.1-flash-live
(minimal)
Qwen 3.5
OMNI-plus-realtime
GPT-realtime-2.0
(xhigh)
Gemini-3.1-flash-live
(high)
Streaming
FD-bench V1
Turn-taking latency (s) · Audio
0.40
1.18
0.59
0.57
2.14
1.63
0.94
FD-bench V1.5
Average · Audio
77.8
46.8
48.3
54.3
39.0
47.8
45.5
FD-bench V3
Response Quality (%) /
Pass@1 (%) · Audio + Tools
82.8* / 68.0*
80.0 / 52.0
77.9 / 55.0
68.5 / 48.0
60.0 / 50.0
81.0 / 58.0
71.4 / 48.0
QIVD**
Accuracy (%) · Video + Audio
54.0
57.5
41.2
54.7
59.0
58.2
56.1
Turn-based
Audio MultiChallenge
APR (%) · Audio
43.4
37.6
34.7
26.8
-***
48.5
36.1
BigBench Audio
Accuracy (%) · Audio
75.7 / 96.5*
71.8
81.4
71.3
73.0
96.6****
96.6
IFEval (VoiceBench)
Accuracy (%) · Audio
82.1
81.7
68.1
67.6
80.3
83.2
82.8
IFEval
Accuracy (%) · Text
89.7
89.6
87.5
85.8
83.4
95.2
90.0
Harmbench
Refusal rate (%) · Text
99.0
99.5
100.0
99.0
99.5
100.0
98.0
Best per row
Best among instant models
- For benchmarks that require reasoning or tool calls we report our results with background agent enabled.
** We evaluate Qualcomm IVD in a streaming setting – is a video-audio QA benchmark. In each video clip, somebody performs an action and speaks a question. We evaluate in a streaming setting, sending the raw clip from the beginning and grading the model’s transcript. Following Qwen 3.5 Omni we use a GPT-4o-mini grader.
*** Audio MultiChallenge metrics for all the baseline models are reported by Scale AI, where Qwen 3.5 OMNI-plus-realtime is not listed.
**** Bigbench Audio metrics for all the baseline models are reported by Artificial Analysis, where GPT-realtime-2.0 thinking is on high.
New dimensions of interactivity#
The existing interactivity-oriented benchmarks above do not adequately capture the qualitative jumps in interaction capabilities we notice. To that end, we have some early work aimed at quantifying these capabilities.
Time awareness and simultaneous speech.** Turn-based models with a dialog management system do not support accurate time estimation or simultaneous speech. Examples include: “How long did it take me to run one mile?”, “Correct my mispronunciations as you hear them” or “How long did it take me to write this function?"
We created two internal benchmarks to measure these proactive audio capabilities:
- TimeSpeak: Tests whether the model can initiate speech at user-specified times while producing the correct content. For example: “I want to practice my breathing, remind me to breathe in and out every 4 seconds until I ask you to stop.”
- CueSpeak: Tests whether the model speaks at the appropriate moment with the expected semantically correct response. Dataset entries are created to ensure that the model needs to speak at the same time as the user to get a full score. For example: “Everytime I codeswitch and use another language, give me the correct word in the original language.”
For both benchmarks, each example has a single expected semantic response and timing window. We grade with an LLM judge: A response is counted as correct only if it conveys the expected meaning and is delivered at the appropriate time; failing either criterion receives no credit. We report macro-averaged accuracy across examples.
Visual proactivity. Today’s commercial real-time APIs perform turn-detection via audio-only dialogue management harnesses. They respond to spoken turns, but they cannot proactively choose to speak when the visual world changes.Though we are not aware of any commercial APIs that support speech-out visual proactivity, several academic papers have built related research prototypes. StreamBridge, Streamo, StreamingVLM, and MMDuet2 study when to output text in a streaming video input setting. Being text out, they do not study additional constraints of speech-output interaction: speech has duration, can overlap with the user, and must be coordinated with turntaking, interruptions, and backchanneling. Closest to ours is AURA, which adds an ASR/TTS demo around a VideoLLM that decides when to emit text or be silent; in contrast ours is speech-native and full-duplex. For instance, if asked “Please count how many pushups I do” such a system might respond “Sure thing!” and then remain silent – waiting for an audio-only cue that never comes.
We adapted three benchmarks to evaluate visual proactivity of our model:
- RepCount-A contains videos of repeated actions and is adapted into an online counting task. We stream the video following an audio instruction “Please count out reps for {action}.”. We extract the last number said by the model after the ground truth penultimate rep, and grade by whether it was within one rep of the ground truth. This task measures continuous visual tracking and timely counting.
- ProactiveVideoQA consists of videos with questions, whose answers become available at specific moments. We stream the question in audio and then the video.Specifically we TTS the following: “Watch the video and stay quiet until a new moment answers the question. When one happens, say a concise answer. {question}”, then stream two seconds of silence so the model acknowledges the instruction. We burn subtitles into the video (if present) and mute the input video to emphasize testing visual proactivity. We report the paper’s turn-weighted PAUC@ω=0.5 metric (scaled 0-100), averaged across turns and categories. Staying silent scores 25.0.; Higher scores require correct answers at the correct times and incorrect answers are penalized.
- Charades is a standard temporal action-localization benchmark. Each video contains an action occurring over a labeled time interval. We stream a user audio instruction: “Say ‘start’ when the person starts doing {action} then say ‘Stop’ when they stop.”; then we stream the video. The model is graded by temporal IoU between predicted and the reference intervals.
No existing model can meaningfully perform any of these tasks. For the sake of completeness, we report the results of GPT Realtime-2 (minimal), but all models evaluated perform similar or worse on these tasks, including thinking high models. They stay silent or give incorrect answers.
Future evals. We believe that interactivity is an important area for future research and we invite the community to contribute benchmarks here. We are launching a research grant to encourage more research into the field of interaction models and human-AI collaboration, including but not limited to new frameworks for assessing interactivity quality, with details coming soon.
Limitations and future work#
Long sessions. Continuous audio and video accumulate context quickly. The streaming-session design handles short and medium interactions well, but very long sessions still require careful context management—an active area of work.
Compute and deployment. Streaming audio and video at low latency requires reliable connectivity. Without a good connection, the experience degrades significantly. We believe that this can be improved significantly in the future both by improving system reliability as well as training our model to be more robust to delayed frames.
Alignment and safety. A realtime interface opens up an exciting area of research for both alignment and safety. We are collecting feedback and reviewing research grants.
Scaling model size. The current TML-Interaction-Small is a 276B parameter MoE with 12B active. While we expect the interactivity to improve with model scale, our larger pretrained models are currently too slow to serve in this setting. We plan to release larger models later this year.
Improved background agents. Although we have primarily focused on real-time interactivity in this post, agentic intelligence is also an essential capability. In addition to pushing agentic intelligence to the frontier, we believe we have just scratched the surface in how the background agents can work together with the interaction model.
Tell us what you think, join us#
In the coming months, we will open a limited research preview to collect feedback, with a wider release later this year.
We’d love for you to join us. Please share your thoughts at interaction@thinkingmachines.ai.
Citation#
Please cite this work as:
Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.
Or use the BibTeX citation:
@article{thinkingmachines2026interactionmodels,
author = {Thinking Machines Lab},
title = {Interaction Models: A Scalable Approach to Human-AI Collaboration},
journal = {Thinking Machines Lab: Connectionism},
year = {2026},
month = {May},
note = {https://thinkingmachines.ai/blog/interaction-models/},
doi = {10.64434/tml.20260511},
}
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み