#reasoning のAIニュース

43件の記事

Amazon Bedrock AgentCore でコンテキストウィンドウの壁を突破する

AWS は、数百万文字に及ぶ文書を分析する際に直面するコンテキストウィンドウの限界を克服するため、Amazon Bedrock AgentCore を活用した再帰型言語モデル(RLM)の実装方法を発表した。これにより、入力サイズが制限を超えても不完全な情報に基づく回答を防ぎ、正確な推論が可能になる。

AWS Machine Learning Blog·5月22日·★★★★

[AINews] OpenAI の GPT-next が、80 年間の未解決問題であるエルデシュの平面単位距離問題を 1,000 ドル未満で反証

OpenAI は、推定コストが 1,000 ドル未満または実行時間が 32 時間以内の汎用大規模言語モデル(GPT-5.6 と推測)を用いて、80 年間未解決だったエルデシュの平面単位距離問題を反証する結果を発表した。

Latent Space·5月21日·★★★★★

Google が有用な AI エージェントを作れないなら、誰も作れないかもしれない

The Verge は、長年期待された AI パーソナルアシスタントが未熟な状態だったと指摘し、過去 6 ヶ月で OpenClaw の人気により状況が変わり始めたとし、Google を含む主要 AI ラボが同様の成功を追っている状況を伝えている。

The Verge AI·5月20日·★★★★

Vercel AI Gateway に Gemini 3.5 Flash が追加

Vercel は、コーディング能力や推論性能が向上した「Gemini 3.5 Flash」を自社の AI ゲートウェイに導入しました。このモデルは思考レベルを中程度にデフォルト設定し、複雑なタスクでの処理効率とコストパフォーマンスのバランスを最適化しています。

Vercel Blog·5月19日·★★★★

プロジェクト・グラスウィング:ミトスが示したもの

クラウドフレアは数ヶ月間、自社インフラ上でセキュリティ特化型LLMをテストし、脆弱性の特定や攻撃者の動向把握に活用した。その中でアンソロピック社の「ミトス・プレビュー」が最も注目を集めた。

Cloudflare Blog·5月18日·★★★★

事前学習済みモデル向けベンチマーク構築の取り組み

Preferred Networks は、推論モデル中心の既存評価基準を見直し、事前学習済み大規模言語モデル PLaMo の能力を適切に測定する新たなベンチマーク構築を進めている。

Preferred Networks·5月18日·★★★★

マイクロソフトのマルチエージェントAIシステムがサイバーセキュリティベンチマークでアンソロピックのMythosを上回る

マイクロソフトは、100以上の専門AIエージェントを連携させる「MDASH」システムを開発し、コードスキャンから検証、攻撃証明までを行うことで、アンソロピックの「Mythos」モデルを上回る成果をサイバーセキュリティベンチマークで達成した。

TLDR AI·5月14日·★★★★

実世界のための AI:ヤン・ルコン氏との対談(12 分読了)

ヤン・ルコン氏は、現在の大規模言語モデルが人間レベルの知能には至らないとし、物理法則や因果関係を学習する「ワールドモデル」に基づく次世代 AI の必要性を説いた。

TLDR AI·5月13日·★★★★

LLM ツール 0.32a2 アップデート:OpenAI の新エンドポイント対応

Simon Willison が開発する LLM ツールのバージョン 0.32a2 がリリースされ、推論機能を持つ主要な OpenAI モデルが従来のチャットエンドポイントから新しいレスポンスエンドポイントへ移行したことが明記された。

Simon Willison Blog·5月13日·★★★★

本日は特に目立った出来事なし

AIニュース配信元「AINews」は、2026年5月11日から12日にかけて複数のコミュニティを調査したが、業界に大きな影響を与える新発表や技術進展は見られなかった。

Smol AI News·5月12日·★★★★

AI Gateway の生産性インデックス

Vercel が提供する AI Gateway は、数百のモデルにまたがる実アプリケーションやエージェントを通じて、毎週新モデルが発表される業界において、実際の稼働負荷に基づいた独自の指標を示している。Anthropic が単価の高さにもかかわらず支出で首位を維持し、Google がリードする状況が確認された。

Vercel Blog·5月12日·★★★★

SocialReasoning-Bench:AI エージェントがユーザーの利益のために行動できるかを測定するベンチマーク

マイクロソフト研究所は、AI エージェントがユーザーの代わりに交渉や対話を行う際に必要な社会的推論能力を評価する「SocialReasoning-Bench」を発表した。このベンチマークは、2 つの実用的なシナリオにおいて、エージェントがユーザーの最善の利益のために行動できるかをテストするものである。

Microsoft Research·5月12日·★★★★

ChatGPT 5.5 Pro の最近の体験:博士レベルの研究を1時間で生成

ユーザーは ChatGPT 5.5 Pro が人間の数学的入力なしで約1時間で博士レベルの研究論文を作成できることを確認した。このモデルは、人間が見過ごした簡単な証明を含む研究課題も解決可能であることが示された。

TLDR AI·5月11日·★★★★

適応型並列推論:効率的な推論スケーリングの新たなパラダイム

カリフォルニア大学バークレー校の研究チームは、思考プロセスを動的に分割・統合する「適応型並列推論」手法を発表し、大規模言語モデルの推論効率と速度を大幅に向上させる新パラダイムを確立した。

Berkeley AI Research·5月8日·★★★★

多モーダル LLM の空間・機能知能を評価するベンチマーク「SFI-Bench」の提案

研究者らは、既存のベンチマークが幾何学的知覚に留まる課題を指摘し、物的存在の場所だけでなく目的を理解する高次認知能力を評価する動画ベースのベンチマーク「SFI-Bench」を発表した。

Apple Machine Learning·5月6日·★★★★

Google Home の Gemini AI がより複雑なリクエストに対応可能に

Google はスマートホームアシスタント「Gemini for Home」をバージョン 3.1 に更新し、単一コマンドで複数のタスクを組み合わせたり、多段階の複雑な作業を実行したりする能力を向上させた。これにより、ユーザーはより高度な指示を自然言語で行えるようになった。

The Verge AI·5月6日

OpenAI のアレックス・ルパスカスカ氏:GPT-5.5 の限界はさらに先へ

OpenAI の研究者アレックス・ルパスカスカ氏は、GPT-5.5 が専門的な研究論文を 30 分で再現できるなど能力が向上したと指摘し、AI を活用する人々の経験値に応じてモデルの限界が外側に広がっていると述べています。

Latent Space·5月6日·★★★★★

Google Home、Gemini ベースの音声アシスタントとカメラ制御機能を強化

Google はスマートホーム向けデバイス「Google Home」を大幅に更新し、AI イベントラベリングを改善してカメラ映像の操作を容易にした。また、音声アシスタントを「Gemini 3.1」へ移行することで、応答の精度と信頼性を向上させた。

Ars Technica AI·5月6日·★★★★

今日は何も起こらなかった

OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。

Smol AI News·5月4日·★★★★★

PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法

研究チームは、大規模言語モデル(LLM)を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。

Apple Machine Learning·5月4日·★★★★

空間生物学における新 Frontier モデルは高速化されたが信頼性は向上せず

GPT-5.5 は GPT-5.4 より実行時間が半分になったが精度は変わらず、Opus 4.7 も同様の結果を示した。一般推論の改善だけでは不十分で、統計設計やプラットフォーム固有の分析など専門的な訓練が必要である。

TLDR AI·5月1日·★★★★

LaDiR:潜在拡散モデルがLLMの推論能力を強化する新フレームワーク

研究者らは、既存の大規模言語モデル(LLM)に潜在拡散モデルの特性を組み合わせた「LaDiR」という新たな推論フレームワークを開発しました。この手法は多様な推論経路を並列生成し、計画と修正を包括的に行うことで、精度や解釈性を向上させます。

TLDR AI·4月30日·★★★★

適応的思考:大規模言語モデルは潜在空間での思考の必要性を認識している

研究チームは、推論時の計算コスト最適化に向け、クエリの複雑度に応じて大規模言語モデルが潜在的な思考(中間推論)を行うタイミングを自己一貫性手法で制御する新アプローチを発表した。

Apple Machine Learning·4月29日·★★★★

エージェントが検索スタックを代替できるか?

AI エージェントに基本的な検索ツールを提供すると回答品質が向上し、さらに探索を促すことで改善が見られる。しかし、大規模言語モデルは未知の領域を評価できず、学習データが性能の限界を決めるため、知識不足を補う確実な方法は未だ存在しない。

TLDR AI·4月29日·★★★★

リアルタイム音声対話 AI の知識強化を目指す Tandem アーキテクチャ「KAME」が ICASSP2026 に採択

研究者らが、思考を深めつつ遅延なく応答する新アーキテクチャ「KAME」を発表し、ICASSP2026 で採用された。これにより、従来の浅い推論に留まっていた高速音声 AI の知能が向上する可能性がある。

Sakana AI·4月29日·★★★★

並行世界における検索エージェントの評価

研究者らが、LLMに統合された検索エージェントの評価における課題(高品質なベンチマーク構築の困難さと静的ベンチマークの陳腐化)を指摘し、新たな評価手法の必要性を論じている。

ArXiv cs.AI·3月6日·★★★★

モラベックのパラドックスの事実確認

著者はYouTubeチャンネルでAI開発を分析し、最近の動画で「人間には難しいタスクはAIに簡単」とされるモラベックのパラドックスを検証した。その結果、このパラドックスは多くの研究者が繰り返すものの、実証試験が行われていないことが判明した。

AI Snake Oil·1月30日

ServiceNow、顧客アプリと社内生産性向上にClaudeを採用

ServiceNowが、顧客向けアプリケーションの強化と社内生産性向上のために、AIアシスタント「Claude」を採用した。

Anthropic News·1月28日·★★★★

Seed Prover 1.5:新たなエージェント型アーキテクチャと強化された数学的推論能力

バイトダンスのSeedチームは、新たなエージェント型アーキテクチャを採用した「Seed Prover 1.5」を発表し、2025年のプットナム数学競技会の11問を9時間で解決するなど、数学的推論能力が大幅に向上したことを示した。

字节跳动Seed·12月24日·★★★★

AIの形状:不規則性、ボトルネック、顕著な特徴

筆者らは2023年、「ジャグドフロンティア」という用語を提唱し、AIが人間の直感とかけ離れた能力の偏り(特定のタスクは超人的に優れ、他は著しく劣る)を説明した。この不規則性はAIの主要な特徴であり、混乱の原因となっている。

One Useful Thing·12月21日·★★★★

大規模言語モデルの能力を向上させる新手法

研究者が、言語の構文変化や状態遷移を追跡する手法を開発し、大規模言語モデルの逐次推論能力を向上させた。

MIT ML News·12月18日·★★★★

プロジェクト・ヴェンド:フェーズ2

プロジェクト・ヴェンドがフェーズ2に移行した。具体的な内容は不明だが、AI/テクノロジー分野における継続的な取り組みを示している。

Anthropic Research·12月18日·★★★★

ジェミニ3フラッシュ:速度のために構築された最先端の知能

ジェミニ3フラッシュは、低コストで高速な最先端の知能を提供するAIモデルです。

Google DeepMind·12月17日·★★★★

本物のAIエージェントと実際の業務

OpenAIは、金融や法務などの専門家が設計した4〜7時間かかる実務タスクでAIを評価する新テストを発表。これにより、AIが経済的に意味のある「実際の業務」を遂行できる段階に達したことが示された。

One Useful Thing·9月30日·★★★★

GPT-5:ただ、それを実行するだけ

筆者はGPT-5への早期アクセス権を持ち、その重要性を評価している。特定の指示を含むプロンプトを入力したところ、24秒間の思考を経て劇的な出力を生成し、その能力の高さを示した。

One Useful Thing·8月8日·★★★★

AGIはマイルストーンではない

OpenAIの最新モデルo3の公開をきっかけに、AGI達成論争が再燃している。著者はAGI定義の不一致を指摘しつつ、AGIはAIシステムの性質や影響に断絶をもたらす「マイルストーン」ではないと主張する。

AI Snake Oil·5月1日·★★★★

なぜ私たちは考えるのか

OpenAIは、テスト時の計算量(Test time compute)と思考の連鎖(Chain-of-thought)を活用し、AIモデルの推論能力を向上させる手法について解説している。このアプローチにより、複雑な問題解決におけるモデルの精度と信頼性を高めることが可能となる。

Lilian Weng·5月1日·★★★★

GRPOは10倍効率的か?Kwai AIのSRPOがYesを示唆

Kwai AIは、大規模強化学習を用いた推論モデルの効率化手法「SRPO」を発表した。これはOpenAI o1やDeepSeek-R1の背景にある技術に関連し、GRPOを最大10倍効率的にできる可能性を示唆している。

Synced Review·4月24日·★★★★★

DeepSeek、次世代R2モデルを示唆しSPCTを用いた推論スケーリングの新手法を公開

DeepSeek AIは、一般報酬モデルの推論段階でのスケーラビリティを向上させる新技術「SPCT」に関する論文を発表した。同時に、次世代モデルR2の登場を示唆し、AI界隈で注目を集めている。

Synced Review·4月11日·★★★★

QVQ-Max:根拠に基づく思考

Qwenチームは、画像や動画の内容を理解し分析・推論して数学やプログラミングなどの問題を解決する視覚推論モデル「QVQ-Max」の正式版を公開した。

Qwen Blog·3月28日

HEROZ ASKへのo1モデル導入

OpenAIのo1モデルをHEROZ ASKに組み込み、LangChainを用いた実装時の留意点を共有。Azure OpenAI Service経由で2025年1月24日から利用可能。

HEROZ Tech Blog·1月27日

Grok-2 ベータ版リリース

新モデルGrok-2とGrok-2 miniのベータ版を発表。

xAI News·8月13日·★★★★

マルチ画像推論への準備はできているか?VHs:ビジュアル・ヘイスタック・ベンチマークの発表!

マルチ画像推論の能力を評価するための新しいベンチマーク「ビジュアル・ヘイスタック」が発表されました。

Berkeley AI Research·7月20日·★★★★