#推論能力のAIニュース

15件の記事

GPT-5 が免疫学者のデリア・ウンルタマズ氏に 3 年間の謎を解く手助けをした方法

OpenAI は、自社の最新モデル GPT-5 が免疫学者であるデリア・ウンルタマズ氏の 3 年間続いた研究課題の解決に貢献した事例を発表しました。

OpenAI News·6月24日·★★★★

GLM-5.2 がオープンモデルの基準を向上させる（14 分読）

Zhipu AI が公開した大規模言語モデル「GLM-5.2」が、既存のオープンソースモデルと比較して性能や効率性を大幅に引き上げたと発表された。

TLDR AI·6月23日·★★★★

化学者としての Claude の活用（12 分読）

Anthropic が開発した AI モデル「Claude」は、NMR スペクトルの予測において従来のツールに匹敵し、場合によっては上回る性能を示しました。特に Claude 派生モデルの「Opus 4.7」は水素や炭素シフトを正確に予測し、スペクトルデータから化学構造を推定する逆工学タスクでも有望な結果を出しています。

TLDR AI·6月8日·★★★★

Ai2 の次なる展開：暫定 CEO ピーター・クラークに聞く

Ai2 の暫定 CEO ピーター・クラークが、同機関のオープンサイエンスへのコミットメントと今後の方向性について語った。

Allen AI (AI2)·5月1日

Mistral Medium 3.5 がリモート Vibe エージェントを駆動し、長時間非同期コーディングタスクを可能に

Mistral AI は、128B パラメータの高密度モデル「Mistral Medium 3.5」を発表しました。このモデルは CLI や Le Chat から起動可能なリモート Vibe エージェントを駆動し、クラウド上で複雑な多段階コーディングタスクを実行します。

TLDR AI·4月30日·★★★★

LaDiR：潜在拡散がLLMのテキスト推論能力を強化

アント・リンボーは、連続的な潜在表現の表現力と反復的修正機能を統合した新規推論フレームワークLaDiRを提案。この手法は、LLMの連鎖的思考生成における限界を克服し、より効率的かつ多様な解決策の探索を可能にする。

Apple Machine Learning·4月28日·★★★★

Anthropic、データ流出で存在が明らかになったリークモデルが推論能力で「段階的変化」を記録したと確認

Anthropicはセキュリティミスにより最高性能のAIモデルを誤って公開し、同社はこのモデルが推論能力で「段階的変化」を達成したと確認した。OpenAIが次世代モデルを準備する中、両社は上場前に最高技術を競っている。

The Decoder·3月27日·★★★★

AAAI-2026 参加報告：サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表

サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。

CyberAgent Developers Blog·3月23日·★★★★

グーグル研究者、大規模言語モデル向けベイズ的教授法を提案

グーグルリサーチは、最適なベイズシステムの予測から学習することで大規模言語モデルがベイズ推論を近似する訓練方法を提案した。この手法は、多段階インタラクション中に新しい情報を受け取った際のモデルの信念更新方法の改善に焦点を当てている。

InfoQ·3月14日·★★★★

研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘

国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。

The Decoder·3月7日·★★★★

インタラクティブ・ベンチマーク

研究者らは、従来のベンチマークが飽和・主観性・汎化性の問題を抱えると指摘し、モデルの能動的情報獲得能力を評価する「インタラクティブ・ベンチマーク」を提案した。この枠組みは予算制約下での対話的推論能力を測定する。

ArXiv cs.AI·3月6日·★★★★

OptiMind：最適化専門の小型言語モデル

Microsoft Researchは最適化専門の小型言語モデル「OptiMind」を開発し、新手法で大小規模言語モデルの推論性能を向上させた。

Microsoft Research·1月15日·★★★★

AIに職業面接を行う

現在のAI評価は人間同様のテスト（ベンチマーク）に依存しているが、正解データが公開されているため信頼性に課題がある。この記事は、AIの「賢さ」を測定する既存手法の問題点を指摘し、より適切な評価方法の必要性を示唆している。

One Useful Thing·11月12日·★★★★

OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proの評価と解釈[2025年4月版]

2025年4月時点で、OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proという主要AIモデルの性能評価と解釈が行われた。

Algomatic Tech Blog·4月28日·★★★★

Car-GPT: 大規模言語モデルはついに自動運転車を実現させるか？

大規模言語モデル（LLM）が自動運転車に活用できる可能性と、信頼性や課題について探る。

The Gradient·3月9日·★★★★