#llm のAIニュース

410件の記事

LumberChunker: 長編物語文書のセグメンテーション

IST、NeuralShift AI、CMUの研究者らが、長編物語文書を構造的に分割する「LumberChunker」を発表した。

ML@CMU·3月18日·★★★★

Tim Schillingの引用

Tim Schillingは、LLMの不適切な使用がDjangoへの貢献を阻害すると指摘する。特に、コードレビューで人間性のない対応はコミュニティの士気を下げると述べている。

Simon Willison Blog·3月18日

GPT 5.4 MiniとNanoがAI Gatewayで利用可能に

OpenAIがGPT-5.4 MiniとGPT-5.4 NanoをVercel AI Gatewayで公開した。これらのモデルは、複数の小規模モデルが大規模タスクを協調するサブエージェントワークフロー向けに設計され、応答詳細度や推論レベルの制御が可能である。

Vercel Blog·3月17日

Trustpilot、従来型検索の衰退に伴いAI企業と提携

Trustpilotは、AI主導の買い物が普及する中、大手eコマース企業との提携を進めている。同社CEOは、消費者を代表するAIエージェントには企業情報が必要であり、Trustpilotのデータセットが有効だと述べた。

AI News·3月17日·★★★★

長期的な視野のためのトレーニングコンポーザー

Googleが、AIモデル「Composer」のトレーニングに自己要約を組み込むことで、モデルの最大コンテキストウィンドウを超える長い軌跡から学習信号を得られることを発表した。

Cursor Blog·3月17日

GPT-5.4 miniおよびnanoの紹介

OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。

OpenAI News·3月17日·★★★★

階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!

階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。

阶跃星辰·3月17日·★★★★

Mistral Small 4の紹介

Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。

Simon Willison Blog·3月17日·★★★★

CEOがChatGPTに2億5000万ドル契約無効化を相談、弁護士を無視し法廷で大敗

クラフトンCEOがChatGPTを利用してSubnautica 2開発スタジオの乗っ取り計画を立案し、開発者を不当解雇したため、裁判所が解雇無効を命じた。

404 Media·3月17日·★★★★

GPT-5.4 API初週好調

Sam AltmanがGPT-5.4 APIの初週の好調な利用状況を報告。

X: Sam Altman·3月17日

ブリタニカ百科事典、OpenAIを無断で約10万記事の学習使用により提訴

ブリタニカ百科事典がOpenAIを、許可なく約10万記事をAI学習に使用したとして著作権侵害で提訴した。欧州ではAIモデルが著作物を「保存」できるかについて裁判所の判断が分かれている。

The Decoder·3月17日·★★★★

OpenEvalsアップデート公開

LangChainがLLM評価ライブラリのアップデートをリリース

X: LangChain·3月17日

研究が示す:孤独感軽減にはチャットボットより見知らぬ人とのテキスト通話が効果的

ブリティッシュコロンビア大学の研究者が、新入生を対象に実施した研究で、毎日ランダムに選ばれた同級生と2週間テキスト通話をした場合、孤独感が約9%減少することを発見した。

404 Media·3月17日

GPT-4.5、73%の人々を人間だと思わせるために「より愚か」を装う

研究者がGPT-4.5にタイプミスをさせ、句読点を省略させ、基本的な計算を間違えさせたところ、73%の参加者がGPT-4.5を人間だと判断した。

The Decoder·3月17日

米国財務省、金融機関向けAIリスクガイドブックを公表

米国財務省は、金融サービス業界向けにAIリスク管理フレームワークとガイドブックを公表した。100以上の金融機関・業界団体が協力して開発したもので、AIリスクへの体系的な対応を提案している。

AI News·3月17日·★★★★

VercelでLiteLLMサーバーがサポートされる

VercelがLiteLLMサーバーのデプロイを可能にし、開発者はOpenAI互換ゲートウェイを通じてVercel AI Gatewayを含む複数プロバイダーのLLMにアクセスできるようになった。

Vercel Blog·3月16日

エージェンティック・エンジニアリングとは何か

著者のSimon Willison氏が、コーディングエージェント(Claude Code、OpenAI Codexなど)の支援を受けてソフトウェアを開発する実践を「エージェンティック・エンジニアリング」と定義している。

Simon Willison Blog·3月16日

オープンモデル最新動向

GTCでオープンモデルの現状と展望について議論

X: LangChain·3月15日

Claude利用時間拡大

ピーク時間外のClaude利用枠を倍増する発表

X: Claude·3月15日

Codexグローバル展開

Codexの世界規模のミートアップ開催開始

X: OpenAI Developers·3月15日

グーグル研究者、大規模言語モデル向けベイズ的教授法を提案

グーグルリサーチは、最適なベイズシステムの予測から学習することで大規模言語モデルがベイズ推論を近似する訓練方法を提案した。この手法は、多段階インタラクション中に新しい情報を受け取った際のモデルの信念更新方法の改善に焦点を当てている。

InfoQ·3月14日·★★★★

エージェントAI新章発表

NVIDIA主導の複数企業連携によるエージェントAI新展開

X: NVIDIA AI·3月14日

Anthropic、100万トークンコンテキストウィンドウの追加料金を廃止しOpus 4.6とSonnet 4.6を大幅に低価格化

AnthropicがClaude Opus 4.6とSonnet 4.6の長文コンテキストに対する追加料金を廃止し、20万トークンを超えるリクエストのコストが最大2倍から通常料金に引き下げられた。

The Decoder·3月14日·★★★★

Claude 100万トークン対応

Claude Opus/Sonnet 4.6で100万トークン対応が一般提供開始

X: Claude·3月14日·★★★★

大規模言語モデルの相互作用の大規模識別

カリフォルニア大学バークレー校の研究者らが、大規模言語モデル(LLM)の相互作用を大規模に識別する手法を開発した。

Berkeley AI Research·3月13日

GPT-5.4がCursorBenchで首位

GPT-5.4がCursorBenchで正確性と効率的なトークン使用でトップ

X: OpenAI Developers·3月13日

MALUS - サービスとしてのクリーンルーム

MALUSは、オープンソースプロジェクトを独自のAIロボットで一から再構築し、法的に区別されたコードを企業向けライセンスで提供するサービスを提案している。

Simon Willison Blog·3月13日

Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立

xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。

The Decoder·3月13日

米国戦争省CTO、AnthropicのAIモデルが組み込み倫理でサプライチェーンを「汚染」すると発言

米国戦争省がAnthropicのAIモデル「Claude」をサプライチェーンから排除する方針を示した。同省CTOは、AIモデルに組み込まれた倫理規範が中国のAIに対する政治的統制に類似していると指摘し、サプライチェーンを「汚染」すると批判した。

The Decoder·3月13日·★★★★

CHMv2公共部門で活用

CHMv2が米欧などの公共部門で使用開始

X: AI at Meta·3月13日

LangChainがNemotron 3 Superをサポート

NvidiaのオープンソースモデルNemotron 3 SuperをLangChainがサポート開始

X: LangChain·3月12日

LLMの推論と知識の関係

LLMにおける推論がパラメトリック知識を解放する仕組みに関する研究論文

X: AK·3月12日

エージェントの予測不能性ガイド

LangChainがエージェントの予測不能性に関する概念ガイドを公開

X: LangChain·3月12日

コードコンセプト:プログラミング概念の種から生成された大規模合成データセット

研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。

Hugging Face Blog·3月12日·★★★★

【社内勉強会】AI生成スライド限定の社内LT会を開催

Algomatic社が、発表スライドを全てAIで生成する条件で社内LT会を開催し、LLM製品の品質担保やAI駆動開発の設計環境など実務課題への試行錯誤をエンジニア間で共有した。

Algomatic Tech Blog·3月11日

AIがほぼ全てのコードを書く時代、ソフトウェア工学はどう変わるのか?

ベテランエンジニアたちが、AIのコーディング能力が質的転換点を超え、コードを書く価値は低下する一方で、ソフトウェア「工学」の価値は高まっていると指摘している。

宝玉的分享·3月11日·★★★★

生の相互作用から再利用可能な知識へ:AIエージェントのメモリ再考

マイクロソフトが、AIエージェントのメモリ問題を解決する「PlugMem」を発表した。現在のAIエージェントは長い対話履歴を保存するが再利用が困難で、生のメモリ検索は長く価値の低い文脈でエージェントを圧倒する。PlugMemは対話履歴を構造化された再利用可能な知識に変換し、単一の汎用メモリモジュールで多様なエージェントベンチマークの性能を向上させる。

Microsoft Research·3月11日·★★★★

非自己回帰LLM音声認識モデル発表

トランスクリプト編集による新音声認識手法の論文公開

X: AK·3月11日

カスタムLLMのデプロイを加速: OumiでファインチューニングしAmazon Bedrockにデプロイ

OumiのDavid StewartとMatthew Personsが、オープンソース大規模言語モデルの実験から本番環境への移行における課題を解決する方法を紹介。LlamaモデルをOumiでファインチューニングし、Amazon Bedrockにデプロイする手順を示す。

AWS Machine Learning Blog·3月11日

1.58ビットLLMの新手法

Sparse-BitNet、半構造化スパース性に適した1.58ビットLLMを発表

X: AK·3月11日·★★★★

教師なしRLVRのLLM学習拡張可能性

教師なしRLVRによる大規模言語モデル学習の拡張性に関する研究論文

X: AK·3月11日

LLMの長文生成の一貫性バグ

大規模言語モデルの長文生成における一貫性問題に関する研究論文

X: AK·3月11日

GeminiがGoogle Workspaceに統合

GoogleがGemini AIをWorkspaceに統合し、業務効率化を強化

X: Google AI·3月10日·★★★★

フロンティアLLMにおける命令階層の改善

研究チームがIH-Challengeを開発し、大規模言語モデルに信頼できる命令を優先させる訓練を行い、命令階層の向上、安全性の制御性、プロンプトインジェクション攻撃への耐性を改善した。

OpenAI News·3月10日·★★★★

LLMの自律的調査能力を高めるAgenticRLの取り組みと知見

ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。

ABEJA Tech Blog·3月10日

nanochat自動チューニング実験

Andrej Karpathyがnanochatの自動研究チューニング実験を実施、新たな発見を報告

X: Andrej Karpathy·3月10日

NVIDIA Megatron CoreにおけるFalcon-H1ハイブリッドアーキテクチャの実装

NVIDIAが、大規模言語モデル開発の基盤フレームワーク「Megatron Core」に、新しいハイブリッドアーキテクチャ「Falcon-H1」を実装した。この技術は、LLMトレーニングの効率性と拡張性を向上させることを目的としている。

NVIDIA Developer Blog·3月10日·★★★★

Anthropicの画期的な訴訟、政府のAI安全性判断への罰則権限に挑戦

Anthropicが17の米連邦機関を提訴した。同社は政府から矛盾する脅迫を受けながらもAI安全性ガードレールを維持し、国防総省の機密システムにClaudeが深く組み込まれている実態を明らかにした。

The Decoder·3月10日·★★★★

分散型サービングから推測作業を排除

NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。

NVIDIA Developer Blog·3月10日·★★★★

Penguin-VL効率限界の探求

LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表

X: AK·3月10日