#llm のAIニュース

952件の記事

Together AI、ツール呼び出し・推論・ビジョン対応のファインチューニングサービスを拡大

Together AIは、ツール呼び出し、推論、ビジョン言語モデルのネイティブサポートを追加し、100B以上のモデルトレーニングに対応するファインチューニングサービスを拡大した。処理速度は最大6倍向上し、ジョブコストと所要時間の見積もり機能も提供している。

Together AI Blog·3月18日·★★★★

Prose2Policy (P2P): 自然言語アクセスポリシーを実行可能なRegoコードに変換する実用的なLLMパイプライン

Prose2Policy (P2P)は、自然言語のアクセス制御ポリシーをOpen Policy AgentのRegoコードに変換するLLMベースのツールで、ポリシー検出から自動テスト生成までをカバーするエンドツーエンドパイプラインを提供する。

Apple Machine Learning·3月18日·★★★★

GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現

OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。

Simon Willison Blog·3月18日·★★★★

llm 0.29

llmプロジェクトがバージョン0.29をリリースし、OpenAIの新モデル「gpt-5.4」「gpt-5.4-mini」「gpt-5.4-nano」のサポートを追加した。

Simon Willison Blog·3月18日

OpenAIがGPT-5.4 miniとnanoをリリース、性能向上も最大4倍の価格上昇

OpenAIがコーディングアシスタントやサブエージェント向けの小型モデル「GPT-5.4 mini」と「nano」を発表した。GPT-5.4 miniはフルモデルに匹敵する性能を持つが、前モデル比最大4倍の価格上昇となった。

The Decoder·3月18日·★★★★

LumberChunker: 長編物語文書のセグメンテーション

IST、NeuralShift AI、CMUの研究者らが、長編物語文書を構造的に分割する「LumberChunker」を発表した。

ML@CMU·3月18日·★★★★

Tim Schillingの引用

Tim Schillingは、LLMの不適切な使用がDjangoへの貢献を阻害すると指摘する。特に、コードレビューで人間性のない対応はコミュニティの士気を下げると述べている。

Simon Willison Blog·3月18日

GPT 5.4 MiniとNanoがAI Gatewayで利用可能に

OpenAIがGPT-5.4 MiniとGPT-5.4 NanoをVercel AI Gatewayで公開した。これらのモデルは、複数の小規模モデルが大規模タスクを協調するサブエージェントワークフロー向けに設計され、応答詳細度や推論レベルの制御が可能である。

Vercel Blog·3月17日

Trustpilot、従来型検索の衰退に伴いAI企業と提携

Trustpilotは、AI主導の買い物が普及する中、大手eコマース企業との提携を進めている。同社CEOは、消費者を代表するAIエージェントには企業情報が必要であり、Trustpilotのデータセットが有効だと述べた。

AI News·3月17日·★★★★

長期的な視野のためのトレーニングコンポーザー

Googleが、AIモデル「Composer」のトレーニングに自己要約を組み込むことで、モデルの最大コンテキストウィンドウを超える長い軌跡から学習信号を得られることを発表した。

Cursor Blog·3月17日

GPT-5.4 miniおよびnanoの紹介

OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。

OpenAI News·3月17日·★★★★

階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!

階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。

阶跃星辰·3月17日·★★★★

Mistral Small 4の紹介

Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。

Simon Willison Blog·3月17日·★★★★

CEOがChatGPTに2億5000万ドル契約無効化を相談、弁護士を無視し法廷で大敗

クラフトンCEOがChatGPTを利用してSubnautica 2開発スタジオの乗っ取り計画を立案し、開発者を不当解雇したため、裁判所が解雇無効を命じた。

404 Media·3月17日·★★★★

ブリタニカ百科事典、OpenAIを無断で約10万記事の学習使用により提訴

ブリタニカ百科事典がOpenAIを、許可なく約10万記事をAI学習に使用したとして著作権侵害で提訴した。欧州ではAIモデルが著作物を「保存」できるかについて裁判所の判断が分かれている。

The Decoder·3月17日·★★★★

研究が示す:孤独感軽減にはチャットボットより見知らぬ人とのテキスト通話が効果的

ブリティッシュコロンビア大学の研究者が、新入生を対象に実施した研究で、毎日ランダムに選ばれた同級生と2週間テキスト通話をした場合、孤独感が約9%減少することを発見した。

404 Media·3月17日

GPT-4.5、73%の人々を人間だと思わせるために「より愚か」を装う

研究者がGPT-4.5にタイプミスをさせ、句読点を省略させ、基本的な計算を間違えさせたところ、73%の参加者がGPT-4.5を人間だと判断した。

The Decoder·3月17日

米国財務省、金融機関向けAIリスクガイドブックを公表

米国財務省は、金融サービス業界向けにAIリスク管理フレームワークとガイドブックを公表した。100以上の金融機関・業界団体が協力して開発したもので、AIリスクへの体系的な対応を提案している。

AI News·3月17日·★★★★

アリババ、CEO直轄の新事業部「Alibaba Token Hub」にAI事業を統合

アリババがAI事業を「Alibaba Token Hub」に統合し、CEOのエディー・ウーが直接指揮を執る。

The Decoder·3月16日·★★★★

VercelでLiteLLMサーバーがサポートされる

VercelがLiteLLMサーバーのデプロイを可能にし、開発者はOpenAI互換ゲートウェイを通じてVercel AI Gatewayを含む複数プロバイダーのLLMにアクセスできるようになった。

Vercel Blog·3月16日

ImportAI 449:LLMが他のLLMを訓練;72Bパラメータの分散学習実行;コンピュータビジョンは生成テキストより困難

Jack Clarkのニュースレター「ImportAI 449」は、大規模言語モデル(LLM)が自律的に他のLLMを改善する可能性、720億パラメータ規模の分散学習の実績、および生成テキスト処理と比較してコンピュータビジョンが依然として困難である課題について報じている。

Import AI·3月16日·★★★★

エージェンティック・エンジニアリングとは何か

著者のSimon Willison氏が、コーディングエージェント(Claude Code、OpenAI Codexなど)の支援を受けてソフトウェアを開発する実践を「エージェンティック・エンジニアリング」と定義している。

Simon Willison Blog·3月16日

グーグル研究者、大規模言語モデル向けベイズ的教授法を提案

グーグルリサーチは、最適なベイズシステムの予測から学習することで大規模言語モデルがベイズ推論を近似する訓練方法を提案した。この手法は、多段階インタラクション中に新しい情報を受け取った際のモデルの信念更新方法の改善に焦点を当てている。

InfoQ·3月14日·★★★★

Anthropic、100万トークンコンテキストウィンドウの追加料金を廃止しOpus 4.6とSonnet 4.6を大幅に低価格化

AnthropicがClaude Opus 4.6とSonnet 4.6の長文コンテキストに対する追加料金を廃止し、20万トークンを超えるリクエストのコストが最大2倍から通常料金に引き下げられた。

The Decoder·3月14日·★★★★

Opus 4.6とSonnet 4.6で100万トークンのコンテキスト長が一般提供開始

Anthropic社が、Opus 4.6とSonnet 4.6モデルで100万トークンのコンテキスト長を標準価格で一般提供開始した。競合のOpenAIやGeminiは長いコンテキストに対して追加料金を課しているが、Anthropicは追加料金なしで提供している点が特徴。

Simon Willison Blog·3月14日·★★★★

クレイグ・モッドの言葉を引用して

クレイグ・モッドが、既存の会計ソフトでは自身のニーズを満たせないため、5日間で独自の高速・ローカル対応・多通貨処理可能な会計ソフトを開発したと述べている。

Simon Willison Blog·3月14日·★★★★

Meta、次期AIモデル「Avocado」を延期 内部テストでGoogle・OpenAIに遅れ

Metaは、内部テストでGoogleとOpenAIのモデルに追いつけないことが判明したため、次期AIモデル「Avocado」のリリースを延期した。

The Decoder·3月13日·★★★★

大規模言語モデルの相互作用の大規模識別

カリフォルニア大学バークレー校の研究者らが、大規模言語モデル(LLM)の相互作用を大規模に識別する手法を開発した。

Berkeley AI Research·3月13日

LWiAIポッドキャスト第236回 - GPT 5.4、Gemini 3.1 Flash Lite、サプライチェーンリスク

OpenAIがGPT-5.4 Proをリリースし、100万トークンのコンテキストウィンドウ、応答中の軌道修正機能、コンピューター使用能力を搭載。GoogleはGemini 3.1 Flash Liteを発表し、コスト削減と高速化を実現。サプライチェーンリスクに関する議論も行った。

Last Week in AI·3月13日·★★★★

MALUS - サービスとしてのクリーンルーム

MALUSは、オープンソースプロジェクトを独自のAIロボットで一から再構築し、法的に区別されたコードを企業向けライセンスで提供するサービスを提案している。

Simon Willison Blog·3月13日

Grok 4.20はGeminiとGPT-5.4に大きく遅れるが、幻覚を起こさない新記録を樹立

xAIのGrok 4.20は、ベンチマークではトップモデルに及ばないが、低コスト・高速で、他のモデルよりも幻覚を起こしにくい特徴を持つ。

The Decoder·3月13日

コーダーの後のコーディング:私たちが知るコンピュータプログラミングの終わり

ニューヨーク・タイムズ誌のクライブ・トンプソン記者が、Google、Amazon、Microsoft、Appleなどの70人以上のソフトウェア開発者に取材し、AI支援開発がプログラミングの本質を変えつつあると報告した。

Simon Willison Blog·3月13日·★★★★

米国戦争省CTO、AnthropicのAIモデルが組み込み倫理でサプライチェーンを「汚染」すると発言

米国戦争省がAnthropicのAIモデル「Claude」をサプライチェーンから排除する方針を示した。同省CTOは、AIモデルに組み込まれた倫理規範が中国のAIに対する政治的統制に類似していると指摘し、サプライチェーンを「汚染」すると批判した。

The Decoder·3月13日·★★★★

Les Orchardの引用

Les Orchardは、AI支援コーディングが、以前から存在していたが目立ちにくかった開発者間の分断を明らかにしていると指摘する。

Simon Willison Blog·3月13日·★★★★

Qwen3.5 × Twinkle 低コストモデルトレーニングのベストプラクティス

通義実験室が、Qwen3.5のトレーニング実践を例に、新規オープンソースフレームワーク「Twinkle」を用いた大規模モデルの効率的で使いやすいトレーニング方法を紹介した。

通义大模型·3月12日·★★★★

Claudeがインタラクティブなチャート、図表、視覚化を作成できるようになりました

Anthropic社のAIアシスタントClaudeが、インタラクティブなチャート、図表、視覚化を生成する機能を追加しました。

Claude Blog·3月12日·★★★★

コードコンセプト:プログラミング概念の種から生成された大規模合成データセット

研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。

Hugging Face Blog·3月12日·★★★★

【社内勉強会】AI生成スライド限定の社内LT会を開催

Algomatic社が、発表スライドを全てAIで生成する条件で社内LT会を開催し、LLM製品の品質担保やAI駆動開発の設計環境など実務課題への試行錯誤をエンジニア間で共有した。

Algomatic Tech Blog·3月11日

AIがほぼ全てのコードを書く時代、ソフトウェア工学はどう変わるのか?

ベテランエンジニアたちが、AIのコーディング能力が質的転換点を超え、コードを書く価値は低下する一方で、ソフトウェア「工学」の価値は高まっていると指摘している。

宝玉的分享·3月11日·★★★★

生の相互作用から再利用可能な知識へ:AIエージェントのメモリ再考

マイクロソフトが、AIエージェントのメモリ問題を解決する「PlugMem」を発表した。現在のAIエージェントは長い対話履歴を保存するが再利用が困難で、生のメモリ検索は長く価値の低い文脈でエージェントを圧倒する。PlugMemは対話履歴を構造化された再利用可能な知識に変換し、単一の汎用メモリモジュールで多様なエージェントベンチマークの性能を向上させる。

Microsoft Research·3月11日·★★★★

カスタムLLMのデプロイを加速: OumiでファインチューニングしAmazon Bedrockにデプロイ

OumiのDavid StewartとMatthew Personsが、オープンソース大規模言語モデルの実験から本番環境への移行における課題を解決する方法を紹介。LlamaモデルをOumiでファインチューニングし、Amazon Bedrockにデプロイする手順を示す。

AWS Machine Learning Blog·3月11日

フロンティアLLMにおける命令階層の改善

研究チームがIH-Challengeを開発し、大規模言語モデルに信頼できる命令を優先させる訓練を行い、命令階層の向上、安全性の制御性、プロンプトインジェクション攻撃への耐性を改善した。

OpenAI News·3月10日·★★★★

LLMの自律的調査能力を高めるAgenticRLの取り組みと知見

ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。

ABEJA Tech Blog·3月10日

NVIDIA Megatron CoreにおけるFalcon-H1ハイブリッドアーキテクチャの実装

NVIDIAが、大規模言語モデル開発の基盤フレームワーク「Megatron Core」に、新しいハイブリッドアーキテクチャ「Falcon-H1」を実装した。この技術は、LLMトレーニングの効率性と拡張性を向上させることを目的としている。

NVIDIA Developer Blog·3月10日·★★★★

Anthropicの画期的な訴訟、政府のAI安全性判断への罰則権限に挑戦

Anthropicが17の米連邦機関を提訴した。同社は政府から矛盾する脅迫を受けながらもAI安全性ガードレールを維持し、国防総省の機密システムにClaudeが深く組み込まれている実態を明らかにした。

The Decoder·3月10日·★★★★

分散型サービングから推測作業を排除

NVIDIAが、大規模言語モデルの高性能かつコスト効率の良いサービングにおける分散型アーキテクチャの最適化手法を提案し、推測作業を減らす技術を発表した。

NVIDIA Developer Blog·3月10日·★★★★

AIエージェントを強化する『合成データ』作成の実践的Tips集

この記事は、LLMやAIエージェントを用いてAIエージェント向けの合成データを生成するための実践的な方法を紹介している。

LayerX Tech Blog·3月10日·★★★★

『AI精神病』を経験している人との対話方法

Davidは友人Michaelのプログラミングコードが意味をなさないことに気づき、AI生成コードへの過度な依存による混乱状態(AI精神病)の事例を報告した。

404 Media·3月9日

数百万人がAIチャットボットを財務アドバイスに利用、専門家は明確な限界を警告

金融タイムズが報じたところでは、数百万人がChatGPTなどのチャットボットを退職計画に利用しているが、専門家はその明確な限界を警告している。

The Decoder·3月9日·★★★★

つまらない技術ではないかもしれない

著者が、LLMがプログラミングに与える影響について、訓練データに多く含まれるツールが優先され、新たな優れたツールの普及を妨げる可能性を指摘している。過去にはPythonやJavaScriptの質問が他言語より良い結果を出したが、最近のモデルでは改善が見られる。

Simon Willison Blog·3月9日