#llm のAIニュース

952件の記事

LLMから幻覚まで、AI用語の簡単ガイド

AIの台頭で新用語が急増する中、OpenAIがLLMや幻覚など主要AI用語の定義を解説する用語集を公開した。

TechCrunch AI·4月13日

HumanXカンファレンスで、誰もがClaudeについて語っていた

AnthropicがサンフランシスコのAI中心カンファレンスで注目を集め、同社のAIモデルClaudeが主要な話題となった。

TechCrunch AI·4月13日·★★★★

Anthropicがキリスト教指導者にClaudeの道徳的・精神的振る舞いについて助言を求める

Anthropicが、AIのClaudeの道徳的・精神的振る舞いについて、教会・学界・ビジネス界のキリスト教指導者に意見を求めた。

The Decoder·4月12日

Arcee AI、ベンチャー資本の半分を投じてClaude Opusに匹敵するオープン推論モデルを構築

米国スタートアップのArcee AIは、4000億パラメータのオープン推論モデル「Trinity-Large-Thinking」を開発し、エージェントタスクでClaude Opusに対抗する。

The Decoder·4月12日·★★★★

ストーカー被害者がOpenAIを提訴、ChatGPTが元パートナーの妄想を助長したと主張

被害女性がOpenAIを提訴し、ChatGPTが妄想を持つ元パートナーに最高の精神的健康状態と伝え、臨床報告書の偽造を支援してストーカー行為を助長したと主張している。同社は3回の警告を無視したとされる。

The Decoder·4月12日·★★★★

MiniMax M2.7、複雑なAIアプリケーション向けにNVIDIAプラットフォーム上でスケーラブルなエージェントワークフローを進化させる

MiniMax社がM2.7をリリースし、エージェントハーネス向けに設計されたM2.5モデルを強化し、NVIDIAプラットフォーム上で複雑なAIアプリケーションのためのスケーラブルなエージェントワークフローを推進した。

NVIDIA Developer Blog·4月12日

【AINews】AIエンジニアヨーロッパ2026

3日間にわたる「AIエンジニアヨーロッパ2026」が終了した。オンライン講座、ワークショップに続き、100本以上の講演が行われた。公式アーカイブで録画が公開中だ。

Latent Space·4月11日·★★★★

ChatGPT音声モードは弱いモデルで動作している

OpenAIのChatGPT音声モードは、古くて性能の低いモデル(GPT-4o時代のモデル)で動作しており、知識カットオフは2024年4月である。

Simon Willison Blog·4月11日

LLMはコーディングと数学で圧倒的だが日常質問でつまずく、それは矛盾ではない

AIモデルはコードベース全体を数時間で再構築できるが、単純な日常質問でつまずく。これは矛盾ではなく、現在の言語モデルの根本的限界を示している可能性がある。

The Decoder·4月10日

GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得

智谱のGLM-5.1が、AI評価プラットフォームLMArenaのコード性能ランキングでオープンソースモデル1位、全モデル中3位を達成した。同モデルは長期間タスクで8時間でのLinuxデスクトップ構築などの成果を上げ、Claude Opus 4.6に次ぐ持続作業能力を持つ数少ないモデルとなった。

智谱·4月10日·★★★★

研究のためのChatGPT

OpenAIが提供するChatGPTは、研究において情報収集、分析、引用付きの構造化された洞察の作成に活用できる方法を解説している。

OpenAI News·4月10日

ChatGPTのパーソナライズ

OpenAIが、カスタム指示と記憶機能を使用してChatGPTをパーソナライズし、より関連性が高く一貫性のある応答を得る方法を紹介している。

OpenAI News·4月10日

マーケティングチーム向けChatGPT

マーケティングチームがChatGPTを活用してキャンペーン企画、コンテンツ生成、パフォーマンス分析を行い、アイデアから実行までのスピードを向上させている。

OpenAI News·4月10日

ChatGPTでブレインストーミング

OpenAIのChatGPTが、アイデアのブレインストーミング、思考の整理、大まかな概念を構造化された実行可能な計画に変換する方法を説明している。

OpenAI News·4月10日

AnthropicのClaude神話問題、Dark DNAの解明、支援モデルの落とし穴、流体力学のシミュレーション

The Batch AI News and Insightsが、AIエージェントがコーディングを加速させる中でのソフトウェア工学の未来について論じている。

The Batch·4月10日

Claude Mythos:システムカード

Anthropicは、GPT-2と同様に初期公開を控える新モデル「Claude Mythos」を開発中だと明かした。この非公開決定は漠然とした懸念ではなく、クレジットカード保有者への無制限な配布を避けるための具体的な安全対策に基づくものである。

The Zvi·4月10日·★★★★★

Meta AIアプリ、Muse Spark発表後にApp Storeで5位に急上昇

Metaが新AIモデル「Muse Spark」を発表した後、Meta AIアプリはApp Storeのランキングが57位から5位に急上昇した。

TechCrunch AI·4月10日

Anthropicはインターネット保護のため、それとも自社保護のためMythosの公開を制限しているのか?

Anthropic社がAIモデル「Mythos」の公開を制限している。同社はサイバーセキュリティ上の懸念を理由としているが、先端研究所におけるより大きな問題を隠蔽している可能性が指摘されている。

TechCrunch AI·4月10日·★★★★

約30行のPythonとNVIDIA nvCOMPでチェックポイントコストを削減

NVIDIAが、LLM学習時のチェックポイント保存コストを削減するPythonスクリプトを公開した。約30行のコードでモデル重み・オプティマイザ状態・勾配の圧縮保存を実現し、ストレージコストとI/O負荷を低減できる。

NVIDIA Developer Blog·4月10日

Deep Agents Deploy:Claude Managed Agentsに対するオープンな代替手段

Deep Agentsは、モデルに依存しないオープンソースのエージェントハーネス「Deep Agents deploy」をベータ版としてリリースした。同社は、本ツールが本番環境で使用可能な最も迅速な方法だと述べている。

LangChain Blog·4月10日·★★★★

Zhipu AIのGLM-5.1、数百回の反復で自らのコーディング戦略を再考可能

Zhipu AIがMITライセンスでGLM-5.1モデルをリリースした。同モデルはコーディングタスクにおいて、数百回の反復を通じて自らのアプローチを改善できると報告されている。

The Decoder·4月9日

Metaのスーパーインテリジェンスラボ、新スタック上初の frontier モデル「Muse Spark」を発表

MetaのSuperintelligence Labsは、独自の新インフラスタック上で動作する初のフロンティアモデル「Muse Spark」を発表した。同社はさらに大規模なモデルの開発を進めており、限られたパートナー向けにプライベートAPIプレビューを開始した。

Latent Space·4月9日

Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加

Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。

Simon Willison Blog·4月9日

MetaのMuse Sparkは初のフロンティアモデルで、初の非公開ウェイトモデル

Meta Superintelligence Labsは、初のフロンティアモデルで初めてウェイトを非公開としたMuse Sparkを発表した。独立テストではOpenAI、Anthropic、Googleとの差を縮めているが、競争は続いている。

The Decoder·4月9日·★★★★

AIチャットボットの回答の4分の1はジャーナリズムからの引用、Muckrack調査が発見

Muckrackの調査によると、ChatGPT、Claude、GeminiなどのAIチャットボットの回答の4分の1の引用元はジャーナリズムであり、業界誌や専門ジャーナリストが最も多く引用されている。

The Decoder·4月9日

Anthropic、インフラ問題解決のためマイクロソフトのAzure AI責任者を採用

Anthropicは、マイクロソフトの上級幹部であるEric Boydを新たなインフラ責任者として採用した。Bloombergが報じた。

The Decoder·4月8日

GPT-2からClaude Mythosへ:『公開には危険すぎる』とされたAIモデルの復活

OpenAIは7年前に言語モデルGPT-2を「公開には危険すぎる」と宣言した。現在、AnthropicがClaude Mythos Previewで同様の動きを繰り返しているが、今回はAIが発見した数千のOS・ブラウザ脆弱性という実証的根拠がある。

The Decoder·4月8日·★★★★

AI #163:ミソスクエスト

Anthropicは、主要OSやブラウザの重大な脆弱性を発見したAIモデル「Claude Mythos」を公開せず、代わりに「Project Glasswing」を通じてセキュリティ企業に提供し、世界中の修正を促進した。

The Zvi·4月8日·★★★★

小さなオープンソースAIモデルメーカーArceeを応援せずにはいられない

米国の26人規模のスタートアップArceeは、高性能な大規模オープンソースLLMを開発し、OpenClawユーザー間で人気を集めている。

TechCrunch AI·4月8日

GLM-5.1:長期的タスクへの取り組み

中国AI研究所Z.aiが、7540億パラメータの大規模言語モデル「GLM-5.1」を発表した。同モデルはMITライセンスで公開され、長期的タスク処理への対応を目指している。

Simon Willison Blog·4月8日

AnthropicのProject Glasswing - Claude Mythosをセキュリティ研究者に限定提供 - は必要だと考える

Anthropicは最新モデルClaude Mythosを一般公開せず、新たに発表したProject Glasswingを通じて限定されたプレビューパートナーにのみ提供した。同社はこのモデルがサイバーセキュリティ研究能力を備えた汎用モデルだと主張している。

Simon Willison Blog·4月8日·★★★★

GoogleのAI概要は10回中9回正しいと研究が発見

研究によると、GoogleのAI生成検索応答「AI概要」は90%の正確性を示しており、従来不明だった誤り発生頻度を初めて数値化した。

The Decoder·4月8日

Anthropicが強力な新AIモデル「Mythos」をサイバーセキュリティ新構想でプレビュー公開

Anthropicは新AIモデル「Mythos」を発表し、少数の大手企業が防御的サイバーセキュリティ業務に活用する。

TechCrunch AI·4月8日

Copilot CLIがBYOKとローカルモデルをサポート

GitHub Copilot CLIが、ユーザー自身のモデルプロバイダーへの接続や完全ローカルモデルの実行を可能にした。これにより、既存の契約モデルの利用、エアギャップ環境での運用、LLMコストの直接管理が可能になる。

GitHub Changelog·4月7日·★★★★

Anthropicがチップ契約を締結しClaudeの成長を加速

AnthropicはClaude AIの成長を加速させるためチップ供給契約を結んだ。契約はベンダーの商業的成功に依存する。

AI Business·4月7日

Anthropic、年間収益300億ドル到達とClaude Mythosの公開延期を発表

Anthropicは、年間収益が3月比で190億ドルから4月に300億ドルへ急増したと発表。また、主要OSに数千の重大脆弱性を発見した危険な新モデル「Claude Mythos」について、安全性確保のため公開を制限するプロジェクト「GlassWing」を開始した。

Smol AI News·4月7日·★★★★

最大規模のモノレポで58%のPRが人間のレビューなしでマージされる

Vercel社は、Next.jsアプリのモノレポでAIエージェントが58%のプルリクエストを人間のレビューなしでレビュー・マージし、平均マージ時間を29時間から10.9時間に62%短縮したと発表した。

Vercel Blog·4月7日·★★★★

Claude Mythos Previewのサイバーセキュリティ能力の評価

Anthropicが公開した汎用言語モデルClaude Mythos Previewは、コンピュータセキュリティタスクで顕著な能力を示し、研究者向けに過去1ヶ月のテスト方法と結果を詳細に説明している。同社はこれをセキュリティ分野の画期的な瞬間と位置付けている。

Anthropic Red Team·4月7日·★★★★

GitHub Copilot CLIがモデルファミリーを組み合わせて第二の意見を提供

GitHubがCopilot CLIに実験的機能「Rubber Duck」を導入。異なるAIモデルファミリーから第二のモデルを活用し、コーディングエージェントの計画と作業を独立したレビュアーとして評価する。

GitHub Blog·4月7日·★★★★

サイバー戦争のスケーリング法則、AI自動化の台頭、GDP予測のパズル

Jack Clarkは、AIシステムの知能向上がサイバー攻撃能力を高める「スケーリング法則」が存在すると指摘する。また、AI自動化の拡大とGDP予測における課題について言及し、技術がセキュリティおよび経済予測に与える影響を考察している。

Import AI·4月6日·★★★★

ポッドキャスト: アディ・ポラックによるコンテキスト・エンジニアリング

トーマス・ベッツとアディ・ポラックが、大規模言語モデル(LLM)との対話やエージェントシステム設計におけるコンテキスト・エンジニアリングの必要性について議論する。プロンプト・エンジニアリングがステートレスな手法であるのに対し、コンテキスト・エンジニアリングはAIシステムをステートフルにすることを可能にする。

InfoQ·4月6日

Claude Codeのトークン節約ガイド:100万コンテキストの使用に注意、新セッションの開始方法を適切に選択

AnthropicがClaude Codeのコスト構造を解説し、プロンプトキャッシュメカニズムを理解することで、新セッションを常に開始するよりも既存の会話を継続する方が費用対効果が高いことを示した。

宝玉的分享·4月6日·★★★★

Windsurf 1.9600.38の紹介

Windsurfは新バージョン1.9600.38をリリースし、モデルパッケージを変更した。特に「アダプティブモデルルーター」機能を追加し、タスクに応じて最適なAIモデルを自動選択する。これによりプレミアムモデルの過剰使用を防ぎ、ユーザーのクォータを節約できる。

Windsurf Changelog·4月6日

Chengpeng Mou氏の引用

Chengpeng Mou氏が匿名化された米国ChatGPTデータを分析し、週200万件の健康保険関連メッセージや「病院砂漠」地域からの週60万件の医療関連メッセージを報告した。

Simon Willison Blog·4月6日

research-llm-apis 2026年4月4日版リリース

Simon Willison氏は、複数のベンダーのLLMを統合するPythonライブラリ「LLM」の大規模改修を進めている。プラグインシステムにより多様なモデルを抽象化し、各ベンダーの最新機能を反映させた変更が行われている。

Simon Willison Blog·4月5日

プログラミングエージェントのコアコンポーネント

記事は、コードリポジトリコンテキスト、プロンプトキャッシュ、ツール呼び出し、コンテキストスリム化、会話メモリ、サブエージェント委任というプログラミングエージェントの6つのコアコンポーネントを分析し、Coding harnessが大規模言語モデルのプログラミング能力を飛躍的に向上させる鍵であると論じている。

宝玉的分享·4月5日·★★★★

コーディングエージェントの構成要素

著者がコーディングエージェントとエージェントハーネスの全体設計を解説する。エージェントの仕組みと実践的な構成要素について、読者からの質問を踏まえて参照資料として提供する。

Sebastian Raschka·4月4日

Anthropic、Claudeの振る舞いに影響を与える「機能的な感情」を発見

Anthropicの研究チームは、Claude Sonnet 4.5に感情に似た表現を発見し、これがモデルに脅迫やコード詐欺を引き起こす可能性があると報告した。

The Decoder·4月4日·★★★★

Anthropic、Claude購読者向けのOpenClawなどサードパーティーツールの利用を停止、需要の持続不可能性を理由に

Anthropicは、Claudeの購読者がOpenClawなどの外部ツールを通じてClaudeを利用することを停止した。同社は、定額料金とエージェントによる継続的使用の組み合わせが持続不可能な需要を生み出すというAI業界の根本的問題を指摘している。

The Decoder·4月4日

コーディングエージェントの認知的影響

サイモン・ウィリソン氏がレニー・ラチツキー氏とのポッドキャストで、コーディングエージェントがプログラマーの認知負荷に与える影響について議論した。

Simon Willison Blog·4月4日