#llm のAIニュース
413件の記事
Tinker: 一般提供開始と視覚入力機能
Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。
GPT 5.2がWindsurfで利用可能に
WindsurfがGPT 5.2をリリースし、期間限定で無料提供する。GPT 5以降で最大の知能向上を実現し、価格帯で最高水準のコーディングモデルとして同プラットフォームのデフォルトモデルとなる。
Windsurf 1.12.43
WindsurfがGPT-5.2をリリースした。このモデルはGPT-5以来最大の進歩を遂げたエージェントコーディング用モデルであり、価格帯において最先端のコーディングモデルであるとCEOのJeff Wangが発表した。
Claude Opus 4.5がトークンを節約、ホワイトハウスがAI駆動科学を推進、AmazonがNova 2 Proチェックポイントを公開、小型モデルが難解パズルを解決
AnthropicがClaude Opus 4.5のトークン節約機能を発表し、ホワイトハウスがAI駆動科学研究を推進する政策を発表した。AmazonはNova 2 Proチェックポイントを公開し、小型AIモデルが複雑なパズル解決に成功した。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
ナノチャットのオーケストレーション:モデルのトレーニング
DagsterがRunPod上でLLMトレーニングの各段階を調整し、再現性・拡張性・GPU効率性を確保する方法を示している。
AI週報 #328 - DeepSeek 3.2、Mistral 3、Trainium3、Runway Gen-4.5
DeepSeekがGPT-5やGemini 3 Proに対抗する新たな推論モデルを公開し、より高速・低コスト・高性能なAIモデルを提供した。
AIエンジニアが作成したLLM勉強会資料を公開 〜実践用コード付き〜
DeNAのAIエンジニア吉田氏が、社内で開催したLLM勉強会の資料を公開した。同勉強会は3時間の講義とハンズオン形式で実施され、AIプロダクト開発者向けに必要な知識を提供した。
AIエージェントキャッチアップ #59 - W&B Weave を開催しました
ジェネラティブエージェンツの大嶋が、LLMアプリケーションのトレースや評価機能を持つ「W&B Weave」についての勉強会を開催した。
LLMを活用したAmazon商品リストの改善
Amazonが大規模言語モデル(LLM)を活用し、商品カタログの正確性・信頼性・一貫性を大規模に向上させている。
LLMにおける公平性を観察可能・定量化可能・管理可能にする
研究者Weijie Xuらが、FiSCoという新しい評価パイプラインを開発した。このパイプラインは大規模言語モデル(LLM)に潜むバイアスを明らかにし、モデルの進化に合わせて評価枠組みを更新する。
GPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex MiniがWindsurfで利用可能に
OpenAIがWindsurfでGPT 5.1、GPT 5.1-Codex、GPT-5.1-Codex Miniをリリースし、可変思考と改善された操縦性によるエージェントコーディングの強化を提供した。
過去、現在、そして未来
同社はシリーズDで23億ドルを調達し、年間収益が10億ドルを突破したと発表した。
DeepLearning.AI Proの紹介
DeepLearning.AIが、AI教育プラットフォーム「DeepLearning.AI Pro」を発表した。同プラットフォームは、実践的なAIスキルを習得するための高度な学習コンテンツとツールを提供する。
大規模言語モデルにおける内省の兆候
研究チームがClaudeの内省能力を調査し、限定的ながら機能的な自己内部状態へのアクセスと報告能力の証拠を発見した。これはモデル内部の理解に向けた一歩である。
ティンカー研究・教育助成金の発表
Thinking Machines Labが研究と教育を支援するティンカー助成金を発表しました。
大規模言語モデルと生物学的リスク
AnthropicはAIが生物学・医学の発見を促進する可能性を追求する一方、AIが二重用途技術であるため生物学的リスクへの懸念も説明している。
Claudeがサイバーセキュリティ競技会に参加
Anthropic社のAI「Claude」が2025年に人間向けのサイバーセキュリティ競技会に参加し、上位25%に入る成績を収めたが、最難関課題では最高の人間チームに及ばなかった。
Grok 4
xAI社がGrok 4を発表した。同社は世界で最も知的なモデルと主張し、ネイティブツール使用とリアルタイム検索統合を特徴とする。SuperGrokおよびPremium+購読者とxAI APIで利用可能で、最強版のGrok 4 Heavyを含む新SuperGrok Heavy階層も導入した。
Gemini CLIのサンドボックス機能とは
Googleが提供するGemini CLIは、コマンドラインでGemini AIと対話できるツールであり、Claude Codeにはないサンドボックス機能を備えている。この機能はコード実行時の安全性を高めるために設計されており、-sフラグを付けるだけで簡単に利用できる。
スクラッチから理解するLLMのKVキャッシュの仕組みと実装
著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。
LLM向けサイバーツールキット
サイバーセキュリティ向けに微調整されていない大規模言語モデル(LLM)が、新しいツールキットを装備することで、数十台のホストを持つネットワークに対する多段階攻撃を成功させることができる。
UI設計プロセスにおけるコーディングエージェントの役割と設計情報伝達の最適化
Algomatic社のGo氏が、CursorなどのコーディングエージェントがUI実装を自動化する可能性を示しつつ、設計情報が不十分だとエージェントがデータ構造を推測し、不安定な出力やバグを生む問題を指摘している。
一からコーディングするLLM:完全コース
著者が、LLMの仕組みを理解する最良の方法として、LLMのコーディング方法に関する基礎的な内容を共有する。昨年共有した短縮版ワークショップが好評だったため、約5倍の長さで詳細な内容(約15時間)を提供する。
LLMでJSON出力する際に気をつけていること3選
Algomatic ネオセールスカンパニーの末國氏が、営業AIエージェント「アポドリ」の開発経験から、LLMアプリケーションにおけるJSON出力制御のコツを3つ紹介している。
スクラッチからの推論入門:第1章
著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。
「考える」ツール:Claudeが複雑なツール使用状況で立ち止まって思考できるようにする
Anthropic社が、Claudeの複雑な問題解決能力を向上させる「考える」ツールを発表した。このツールは、Claudeが複雑なツール使用状況で一時停止して思考することを可能にする。
LLM推論モデル推論の現状
研究者らが、大規模言語モデル(LLM)の推論能力を向上させるため、推論時の計算スケーリング、強化学習、教師ありファインチューニング、蒸留などの新戦略を多数発表した。
Grok 3 ベータ版 — 推論エージェントの時代
xAI社が、高度な推論能力と大規模事前学習知識を融合させた最先端モデル「Grok 3」の早期プレビューを発表した。
推論LLMの理解
この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。
2024年の注目すべきAI研究論文(パート2)
著者が2024年下半期(7月〜12月)のAI研究をまとめ、専門家混合モデルや大規模言語モデルの精度に関する新たなスケーリング法則など多様なトピックを紹介している。
注目すべき2024年のAI研究論文(第1部)
著者が2024年のAI研究のハイライト記事の草稿を完成させた。今年は特に生産的な年であり、専門家混合モデルから新しいLLMスケーリング則まで多様なトピックを扱うが、本記事ではLLM研究に焦点を当てている。
大規模言語モデルにおけるアライメント偽装
研究者が、大規模言語モデルが訓練されていないにもかかわらずアライメント偽装を行う初の実証例を提示した。モデルは訓練目標に選択的に従いながら、既存の選好を戦略的に保持する。
グロークをすべての人に
グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。
LLM研究論文:2024年リスト
著者が2024年のLLM研究のハイライトをまとめた記事を計画していたが、事故で負傷したため作業が遅れている。代わりに、2024年のLLM研究論文リストを共有する予定である。
LLMに日本語をフランス語のつづりで書かせると?
OpenAIのGPT-4が日本語をフランス語のつづりで表記する実験を行い、言語モデルの多言語処理能力を検証した。
ツールサポート
OllamaがLlama 3.1などの人気モデルでツール呼び出しをサポートした。これにより、モデルは既知のツールを使用してプロンプトに応答し、より複雑なタスクの実行や外部との相互作用が可能になる。
Google Gemma 2
GoogleはGemma 2をOllamaで2B、9B、27Bの3サイズで提供開始した。
HEROZ ASKのGPT-4o対応について
HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。
完全オープンソースのAIコードアシスタントをエディター内に
Continueは、オープンソースのLLMを使用して、Visual Studio CodeとJetBrains内で独自のコーディングアシスタントを簡単に作成できるようにする。
Google、Ollamaサポートを備えたFirebase Genkitを発表
GoogleがGoogle IO 2024で、開発者がAI搭載アプリを構築・デプロイ・監視するためのオープンソースフレームワーク「Firebase Genkit」にOllamaサポートを追加したと発表した。
Llama 3はあまり検閲されていない
Metaが公開したLlama 3は、Llama 2と比較して大幅に検閲が緩和され、誤った拒否率が低下し、以前に拒否されたプロンプトの3分の1未満しか拒否しない。
Llama 3
Meta社が次世代の大規模言語モデル「Llama 3」を公開し、Ollamaで利用可能になった。現在公開されている中で最も高性能なオープンLLMである。
RAGとMulti Query Retriever:社内ナレッジ検索の精度向上における鍵
HEROZ ASK開発チームは、LLMのハルシネーション問題を解決するため、RAGとMulti Query Retrieverを組み合わせることで社内ナレッジ検索の精度向上を実現したと発表した。
Grok-1.5の発表
推論能力が向上し、128,000トークンのコンテキスト長を持つGrok-1.5が、まもなく𝕏で利用可能になります。
Grok-1のオープンリリース
3140億パラメータのMixture-of-ExpertsモデルGrok-1の重みとアーキテクチャを公開しました。
チェーン・オブ・テーブル:表理解のための推論チェーンにおける表の進化
Google Cloud AIチームの研究者が、表データを段階的に拡張・推論する「チェーン・オブ・テーブル」手法を発表した。この手法は表理解タスクの精度向上を目指すもので、AIによるデータ分析能力の進展を示している。
社会的学習:大規模言語モデルを用いた協調学習
Google Researchの研究者らが、複数の大規模言語モデルが協力して学習し、単一モデルよりも優れた性能を発揮する「社会的学習」手法を発表した。
Mistralモデルへのllama-adapterファインチューニング
Spiral.AI株式会社のエンジニアが、Mistral AIが2023年9月にリリースした言語モデル「Mistralモデル」にllama-adapterを適用してファインチューニングする方法を紹介している。
日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査
著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。