#open source のAIニュース
36件の記事
Simon Willison Blog の datasette-agent バージョン 0.1a3 リリース
Simon Willison が開発する「datasette-agent」のバージョン 0.1a3 をリリースし、SQL クエリ表示ボタンの改善や空の推論チャンクの非表示、結果切り捨て時のテーブル表示強化などの修正を行った。
Google、信頼性の高い分散型エージェント実行環境「Agent Executor」を発表
Google は、長期にわたるエージェントワークフローの信頼性と効率を高めるためのオープンソースランタイム標準「Agent Executor」を発表した。同製品は、永続的な実行や安全な隔離機能を提供し、Kubernetes Engine と連携して大規模展開時の計算リソース効率を最適化する。
Google が有用な AI エージェントを作れないなら、誰も作れないかもしれない
The Verge は、長年期待された AI パーソナルアシスタントが未熟な状態だったと指摘し、過去 6 ヶ月で OpenClaw の人気により状況が変わり始めたとし、Google を含む主要 AI ラボが同様の成功を追っている状況を伝えている。
HRM-Text(GitHub リポジトリ):計算資源とデータを大幅に削減したテキスト生成モデル
HRM アーキテクチャに基づく 10 億パラメータのテキスト生成モデル「HRM-Text」が公開され、基盤モデルより計算量や学習データを最大数百倍削減可能で、8〜16 台の H100 GPU で数日・数千ドルで学習できる。
Warelay から OpenClaw へ:PyCon US 発表準備のためプロジェクト名の変遷を確認
Simon Willison は PyCon US のライトニングトークの準備として、2025 年 11 月の初回コミット以降に Warelay から OpenClaw まで実際に使用されたプロジェクト名の数を調査した。
本日は特に目立った出来事なし
AIニュース配信元「AINews」は、2026年5月12日から13日にかけての期間に、主要なSNSや掲示板で注目すべき技術進展や業界動向が確認されなかったと報告した。
Chat SDK に Messenger アダプターサポートが追加
Chat SDK が Messenger をチャットアダプターとしてサポートするようになり、開発者はメッセージや反応、マルチメディアのダウンロード機能を実装できるようになった。
『HELLO BOSS』:世界中の詐欺を駆動する中国製リアルタイムディープフェイクソフトウェアの内幕
ある人物がマイクロソフト Teams の通話で、自身の顔と特徴を持つリアルタイムディープフェイクと対面し、その恐ろしい現実を目撃した。この技術は中国製のソフトウェアによって実現されており、世界中で詐欺に悪用されている。
Google の Gemma 4 公開 AI モデルが「推測デコーディング」により最大 3 倍高速化
Google は、Gemma 4 公開モデルに実験的なマルチトークン予測ドラフターを実装し、未来のトークンを推測する「推測デコーディング」技術を採用することで、生成速度を最大 3 倍向上させたと発表した。
メンテナ月間へようこそ:コードの背後にいる人々を称える
オープンソースの未来について議論されたイベントで、AI がコード作成を担うようになるほど、人間によるメンタリングや信頼構築といった目に見えない作業が重要になると指摘されました。
実世界で動作するロボットのためのオープン基盤「MolmoAct 2」の発表
AI研究所が、実世界のロボットタスクにおける高速かつ強力な 3D 行動推論を実現する完全オープン型のロボティクス基盤モデル「MolmoAct 2」と、二足歩行操作のための大規模データセットを公開した。
今日は何も起こらなかった
OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。
Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現
UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。
大規模言語モデル向け高精度量子化ツールキット「AutoRound」
GitHub で公開された「AutoRound」というツールは、大規模言語モデルや視覚言語モデルを対象に、最小限の調整で超低ビット幅でも高い精度を達成する高度な量子化キットです。単一の GPU で 7B モデルを 10 分以内に量子化可能であり、Transformers や vLLM などのフレームワークとシームレスに連携します。
MicrosoftのVibeVoice:MITライセンスのWhisper風音声モデル
マイクロソフトは1月21日、MITライセンスの音声認識モデル「VibeVoice」を公開した。話者識別機能を内蔵し、Whisperと同等の性能を持つ。
DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に
DeepSeekが大型遅延を経てDSV4をリリース。これは2024年12月のDSV3以来の主要バージョンであり、現在オープンモデルリーダーであるKimi K2.6やXiaomi Mimo 2.5と肩を並べる水準に達した。
MolmoWeb:ウェブタスクを自動化するオープンエージェント
MolmoWebは、スクリーンショットのみでブラウザを操作しタスクを完了するオープンな視覚ウェブエージェントです。また、同様のエージェントの学習に使用される最大規模の公開データセット「MolmoWebMix」も同時に公開されました。
埋め込みなしで知識エージェントを構築する
Vercel社は、埋め込みモデルに依存する従来の知識エージェント構築方法の課題を指摘し、構造化データからの特定値取得に適した新たなアプローチを提案している。
MolmoBot:シミュレーションのみで学習するロボット操作モデル
MolmoBotは、シミュレーション環境のみで学習されたオープンソースのロボット操作モデルスイートです。実世界データの収集や微調整を行わずとも、ゼロショットで実機への転移を実現します。
Javaニュースまとめ: Apache Solr 10、LangChain4j、Grails、JobRunr、Gradle、Devnexus、Commonhaus
2026年3月2日のJava週間ニュースでは、Apache Solr 10のGAリリース、LangChain4jやJobRunrなどのポイントリリース、GrailsやKeycloakのメンテナンスリリース、Devnexus 2026、Pi4JのCommonhaus Foundation参加が発表された。
AIネイティブネットワークはもはや6Gの約束ではない-MWC 2026が証明
主要通信ベンダー・チップメーカー・通信事業者が、MWC 2026でAI-RANの実証試験結果・商用製品・オープンソースツールを発表し、AIネイティブ基盤の6G構築に向けた連合を結成した。
WebAssemblyとGifsicleを使用したGIF最適化ツール
著者がオンライン記事に含めるアニメーションGIFのファイルサイズを削減するために、WebAssemblyとGifsicleを組み合わせた最適化ツールを開発した。
オープンソース、SaaS、そして無制限コード生成後の沈黙
AI企業が無制限コード生成を提供した後、開発者からのフィードバックが減少し、オープンソースとSaaSモデルに影響を与えている。
VercelがAIエージェント向けに40以上のパフォーマンスルールを含むReactベストプラクティスを公開
Vercelは、ReactとNext.jsアプリ向けの40以上のパフォーマンス最適化ルールを含むオープンソースリポジトリ「react-best-practices」を公開した。AIコーディングエージェント向けに設計されており、パフォーマンス、バンドルサイズ、アーキテクチャの意思決定を支援する。
Codexについての私の考え方
OpenAIのGabriel Chuaが、「Codex」という用語の混乱を招く背景を解説し、明確な定義を提供している。
Agent Builderでのメモリの活用方法
Agent Builderはユーザーのフィードバックを記憶し、修正や好みを学習することで、次回以降の作業をより効率的にサポートします。
最新オープンアーティファクト(第18号):Arceeの400B MoE、LiquidAIの過小評価された1Bモデル、新型Kimi、そして活発な月の予感
2025年1月はモデルリリースが低調だったが、DeepSeek V4やClaude Sonnet 5の公開期待が高まっている。Arceeの400B MoEやLiquidAIの1Bモデルなど、注目のオープンソースモデルが注目される中、業界は今後の活発な動向を見据えている。
AIエージェントキャッチアップ #62 - Mem0 開催報告
AIエージェントのメモリーレイヤー「Mem0」をテーマにした勉強会を開催。Mem0はAIアシスタントの記憶機能を提供するライブラリで、GitHubや公式ドキュメントが公開されている。
Cachy:ノートパソコンの処理速度を60倍に高速化した方法
AnswerAIは、AnthropicやOpenAIなどのLLMプロバイダーとの連携を容易にするオープンソースPythonパッケージ「Claudette」や「Cosette」を開発した。これらのツールは多数のLLM呼び出しを処理するが、各呼び出しに数百ミリ秒かかるためテスト実行が遅延する課題があった。この問題を解決し、ノートパソコンの処理速度を60倍に高速化する技術「Cachy」の実装について解説している。
Qwen3 Embedding:基盤モデルによるテキスト埋め込みとリランキングの高度化
QwenチームはQwen3基盤モデルを基盤とした「Qwen3 Embeddingシリーズ」を公開し、テキスト埋め込みとリランキングタスクでSOTA性能を実現した。
Stable Video 4D 2.0:単一動画からの高忠実度新視点および4D生成の新アップグレード
Stability AIは、動画から高品質な4D生成と新視点合成を実現する「Stable Video 4D 2.0」を公開した。同モデルは最新技術を実現し、商業利用を含むStability AIコミュニティライセンスの下でHugging FaceおよびGitHubからダウンロード可能となった。
Qwen3:より深く思考し、より高速に動作する
Qwenチームは最新大規模言語モデル「Qwen3」を公開した。主力モデルと小型MoEモデルは、コーディングや数学で他トップモデルと互角の結果を示し、先行版を上回る性能を達成した。
GRPOは10倍効率的か?Kwai AIのSRPOがYesを示唆
Kwai AIは、大規模強化学習を用いた推論モデルの効率化手法「SRPO」を発表した。これはOpenAI o1やDeepSeek-R1の背景にある技術に関連し、GRPOを最大10倍効率的にできる可能性を示唆している。
Qwen2.5-1M:最大100万トークンのコンテキスト長で独自のQwenをデプロイ
Qwenチームは最大100万トークン対応のオープンソースモデルQwen2.5-7B-Instruct-1Mと14B-Instruct-1Mをリリースし、推論フレームワークも提供した。
nbsanity - 数秒でノートブックを洗練されたWebページとして共有
fastaiは、Jupyter Notebooksの共有における美観とアクセシビリティの課題を解決する「nbsanity」を発表した。このサービスは、GitHubのビューアより洗練された機能を提供し、ライブコードや可視化を含む技術文書の共有を容易にする。
トランスフォーマー言語モデルを説明するためのインターフェース
トランスフォーマー言語モデルを入力の顕著性とニューロン活性化で分析するインターフェースを紹介。入力の重要度とニューロン活性化の可視化を通じてモデルの内部動作を理解する手法を提案。