#open source のAIニュース

36件の記事

Simon Willison Blog の datasette-agent バージョン 0.1a3 リリース

Simon Willison が開発する「datasette-agent」のバージョン 0.1a3 をリリースし、SQL クエリ表示ボタンの改善や空の推論チャンクの非表示、結果切り捨て時のテーブル表示強化などの修正を行った。

Simon Willison Blog·5月22日

Google、信頼性の高い分散型エージェント実行環境「Agent Executor」を発表

Google は、長期にわたるエージェントワークフローの信頼性と効率を高めるためのオープンソースランタイム標準「Agent Executor」を発表した。同製品は、永続的な実行や安全な隔離機能を提供し、Kubernetes Engine と連携して大規模展開時の計算リソース効率を最適化する。

TLDR AI·5月21日·★★★★

Google が有用な AI エージェントを作れないなら、誰も作れないかもしれない

The Verge は、長年期待された AI パーソナルアシスタントが未熟な状態だったと指摘し、過去 6 ヶ月で OpenClaw の人気により状況が変わり始めたとし、Google を含む主要 AI ラボが同様の成功を追っている状況を伝えている。

The Verge AI·5月20日·★★★★

HRM-Text(GitHub リポジトリ):計算資源とデータを大幅に削減したテキスト生成モデル

HRM アーキテクチャに基づく 10 億パラメータのテキスト生成モデル「HRM-Text」が公開され、基盤モデルより計算量や学習データを最大数百倍削減可能で、8〜16 台の H100 GPU で数日・数千ドルで学習できる。

TLDR AI·5月19日·★★★★

Warelay から OpenClaw へ:PyCon US 発表準備のためプロジェクト名の変遷を確認

Simon Willison は PyCon US のライトニングトークの準備として、2025 年 11 月の初回コミット以降に Warelay から OpenClaw まで実際に使用されたプロジェクト名の数を調査した。

Simon Willison Blog·5月17日

本日は特に目立った出来事なし

AIニュース配信元「AINews」は、2026年5月12日から13日にかけての期間に、主要なSNSや掲示板で注目すべき技術進展や業界動向が確認されなかったと報告した。

Smol AI News·5月13日·★★★★

Chat SDK に Messenger アダプターサポートが追加

Chat SDK が Messenger をチャットアダプターとしてサポートするようになり、開発者はメッセージや反応、マルチメディアのダウンロード機能を実装できるようになった。

Vercel Blog·5月8日

『HELLO BOSS』:世界中の詐欺を駆動する中国製リアルタイムディープフェイクソフトウェアの内幕

ある人物がマイクロソフト Teams の通話で、自身の顔と特徴を持つリアルタイムディープフェイクと対面し、その恐ろしい現実を目撃した。この技術は中国製のソフトウェアによって実現されており、世界中で詐欺に悪用されている。

404 Media·5月7日·★★★★★

Google の Gemma 4 公開 AI モデルが「推測デコーディング」により最大 3 倍高速化

Google は、Gemma 4 公開モデルに実験的なマルチトークン予測ドラフターを実装し、未来のトークンを推測する「推測デコーディング」技術を採用することで、生成速度を最大 3 倍向上させたと発表した。

Ars Technica AI·5月7日·★★★★

メンテナ月間へようこそ:コードの背後にいる人々を称える

オープンソースの未来について議論されたイベントで、AI がコード作成を担うようになるほど、人間によるメンタリングや信頼構築といった目に見えない作業が重要になると指摘されました。

GitHub Blog·5月5日·★★★★

実世界で動作するロボットのためのオープン基盤「MolmoAct 2」の発表

AI研究所が、実世界のロボットタスクにおける高速かつ強力な 3D 行動推論を実現する完全オープン型のロボティクス基盤モデル「MolmoAct 2」と、二足歩行操作のための大規模データセットを公開した。

Allen AI (AI2)·5月5日·★★★★

今日は何も起こらなかった

OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。

Smol AI News·5月4日·★★★★★

Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現

UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。

Google Developers AI·5月4日·★★★★

大規模言語モデル向け高精度量子化ツールキット「AutoRound」

GitHub で公開された「AutoRound」というツールは、大規模言語モデルや視覚言語モデルを対象に、最小限の調整で超低ビット幅でも高い精度を達成する高度な量子化キットです。単一の GPU で 7B モデルを 10 分以内に量子化可能であり、Transformers や vLLM などのフレームワークとシームレスに連携します。

TLDR AI·5月4日·★★★★

MicrosoftのVibeVoice:MITライセンスのWhisper風音声モデル

マイクロソフトは1月21日、MITライセンスの音声認識モデル「VibeVoice」を公開した。話者識別機能を内蔵し、Whisperと同等の性能を持つ。

Simon Willison Blog·4月28日

DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に

DeepSeekが大型遅延を経てDSV4をリリース。これは2024年12月のDSV3以来の主要バージョンであり、現在オープンモデルリーダーであるKimi K2.6やXiaomi Mimo 2.5と肩を並べる水準に達した。

Latent Space·4月25日·★★★★

MolmoWeb:ウェブタスクを自動化するオープンエージェント

MolmoWebは、スクリーンショットのみでブラウザを操作しタスクを完了するオープンな視覚ウェブエージェントです。また、同様のエージェントの学習に使用される最大規模の公開データセット「MolmoWebMix」も同時に公開されました。

Allen AI (AI2)·3月24日·★★★★

埋め込みなしで知識エージェントを構築する

Vercel社は、埋め込みモデルに依存する従来の知識エージェント構築方法の課題を指摘し、構造化データからの特定値取得に適した新たなアプローチを提案している。

Vercel Blog·3月20日·★★★★

MolmoBot:シミュレーションのみで学習するロボット操作モデル

MolmoBotは、シミュレーション環境のみで学習されたオープンソースのロボット操作モデルスイートです。実世界データの収集や微調整を行わずとも、ゼロショットで実機への転移を実現します。

Allen AI (AI2)·3月11日·★★★★

Javaニュースまとめ: Apache Solr 10、LangChain4j、Grails、JobRunr、Gradle、Devnexus、Commonhaus

2026年3月2日のJava週間ニュースでは、Apache Solr 10のGAリリース、LangChain4jやJobRunrなどのポイントリリース、GrailsやKeycloakのメンテナンスリリース、Devnexus 2026、Pi4JのCommonhaus Foundation参加が発表された。

InfoQ·3月9日

AIネイティブネットワークはもはや6Gの約束ではない-MWC 2026が証明

主要通信ベンダー・チップメーカー・通信事業者が、MWC 2026でAI-RANの実証試験結果・商用製品・オープンソースツールを発表し、AIネイティブ基盤の6G構築に向けた連合を結成した。

AI News·3月3日·★★★★★

WebAssemblyとGifsicleを使用したGIF最適化ツール

著者がオンライン記事に含めるアニメーションGIFのファイルサイズを削減するために、WebAssemblyとGifsicleを組み合わせた最適化ツールを開発した。

Simon Willison Blog·3月3日

オープンソース、SaaS、そして無制限コード生成後の沈黙

AI企業が無制限コード生成を提供した後、開発者からのフィードバックが減少し、オープンソースとSaaSモデルに影響を与えている。

Andrej Karpathy 厳選·2月28日·★★★★

VercelがAIエージェント向けに40以上のパフォーマンスルールを含むReactベストプラクティスを公開

Vercelは、ReactとNext.jsアプリ向けの40以上のパフォーマンス最適化ルールを含むオープンソースリポジトリ「react-best-practices」を公開した。AIコーディングエージェント向けに設計されており、パフォーマンス、バンドルサイズ、アーキテクチャの意思決定を支援する。

InfoQ·2月27日·★★★★

Codexについての私の考え方

OpenAIのGabriel Chuaが、「Codex」という用語の混乱を招く背景を解説し、明確な定義を提供している。

Andrej Karpathy 厳選·2月23日·★★★★

Agent Builderでのメモリの活用方法

Agent Builderはユーザーのフィードバックを記憶し、修正や好みを学習することで、次回以降の作業をより効率的にサポートします。

LangChain Blog·2月20日

最新オープンアーティファクト(第18号):Arceeの400B MoE、LiquidAIの過小評価された1Bモデル、新型Kimi、そして活発な月の予感

2025年1月はモデルリリースが低調だったが、DeepSeek V4やClaude Sonnet 5の公開期待が高まっている。Arceeの400B MoEやLiquidAIの1Bモデルなど、注目のオープンソースモデルが注目される中、業界は今後の活発な動向を見据えている。

Interconnects·2月2日·★★★★

AIエージェントキャッチアップ #62 - Mem0 開催報告

AIエージェントのメモリーレイヤー「Mem0」をテーマにした勉強会を開催。Mem0はAIアシスタントの記憶機能を提供するライブラリで、GitHubや公式ドキュメントが公開されている。

Generative Agents·1月7日·★★★★

Cachy:ノートパソコンの処理速度を60倍に高速化した方法

AnswerAIは、AnthropicやOpenAIなどのLLMプロバイダーとの連携を容易にするオープンソースPythonパッケージ「Claudette」や「Cosette」を開発した。これらのツールは多数のLLM呼び出しを処理するが、各呼び出しに数百ミリ秒かかるためテスト実行が遅延する課題があった。この問題を解決し、ノートパソコンの処理速度を60倍に高速化する技術「Cachy」の実装について解説している。

Answer.AI·10月1日·★★★★

Qwen3 Embedding:基盤モデルによるテキスト埋め込みとリランキングの高度化

QwenチームはQwen3基盤モデルを基盤とした「Qwen3 Embeddingシリーズ」を公開し、テキスト埋め込みとリランキングタスクでSOTA性能を実現した。

Qwen Blog·6月5日·★★★★

Stable Video 4D 2.0:単一動画からの高忠実度新視点および4D生成の新アップグレード

Stability AIは、動画から高品質な4D生成と新視点合成を実現する「Stable Video 4D 2.0」を公開した。同モデルは最新技術を実現し、商業利用を含むStability AIコミュニティライセンスの下でHugging FaceおよびGitHubからダウンロード可能となった。

Stability AI·5月21日·★★★★

Qwen3:より深く思考し、より高速に動作する

Qwenチームは最新大規模言語モデル「Qwen3」を公開した。主力モデルと小型MoEモデルは、コーディングや数学で他トップモデルと互角の結果を示し、先行版を上回る性能を達成した。

Qwen Blog·4月29日·★★★★

GRPOは10倍効率的か?Kwai AIのSRPOがYesを示唆

Kwai AIは、大規模強化学習を用いた推論モデルの効率化手法「SRPO」を発表した。これはOpenAI o1やDeepSeek-R1の背景にある技術に関連し、GRPOを最大10倍効率的にできる可能性を示唆している。

Synced Review·4月24日·★★★★★

Qwen2.5-1M:最大100万トークンのコンテキスト長で独自のQwenをデプロイ

Qwenチームは最大100万トークン対応のオープンソースモデルQwen2.5-7B-Instruct-1Mと14B-Instruct-1Mをリリースし、推論フレームワークも提供した。

Qwen Blog·1月27日·★★★★

nbsanity - 数秒でノートブックを洗練されたWebページとして共有

fastaiは、Jupyter Notebooksの共有における美観とアクセシビリティの課題を解決する「nbsanity」を発表した。このサービスは、GitHubのビューアより洗練された機能を提供し、ライブコードや可視化を含む技術文書の共有を容易にする。

Answer.AI·12月13日

トランスフォーマー言語モデルを説明するためのインターフェース

トランスフォーマー言語モデルを入力の顕著性とニューロン活性化で分析するインターフェースを紹介。入力の重要度とニューロン活性化の可視化を通じてモデルの内部動作を理解する手法を提案。

Jay Alammar·12月17日·★★★★