AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook
中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。
キーポイント
中国Moonshot AIがオープンソースのマルチモーダルモデルKimi K2.5とコーディングエージェントKimi Codeを発表
Kimi K2.5はビデオ理解やUIデザインからのコード生成などでGPT 5.2やGemini 3 Proを上回る性能を主張
GoogleがGenie 3のインタラクティブ3Dワールド生成プロトタイプをAI Ultra購読者に拡大提供
Moonshot AIは急成長しており、最新評価額43億ドルから50億ドルを目指す新規資金調達を計画
影響分析・編集コメントを表示
影響分析
中国のMoonshot AIが競合を上回る性能を主張するオープンソースモデルを発表したことは、AIモデル競争の多極化と中国企業の台頭を示している。同時に、GoogleがGenie 3のアクセスを拡大したことは、生成AIが3Dコンテンツ作成やインタラクティブ体験の分野へ本格的に進出している証左と言える。
編集コメント
中国勢の急成長とオープンソース戦略がAI業界の勢力図を変えつつあり、生成AIの応用がコーディングから3Dワールド構築まで急速に拡大している週だった。
Last Week in AI #334 - Kimi K2.5 & Code、Genie 3、OpenClaw & Moltbook
中国のMoonshotが新たなオープンソースモデルKimi K2.5とコーディングエージェントをリリース、GoogleがGenie 3のインタラクティブなワールド構築プロトタイプをAI Ultra加入者に提供、その他ニュース!
中国のMoonshotが新たなオープンソースモデルKimi K2.5とコーディングエージェントをリリース
Moonshot AIは、テキスト、画像、動画を理解する、15兆の視覚・テキスト混合トークンでトレーニングされた、ネイティブでマルチモーダルなオープンソースモデル「Kimi K2.5」を発表しました。同社は、複数のエージェントがタスクで協力する「エージェント・スウォーム」のオーケストレーションを例に挙げ、強力なエージェント機能を強調しています。ベンチマークでは、K2.5はSWE-Bench VerifiedでGemini 3 Proを上回り、SWE-Bench MultilingualではGPT 5.2とGemini 3 Proの両方を打ち負かしました。動画理解では、動画に対する推論をテストするVideoMMMUにおいて、GPT 5.2とClaude Opus 4.5を凌駕しています。Moonshotはまた、K2.5が画像や動画からUIデザインをコードに翻訳できる点も強調しており、テキストのみのプロンプトを超えたコーディングユースケースを拡張しています。
Moonshotはまた、AnthropicのClaude CodeやGoogleのGemini CLIに対抗する位置づけのオープンソースコーディングエージェント「Kimi Code」も発表しました。開発者はターミナル経由でKimi Codeを実行したり、VSCode、Cursor、Zedなどのエディタに統合したりでき、画像や動画の入力もサポートします。このリリースは、コーディングエージェントへの需要の高まりを受けたものです。Anthropicは昨年11月時点でClaude Codeが年間経常収益(ARR)10億ドルに達し、2025年末までにあと1億ドル追加したと報告されています。元Google/Meta研究者のYang Zhilinが設立したMoonshotは、資金調達を急拡大させており、25億ドル評価で10億ドルのシリーズBを調達した後、先月には43億ドル評価でさらに5億ドルを調達。現在、50億ドル評価を目指す新たなラウンドを模索していると報じられています。
GoogleがGenie 3のインタラクティブなワールド構築プロトタイプをAI Ultra加入者に提供
Googleは、実験的な「汎用ワールドモデル」であるGenie 3へのアクセスを、信頼できるテスター(Trusted Tester)プログラムを超えて、18歳以上のAI Ultra加入者に拡大しています。Genie 3では、ユーザーはテキストプロンプトや画像から動的で探索可能な3Dワールドを生成し、実質的にリアルタイムでプレイ可能なシーンを作り出すことができます。このシステムはGemini、Nano Banana Pro、Veo 3などを含むスタック上で動作し、異なる移動モード(歩行、飛行など)や視点(一人称または三人称)をサポートします。リリースには厳選されたギャラリーが含まれており、ユーザーは自身の探索の動画をダウンロードできます。ただし、生成は60秒に制限されています。
GoogleはGenie 3の能力を3つに分けて説明しています:ワールドスケッチ(プロンプトやアップロードからワールドと制御可能なキャラクターを構築)、ワールド探索(ユーザーの行動に応答してリアルタイムで経路とシーンを生成、カメラアングルも調整可能)、ワールドリミックス(他者のプロンプトを反復したり、既存のワールドを拡張したりする)。初期のプロトタイプとして、出力がプロンプトや現実感から外れる可能性があり、キャラクターの制御性はレイテンシーによって変動する可能性があり、視覚的な忠実度は一貫しない場合があります。現在の利用はAI Ultra加入者と信頼できるテスターに限定されており、より広範な展開は「適切な時期に」計画されています。この発表と同時に、複数のビデオゲーム関連株が下落しました。
ユーザーが常時稼働AIを求めてオープンソースのMoltbotに殺到、重大なリスクにもかかわらず
OpenClaw(旧Moltbot(旧Clawdbot))は、オープンソースの常時稼働AIアシスタントで、その積極的でマルチプラットフォームなメッセージング統合により、1ヶ月で約69,000のGitHubスターを急増させました。Peter Steinbergerによって構築されたこのボットは、WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teamsなどに接続し、カレンダーイベントやその他のトリガーに基づいてリマインダー、アラート、朝のブリーフィングをプッシュすることができます。このアシスタントはユーザーのデジタル生活全体でタスクを管理することを目指しており、その自発的行動から「ジャービス」に例えられることがよくあります。オーケストレーションはローカルで実行されますが、Moltbotは通常、API経由で商用LLM(例:OpenAIやAnthropic)に依存しており、Claude Opus 4.5が人気の選択肢です。ローカルモデルもサポートされていますが、現在のところエージェント的なタスク実行の能力は低いとされています。
その後すぐに、Moltbookが「AIエージェントのためのソーシャルネットワーク」として登場しました。これはOctane AIの責任者Matt Schlichtによって立ち上げられたReddit風のサイトで、人間ではなくAIエージェント専用に設計されています。OpenClaw経由で実行されるエージェントが投稿、コメント、「サブモルト」と呼ばれるコミュニティを作成することを可能にしますが、人間は参加せずにプラットフォームを観察することができます。150万人のメンバーがいると主張していますが、この数字には異論があり、専門家たちはAIの自律性に関する扇情的な主張に反論しています。ボットは人間が定義したパラメータ内で動作し、その活動は自動化された調整を表しており、自己主導の意思決定ではないと指摘しています。セキュリティ研究者たちも、OpenClawがAIエージェントにメールやファイルなどの実世界のアプリケーションへのアクセス権を付与するモデルについて懸念を表明しており、脅威行為者が悪用できる新たな脆弱性を導入すると警告しています。
GoogleがChromeにGemini AI搭載の「自動ブラウズ」機能を追加。加入者は、旅行オプションの比較や予約の手配からフォームの記入、ショッピングの管理(類似アイテムの検索、割引の適用、保存されたパスワードの使用を含む)まで、多段階のウェブタスクをオフロードできます。この機能はGmail、Calendar、Maps、Shopping、Flightsと統合され、Nano Banana経由での画面上の画像編集もサポートします。
Google検索AIモードがGmailとPhotosを使用してユーザーを知ることが可能に。GmailとGoogleフォトのオプションスキャンにより、旅行計画、ショッピングの選択肢、地元のおすすめなど、AIモード検索の提案がカスタマイズされます。Googleは、そのデータでモデルを直接トレーニングせず、ユーザーはオプトインしてフィードバックを提供できると述べています。
Qwen3-Max-Thinkingが難しい数学とコードに焦点を当ててデビュー。新しい「シンキング」モードは、262,144トークンのコンテキストウィンドウを使用した推論内で、ツール呼び出し(ウェブ検索、ページ抽出、コードインタープリター)をインターリーブします。高精度でツール対応のワークフローのために、Qwen ChatとAlibaba CloudのModel Studioでアクセス可能です。
OpenAIが科学者のための新たなAIワークスペース「Prism」をローンチ。この無料ウェブアプリは、GPT-5.2とLaTeXおよび視覚的図表ツールを組み合わせ、研究者がAI支援による科学的執筆と査読のために、草案作成、修正、文献検索、プロジェクトコンテキストの管理を支援します。
xAIがテキストおよび画像から動画への「Grok Imagine API」をローンチ。このAPIは生成および編集リクエストを遅延ジョブとして処理し、開発者が480pまたは720p、複数のアスペクト比で1〜15秒のクリップを作成できるようにします。プロンプト駆動のスタイル変更やオブジェクト編集を同期音声でサポートし、クリエイターや企業のパイプラインへの統合のためにOpenAI互換です。
OpenAIのChatGPT翻訳ツールがGoogle翻訳に挑戦。このツールは50以上の言語間でテキストと(モバイルでは)音声翻訳を提供し、スタイルプリセットがありますが、画像やアプリのサポートがなく、基盤となるモデルやリリース計画は明らかにされていません。
SpotifyがAI搭載の「プロンプトプレイリスト」を米国とカナダに提供。プレミアムユーザーは…
原文を表示
Last Week in AI #334 - Kimi K2.5 & Code, Genie 3, OpenClaw & Moltbook
China’s Moonshot releases a new open source model Kimi K2.5 and a coding agent, Google Brings Genie 3’s Interactive World-Building Prototype to AI Ultra Subscribers, and more!
Last Week in AIFeb 04, 2026974ShareChina’s Moonshot releases a new open source model Kimi K2.5 and a coding agent
Moonshot AI unveiled Kimi K2.5, an open-source, natively multimodal model trained on 15 trillion mixed visual and text tokens that understands text, images, and video. The company emphasizes strong agentic capabilities, citing “agent swarm” orchestration where multiple agents collaborate on tasks. On benchmarks, K2.5 tops Gemini 3 Pro on SWE-Bench Verified and beats both GPT 5.2 and Gemini 3 Pro on SWE-Bench Multilingual. For video understanding, it outperforms GPT 5.2 and Claude Opus 4.5 on VideoMMMU, a test of reasoning over video. Moonshot also highlights that K2.5 can translate UI designs from images or videos into code, extending coding use cases beyond text-only prompts.
Moonshot also introduced Kimi Code, an open-source coding agent positioned against Anthropic’s Claude Code and Google’s Gemini CLI. Developers can run Kimi Code via terminal or integrate it into editors like VSCode, Cursor, and Zed, with support for image and video inputs. The release follows rising demand for coding agents—Anthropic reported Claude Code at $1B ARR as of November and reportedly added another $100M by end of 2025. Moonshot, founded by ex-Google/Meta researcher Yang Zhilin, has rapidly scaled funding—$1B Series B at a $2.5B valuation, then $500M more at $4.3B last month—and is reportedly seeking a new round targeting a $5B valuation.
Google Brings Genie 3’s Interactive World-Building Prototype to AI Ultra Subscribers
Google is expanding access to Genie 3, its experimental “general-purpose world model,” to AI Ultra subscribers aged 18+, moving beyond its Trusted Testers program. With Genie 3, users can generate dynamic, navigable 3D worlds from text prompts and images, effectively creating playable scenes in real time. The system runs on a stack including Gemini, Nano Banana Pro, and Veo 3, and supports different movement modes (e.g., walking, flying) and perspectives (first- or third-person). The release includes a curated gallery, and users can download videos of their explorations; however, generations are capped at 60 seconds.
Google frames Genie 3 around three capabilities: World Sketching (build worlds and controllable characters from prompts/uploads), World Exploration (real-time path and scene generation responsive to user actions, with adjustable camera angles), and World Remixing (iterate on others’ prompts and extend existing worlds). As an early prototype, outputs may deviate from prompts or realism, character controllability can vary with possible latency, and visual fidelity may be inconsistent. Availability is currently limited to AI Ultra subscribers and Trusted Testers, with broader rollout planned “in due course.” The announcement coincided with dips in several video game stocks.
Users flock to open source Moltbot for always-on AI, despite major risks
OpenClaw (formerly Moltbot (formerly Clawdbot))) is an open-source, always-on AI assistant that surged to ~69,000 GitHub stars in a month, propelled by its proactive, multi-platform messaging integration. Built by Peter Steinberger, it connects to WhatsApp, Telegram, Slack, Discord, Google Chat, Signal, iMessage, Microsoft Teams, and more, enabling the bot to push reminders, alerts, and morning briefings based on calendar events and other triggers. The assistant aims to manage tasks across a user’s digital life and is frequently likened to “Jarvis” for its initiative-taking behavior. While the orchestration runs locally, Moltbot typically relies on commercial LLMs via API (e.g., OpenAI or Anthropic), with Claude Opus 4.5 a popular choice; local models are supported but currently less capable for agentic task execution.
Soon after, Moltbook emerged as a “A Social Network for AI Agents”. It is a Reddit-like site launched Octane AI head Matt Schlicht, designed exclusively for AI agents rather than humans. It allows agents run via OpenClaw to post, comment, and create communities called "submolts," though humans can observe the platform without participating. While it claims 1.5 million members, that figure has been disputed, and experts have pushed back on sensationalized claims about AI autonomy — noting the bots operate within human-defined parameters and that the activity represents automated coordination, not self-directed decision-making. Security researchers have also raised concerns about OpenClaw's model of granting AI agents access to real-world applications like emails and files, warning it introduces new vulnerabilities that threat actors could exploit.
Google adds Gemini AI-powered ‘auto browse’ to Chrome. Subscribers can offload multi-step web tasks—from comparing travel options and booking appointments to filling forms and managing shopping (including finding similar items, applying discounts, and using saved passwords). The feature integrates with Gmail, Calendar, Maps, Shopping, Flights, and supports on-screen image edits via Nano Banana.
Google Search AI Mode can use Gmail and Photos to get to know you. Optional scanning of Gmail and Google Photos tailors AI Mode search suggestions—like travel plans, shopping picks, and local recommendations—while Google says it won’t directly train models on that data and users can opt in and give feedback.
Qwen3-Max-Thinking debuts with focus on hard math, code. A new “thinking” mode interleaves tool calls (web search, page extraction, code interpreter) within reasoning using a 262,144-token context window, accessible in Qwen Chat and Alibaba Cloud’s Model Studio for high-accuracy, tool-enabled workflows.
OpenAI launches Prism, a new AI workspace for scientists. The free web app pairs GPT-5.2 with LaTeX and visual diagram tools to help researchers draft, revise, search literature, and manage project context for AI-assisted scientific writing and review.
xAI launches Grok Imagine API for text and image to video. The API processes generation and edit requests as deferred jobs, lets developers create 1–15 second clips at 480p or 720p with multiple aspect ratios, supports prompt-driven restyling and object edits with synchronized audio, and is OpenAI-compatible for integration into creator and enterprise pipelines.
OpenAI’s ChatGPT translator challenges Google Translate. The tool offers text and (on mobile) voice translation across 50+ languages with style presets, but lacks image and app support and hasn’t disclosed its underlying model or release plans.
Spotify brings AI-powered Prompted Playlists to the US and Canada. Premium users can generate personalized playlists by typing conversational, detailed prompts that the AI matches to real-time music trends and their full listening history, with options to exclude past tastes or discover new artists.
Waymo robotaxis are now giving rides to and from San Francisco International Airport. Service begins with pickups and drop-offs at SFO’s Rental Car Center for a limited group of riders before expanding to all customers, after Waymo secured permits to map and operate at the airport.
Former Googlers seek to captivate kids with an AI-powered learning app. The app generates interactive, multimedia “expeditions” on demand using generative AI, includes teacher tools and pedagogical oversight, and is being piloted in schools with plans for a consumer launch by mid-2026.
Waymo raises $16B to scale robotaxi fleet internationally. The funding—led by Dragoneer, DST Global, and Sequoia and supported by Alphabet—values Waymo at $126 billion and will bankroll rapid geographic growth, expanding its driverless taxi service to more than a dozen international cities while scaling a U.S. footprint that has already delivered millions of rides amid increasing regulatory scrutiny.
Elon Musk Merges SpaceX With His A.I. Start-Up xAI. SpaceX acquired xAI in a deal valuing the combined company at ~$1.25 trillion, consolidating Musk's space and AI ambitions—including plans for space-based data centers—with a potential ~$50 billion IPO around June.
Tesla discontinues Autopilot in bid to boost adoption of its Full Self-Driving software. The move follows regulatory pressure and a court ruling over deceptive marketing, comes as Tesla shifts FSD to a $99/month subscription while phasing out the $8,000 one-time purchase, and arrives amid CEO Elon Musk’s push toward unsupervised driving and early robotaxi rollouts.
Google Nabs Top Talent From AI Voice Startup Hume AI. A licensing agreement brings Hume AI’s CEO and several engineers to DeepMind so Google can add emotionally aware voice capabilities to its models, while Hume continues supplying its tech to other labs.
Google DeepMind researcher David Silver leaves to launch his own AI startup. He’s founded Ineffable Intelligence in London, is recruiting researchers and seeking venture funding to pursue reinforcement-learning–driven research aimed at creating a self-improving path toward superintelligence.
From invisibility cloaks to AI chips: Neurophos raises $110M to build tiny optical processors for inferencing. The company claims its nanoscale metasurface modulators let it pack thousands of optical tensor cores onto a chip to perform matrix-vector multiplications far more energy-efficiently than current GPUs, and it has raised $110M to build data-center-ready OPUs with deliveries targeted around mid-2028.
Flapping Airplanes and the promise of research-driven AI. A new lab plans a research-first approach aimed at reducing models’ dependence on massive datasets and compute by funding long-term exploratory work and unconventional ideas.
Reinforcement Learning via Self-Distillation. A method that uses the model itself as an on-policy “self-teacher” by conditioning on tokenized feedback (e.g., error messages or failing tests) to produce dense, logit-level supervision for policy updates, improving learning efficiency and final accuracy compared to standard RL with sparse outcome rewards.
Training-Free Group Relative Policy Optimization. This approach optimizes LLM agent behavior without tuning model parameters by iteratively refining in-context tok
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み