AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Allen AI (AI2)·2026年4月7日 17:00·約14分で読める

WildDet3Dの紹介:単一画像からのオープンワールド3D検出

#3D検出#モノキュラー3D#オープンソースモデル#空間知能#Allen AI
TL;DR

Allen AIは、単一画像から3次元空間内の物体検出を行うオープンモデル「WildDet3D」のトレーニングコードと推論コードを公開し、自律走行やARなど幅広い分野での実装を促進した。

AI深層分析2026年4月27日 01:57
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
4
革新性10%
4

キーポイント

1

WildDet3Dの完全オープンソース化

トレーニングコード、更新された推論コード、データ準備手順を公開し、研究者や開発者がモデルの技術スタックを検証・改変できるようにした。

2

単一画像からの3次元検出能力

RGB画像1枚から物体の位置、サイズ、向きをメトリック座標で推定する3次元バウンディングボックスを生成し、固定カテゴリに縛られない汎用性を持つ。

3

多様なプロンプト形式への対応

テキストクエリ、ポイントプロンプト、2次元バウンディングボックスなど複数の入力形式を受け付け、既存の2D検出モデルの結果を3次元に昇格させることも可能。

4

既存技術の課題克服

従来の手法が特定ドメインやハードウェアに限定されがちだった問題を解決し、解像度やアスペクト比の異なるカメラでも一般化できることを目指している。

影響分析・編集コメントを表示

影響分析

このリリースは、3次元空間認識のハードルを下げ、自律走行や産業用ロボット、拡張現実(AR)などの分野における実装コストを大幅に削減する可能性がある。オープンソース化により、学界と産業界の両方で技術検証と改良が加速し、単一画像からの高精度な3次元理解の実用化が促進される。

編集コメント

単一画像からの3次元検出は長年の課題であり、そのコードが公開されたことは実装の民主化に寄与する。ただし、単一画像からの深度推定には本質的な曖昧性が残るため、評価基準の厳密な確認が求められる。

*4/21 更新:トレーニングコードと更新された推論コードが利用可能になりました*

WildDet3D をさらにオープンなものにしました。本日、モデルの仕組みをより容易に研究し、それを基盤として構築できるようにするため、トレーニングコード、更新された推論コード、およびトレーニングとデータ準備の手順を公開します。

この更新により、研究者や開発者は WildDet3D の背後にある技術スタックを検証し、独自のユースケースに適応させることができます。コードは こちら で入手可能です。皆様からのフィードバックをお待ちしています。

*以下にオリジナルの投稿を掲載します。*

ほとんどのビジョンシステムは画像内に何が写っているかを伝えることはできますが、単一の写真からその物体が三次元空間内のどこにあるか(距離、大きさ、向き)を特定できるシステムはごくわずかです。これが空間知能のコアとなる課題です:物体が何であるかだけでなく、物理世界において*どのように*存在しているかを理解することです。建設現場を走行する自動運転車、荷物を仕分けする倉庫ロボット、街路に方向指示を重ねる AR アプリケーション——これらすべては、あらゆるカメラからのデータに対して、あらゆる物体について精密な 3D 理解が必要とされます。

技術用語:ビジョンシステム (vision systems), 三次元空間 (three dimensions), 空間知能 (spatial intelligence), 自動運転車 (autonomous vehicle), AR アプリケーション (AR app)

近年、自然言語を用いて 2D 画像内の物体を検出・ラベル付けする技術は急速に進歩しました。しかし、単一画像から 3D 構造を復元することは依然として根本的に難しく、特にシステムが固定されたカテゴリリストを超えて動作し、異なる指定方法に対応し、解像度、アスペクト比、光学特性の異なるカメラ間でも汎化できる必要がある場合です。既存のアプローチの多くは、運転や屋内シーンといった限られたドメインのみをカバーするか、単一のプロンプトタイプしかサポートせず、特定のハードウェア設定を前提としています。また、利用可能な追加的な深度情報(depth cues)を活用できるケースはほとんどありません。

本日、私たちはモノキュラー 3D 検出のためのオープンモデル「WildDet3D」WildDet3D をリリースします。単一の RGB 画像を入力として与えると、物体の位置、サイズ、向きをメトリック座標系で推定する 3D バウンディングボックス(3D bounding box)を予測し、テキストクエリ、ポイントプロンプト、2D バウンディングボックスなど複数のプロンプトタイプを受け付けます。「消火栓」のようなカテゴリを入力すればシーン内のすべてのインスタンスを検出し、物体をタップすると完全な 3D バウンディングボックスが返され、他のモデルからの 2D 検出結果を入力すればそれを 3D 空間へ変換します。

WildDet3D は、細かく調整(fine-tuning)することなく、切り抜かれた携帯電話の写真、広角アクションカメラのフレーム、ロボットのカメラフィードといった多様な入力に対応できます。また、スパース深度(sparse depth)、LiDAR、TOF などの追加的な幾何学的信号が利用可能な場合、WildDet3D はそれらを統合して予測をより鋭敏にします。

モデルとともに、WildDet3D-Data も公開します。これは 13,000 以上のオブジェクトカテゴリにわたる 370 万件の検証済み 3D アノテーションを含む 100 万枚を超える画像、そのうち 10 万件以上が人間による注釈付きの画像、および評価資料とインタラクティブなデモを含んでいます。また、ライブカメラ入力と LiDAR(ライダー)深度データを活用して、リアルタイムで AR オーバーレイとして 3D バウンディングボックスを描画する iOS デモアプリ も公開しています。

すべてがオープンに利用可能です。空間知能における進展は、検証可能で再現性があり、より広範な研究コミュニティによって構築されるべきだと信じているからです。

一つのアーキテクチャ、多くのプロンプトタイプ

WildDet3D は、単一の幾何学認識アーキテクチャ内で複数のプロンプトモダリティをサポートしています。カテゴリ名によるプロンプトでは、オブジェクトの種類でクエリを実行できます。「椅子」と入力すると、モデルはシーン内のすべての椅子を検出し、3 次元空間上で局在化します。ポイントプロンプトでは、オブジェクトをクリックして対話的に選択できます。ボックスプロンプトでは、2D バウンディングボックスを指定し、システムが完全な 3D の範囲を推論します。

より豊かなインタラクションを実現するために、WildDet3D は Molmo 2 などのビジョン・ランゲージモデル(VLM)と組み合わせることができます。VLM がユーザーの質問内容を解釈した上で、関連する領域を WildDet3D に引き渡し、3 次元局在化を行います。これはつまり、WildDet3D がより大きなパイプライン内で空間推論層として機能し、カテゴリ名、ポイント、または 2D バウンディングボックスを生成できるあらゆるシステムに 3 次元理解能力を追加できることを意味します。

この柔軟性は、ゼロショット 3D 追跡への道も開きます。WildDet3D は、任意の上位検出器や追跡器からの 2D バウンディングボックスを受け取り、それをフレームごとに 3D フレームへと変換できるため、追跡データで学習した経験がなくても、動画ストリーム全体にわたってオブジェクトの連続的な 3D 位置情報を提供できます。スマートグラスのようなウェアラブルカメラと組み合わせれば、視覚フィードのみによって駆動され、周囲のオブジェクトに対する持続的な空間認識をサポートするアーキテクチャとなり得ます(ただし、現在のフルモデルはリアルタイムなデバイス上での利用にはサーバーサイドでの計算リソースが必要か、さらなる最適化が必要です)。

内部では、3 つのコンポーネントが連携して動作します。第一に、SAM3 視覚バックボーンを基盤とした 2D 検出器があり、すべてのプロンプトタイプを受け入れて画像内のオブジェクトを特定します。第二に、凍結された DINOv2 エンコーダと訓練可能な深度デコーダからなる独立したジオメトリバックエンドが、ピクセルごとの深度を推定し、ジオメトリ認識機能を持つ特徴量を生成します。これら 2 つのブランチは効率のために並列で実行されます。第三に、3D 検出ヘッドがクロスアテンションを通じて 2D 検出結果と深度特徴を融合させ、位置、寸法、向きを含む完全な 3D バウンディングボックス予測へと 2D の証拠を変換します。

重要な設計上の選択として、ジオメトリバックエンドはモジュール化されており、検出バックボーンから分離されているため、システムを再構築することなく異なる深度モデルを交換できます。また、このバックエンドは、カメラ光線の方向の球面調和関数符号化を用いてカメラ幾何学を直接特徴量に埋め込むことで機能する「レイアウェアデコーダ(ray-aware decoder)」を採用しており、別途カメラキャリブレーションブランチを必要としません。

推論時にスパースまたは部分的な深度データが利用可能である場合(LiDAR センサー、RGB-D カメラ、ステレオセットアップから取得されたものなど)、このバックエンドにシームレスに流入し、全体のパイプラインに変更を加えることなく位置特定を向上させます。

より優れた 3D 知覚を実現するには、単にモデルを改善するだけでなく、標準的なベンチマークを超えた多様な物体を反映したトレーニングデータが必要です。WildDet3D を補完するために構築された「WildDet3D-Data」は、COCO、LVIS、Objects365、V3Det といった既存の大規模 2D 検出データセット内の物体に対して候補となる 3D ボックスを生成し、5 つの相補的な 3D 推定手法を用いて作成した後、候補の精査とフィルタリングを行い、さらに VLM(Vision Language Model)ベースの選別および人間の選別を経て最終的に構築されました。このキュレーションプロセスにより、13,000 以上のカテゴリにわたる 370 万件の検証済み 3D アノテーションを含む 100 万枚を超える画像が生成され、その中にはさらに慎重に人間によって選択された 10 万枚超の画像からなるコアセットが含まれており、既存の 3D データセット単独が提供する範囲を遥かに上回る広がりを持っています。

このデータでのトレーニングが、WildDet3D に狭義のベンチマーク分類体系を超えた一般化能力をもたらします。以下に示す通り、野外環境における 700 以上の物体カテゴリ全体で性能が向上しています。

ベンチマーク全体で強力、ゼロショット転移

WildDet3D の評価は、確立されたベンチマーク上での精度と、新しいドメインやカテゴリへの一般化能力の両方をテストするために、複数の設定で行いました。

単眼 3D 検出のための標準スイートである Omni3D(屋内・屋外の 6 つのデータセットにまたがり、50 カテゴリをカバー)において、WildDet3D はテキストプロンプトを使用した場合に 34.2 AP(Average Precision:予測された 3D ボックスが位置とサイズにおいて正解値にどれだけ正確に一致するかを示す指標)を達成し、前記録(3D-MOOD)に対して 5.8 ポイントの改善となりました。また、オラクルボックスプロンプトを使用した場合、36.4 AP を達成し、DetAny3D よりも 2.0 ポイント上回りました。これは、SAM3 および DINOv2 から得られる高品質な事前学習済み表現(pretrained representations)により可能となり、従来の手法が 80〜120 エポックを要するのに対し、わずか 12 エポックで達成しています。テスト時にスパース深度(sparse depth:点群データなどから推定された不十分な深度情報)が提供される場合、さらに性能は向上し、テキストプロンプトでは 41.6 AP、オラクルプロンプトでは 45.8 AP を記録します。特に深度センサーが一般的に使用されている屋内データセットにおいて、この改善幅は最も顕著です。

Omni3D の学習分布を超えた一般化能力を検証するため、Argoverse 2(26 の物体カテゴリを有する自動運転用データセット)および ScanNet(18 のカテゴリを有する屋内シーン用データセット)を含むデータセットでゼロショット評価を行いました。性能は、精度、位置推定精度、スケール、姿勢の品質を組み合わせた複合指標である Open Detection Score (ODS) によって測定されます。

WildDet3D は Argoverse 2 で ODS 40.3 を達成し、以前の最高値 23.8 と比較してほぼ倍増しました。また ScanNet では ODS 48.9 を記録し、17.4 ポイントの向上となりました。この改善は Omni3D に含まれていない新規カテゴリ(物体)において最も顕著です。これらのカテゴリでは、Argoverse 2 で ODS 38.6 を達成し、以前の最高値である 14.8 を大きく上回りました。また ScanNet では 45.8 対 15.7 となり、このモデルの視覚バックボーンが未知の物体に対して従来アーキテクチャよりもはるかに効果的に転移できることを示唆しています。同様の傾向は、実測ステレオ深度を備えたゼロショットベンチマークである Stereo4D でも確認されました。深度情報なしでも、WildDet3D はボックスプロンプトモードで 7.5 AP を記録しすでに競争力があります。テスト時に実測のステレオ深度が提供されると、オラクルボックスプロンプト設定において 27.7 AP に上昇します。これは、同一アーキテクチャが Omni3D の学習分布を超えて一般化でき、利用可能な場合は幾何学的信号を効果的に活用できることを示す証拠です。

700 以上のオブジェクトカテゴリにわたる野外評価。 より広範な一般化能力を検証するため、WildDet3D を WildDet3D-Bench(出現頻度に基づいて分類された 700 以上のオブジェクトカテゴリをカバーする野外ベンチマーク)で評価しました。このベンチマークでは、カテゴリを「レア(サンプル数が 5 未満)」、「コモン(5〜20 個)」「フリーquent(20 個以上)」の 3 つにグループ化しています。Omni3D のみで訓練した場合でも、WildDet3D はテキストプロンプトモードで AP6.8 を達成し、すでに最強の 3D-MOOD ベースラインである 2.3 AP を上回っています。追加の訓練データを用いることで、WildDet3D はテキストプロンプトモードで AP22.6 に到達します(これは 3D-MOOD ベースライン(Swin-T)の 2.3 AP から大幅な向上です)。テスト時に真値深度情報が利用可能な場合、完全モデルは AP41.6 を達成します。この性能向上はすべての頻度バケットで確認され、特にレアカテゴリでの飛躍が顕著です。WildDet3D は 47.4 AP を達成するのに対し、3D-MOOD は 2.4 に留まりました。これは、本モデルが訓練時に最も多く出現したカテゴリだけでなく、ロングテールに属するオープンワールドオブジェクトにも効果的に転移していることを示す極めて強力な証拠です。

なぜこれが重要なのか、そして次への展望

WildDet3D は空間知能において意味ある進歩を遂げました。このモデルは複数のプロンプトタイプを統合し、3D 検出をより拡張可能で実用的なものにしています。これは、オープンボキャブラリな 3D 知覚が狭い分類体系を超えて一般化できることを示しており、特にモデルが訓練したことがないカテゴリにおいてもその能力を発揮します。また、モノキュラー(単眼)の 3D システムは、利用可能なより豊かな幾何情報を無視する必要はないことも示しています。同じアーキテクチャで RGB のみから推論することも可能でありながら、追加的な深度手がかりが存在する場合にはその恩恵も受けられます。さらに、これらは従来の手法よりも大幅に少ない学習計算量で達成されています。

今回のリリースに伴い、WildDet3D モデル、WildDet3D-Data データセット、iOS アプリ、評価や実験のためのサポート資料、そしてインタラクティブなデモを、すべてオープンにアクセス可能となる形で提供いたします。

空間知能は AI が向かうべき方向の中核です。AR アプリで街路に方向指示を重ねるのを支援する同じモデルが、棚にある荷物のサイズをロボットが推定するのを助けたり、スマートグラス向けの 3D 認識アプリケーションを支えたりします。そして最も興味深い応用は、まだ誰も構築していないものだと私たちは考えています。

最新の Ai2 のニュースに関する月次更新を受け取るには、購読してください。

原文を表示

*Update 4/21: Training and updated inference code now available*

We’ve made WildDet3D even more open. Today we’re releasing the training code, updated inference code, and training and data prep instructions so others can more easily study how our model works and build on it.

With this update, researchers and developers can inspect the technical stack behind WildDet3D and adapt it for their own use cases. Get the code here—we look forward to hearing your feedback.

*Original post follows.*

Most vision systems can tell you what is in an image. Far fewer can tell you *where* that object sits in three dimensions – how far away it is, how large it is, and how it's oriented – from a single photograph. This is the core challenge of spatial intelligence: understanding not just what objects are, but *how* they exist in the physical world. An autonomous vehicle navigating a construction zone, a warehouse robot sorting packages, an AR app placing directions over a street—all need precise 3D understanding, and they need it to work for any object, from any camera.

Recent years have brought rapid progress in finding and labeling objects in 2D images using natural language. But recovering 3D structure from a single image remains fundamentally harder, especially when the system needs to work beyond a fixed category list, handle different ways of specifying what to look for, and generalize across cameras with different resolutions, aspect ratios, and optics. Most approaches cover only a narrow domain like driving or indoor scenes, support a single prompt type, or assume a specific hardware setup—and few can take advantage of extra depth cues when available.

Today we're releasing WildDet3D, an open model for monocular 3D detection. Given a single RGB image, it predicts 3D bounding boxes – estimating an object's position, size, and orientation in metric coordinates – and accepts multiple prompt types including text queries, point prompts, and 2D bounding boxes. Enter a category like "fire hydrant" and it finds every instance in the scene, tap an object and it returns the full 3D bounding box, or pass in a 2D detection from another model and it lifts it into 3D.

WildDet3D can handle inputs such as a cropped phone photo, a wide-angle action-camera frame, or a robotic camera feed without fine-tuning. And when additional geometric signals such as sparse depth/LiDAR/TOF are available, WildDet3D folds them in to sharpen its predictions.

Alongside the model, we're releasing WildDet3D-Data: over one million images with 3.7 million verified 3D annotations spanning more than 13K object categories, including over 100K human-annotated images, along with evaluation materials and an interactive demo. We're also releasing an iOS demo app that uses live camera input and LiDAR depth to render 3D bounding boxes as AR overlays in real time.

Everything is openly available—because we believe progress in spatial intelligence should be inspectable, reproducible, and built on by the broader research community.

One architecture, many prompt types

WildDet3D supports several prompt modalities within a single geometry-aware architecture. Category-name prompts let you query by object type—enter "chair" and the model finds every chair in the scene, localized in 3D. Point prompts let you click on an object for interactive selection. Box prompts let you supply a 2D bounding box and have the system infer the full 3D extent.

For richer interaction, WildDet3D can be paired with a vision-language model like Molmo 2: the VLM interprets what a user is asking about, then hands the relevant region to WildDet3D for 3D localization. This also means WildDet3D can serve as a spatial reasoning layer in larger pipelines, adding 3D understanding to any system that can produce a category name, a point, or a 2D box.

This flexibility also opens the door to zero-shot 3D tracking. Because WildDet3D can accept a 2D bounding box from any upstream detector or tracker and lift it into 3D frame by frame, it can provide continuous 3D localization of objects across a video stream without ever having been trained on tracking data. Pair it with a wearable camera – like smart glasses – and the architecture could support persistent spatial awareness of the objects around you, driven entirely by the visual feed (though the full model currently requires server-side compute or further optimization for real-time on-device use).

Under the hood, three components work together. First, a 2D detector built on the SAM3 vision backbone accepts all three prompt types and identifies objects in the image. Second, a separate geometry backend – a frozen DINOv2 encoder with a trainable depth decoder – estimates per-pixel depth and produces geometry-aware features. These two branches run in parallel for efficiency. Third, a 3D detection head fuses the 2D detections with the depth features through cross-attention, lifting the 2D evidence into full 3D bounding box predictions that include position, dimensions, and orientation.

A key design choice is that the geometry backend is modular—decoupled from the detection backbone so that different depth models can be swapped in without rearchitecting the system. The backend also uses a ray-aware decoder that bakes camera geometry directly into its features using spherical harmonic encodings of camera ray directions, eliminating the need for a separate camera calibration branch.

When sparse or partial depth data is available at inference time – from a LiDAR sensor, an RGB-D camera, or stereo setup – it feeds seamlessly into this backend, improving localization without requiring any changes to the overall pipeline.

Better 3D perception doesn't just require better models—it requires training data that reflects the variety of objects beyond standard benchmarks. Complementing WildDet3D, WildDet3D-Data was built by generating candidate 3D boxes for objects in existing large-scale 2D detection datasets, including COCO, LVIS, Objects365, and V3Det, using five complementary 3D estimation methods, then refining and filtering candidates before passing them through VLM-based selection and human selection. This curation process yields over one million images with 3.7 million verified 3D annotations covering more than 13K categories, with a carefully human-selected core of over 100K images—far broader than what established 3D datasets offer alone.

Training on this data is what enables WildDet3D to generalize beyond narrow benchmark taxonomies. As we show below, it lifts in-the-wild performance across 700+ object categories.

Strong across benchmarks, zero-shot transfer

We evaluated WildDet3D across several settings to test both accuracy on established benchmarks and the ability to generalize to new domains and categories.

On Omni3D – the standard suite for monocular 3D detection, spanning six indoor and outdoor datasets across 50 categories – WildDet3D reaches 34.2 AP (Average Precision, a measure of how accurately predicted 3D boxes match ground truth in position and size) with text prompts, a 5.8-point improvement over the previous best (3D-MOOD), and 36.4 AP with oracle box prompts, surpassing DetAny3D by 2.0 points. It achieves this with just 12 training epochs compared to 80-120 for prior methods, enabled by high-quality pretrained representations from SAM3 and DINOv2. When sparse depth is provided at test time, performance climbs further: 41.6 AP (text) and 45.8 AP (oracle), with the largest jumps on indoor datasets where depth sensors are common.

To test generalization beyond Omni3D's training distribution, we evaluated zero-shot on datasets including Argoverse 2, an autonomous driving dataset with 26 object categories, and ScanNet, an indoor scene dataset with 18 categories. Performance is measured by Open Detection Score (ODS), a composite metric combining precision, translation accuracy, scale, and orientation quality.

WildDet3D achieves 40.3 ODS on Argoverse 2, nearly doubling the previous best of 23.8, and 48.9 ODS on ScanNet, a 17.4-point gain. The improvements are most striking on novel categories—objects absent from Omni3D. On those, it scores 38.6 ODS on Argoverse 2 versus 14.8 for the prior best, and 45.8 versus 15.7 on ScanNet, suggesting the model's visual backbone transfers far more effectively to unfamiliar objects than previous architectures. We also see the same pattern on Stereo4D, a zero-shot benchmark with real stereo depth. Without depth, WildDet3D is already competitive in box-prompt mode at 7.5 AP. When real stereo depth is provided at test time, it climbs to 27.7 AP in the oracle box-prompt setting—evidence that the same architecture can generalize beyond Omni3D and make strong use of real geometric signals when they’re available.

In-the-wild evaluation over 700+ object categories. To test even broader generalization, we evaluated WildDet3D on WildDet3D-Bench, our in-the-wild benchmark spanning over 700 object categories grouped by how often they appear: rare (fewer than 5 samples), common (5–20), and frequent (more than 20). Even when trained on Omni3D alone, WildDet3D reaches 6.8 AP in text-prompt mode, already outperforming the strongest 3D-MOOD baseline at 2.3 AP. With additional training data, WildDet3D reaches 22.6 AP in text-prompt mode, up from 2.3 AP for the 3D-MOOD baseline (Swin-T). When ground-truth depth is available at test time, the full model hits 41.6 AP. The gains hold across all frequency buckets, with the biggest jump on rare categories, where WildDet3D reaches 47.4 AP versus 2.4 for 3D-MOOD—an especially strong sign that the model transfers to long-tail, open-world objects rather than only the categories seen most often in training.

Why this matters—and what's next

WildDet3D represents a meaningful advance in spatial intelligence. It brings together multiple prompt types in one model, making 3D detection more extensible and practical. It demonstrates that open-vocabulary 3D perception can generalize far beyond narrow taxonomies, particularly on categories the model was never trained on. It shows that monocular 3D systems don't have to ignore richer geometry when it's available—the same architecture can reason from RGB alone and still benefit when additional depth cues are present. And it accomplishes this with substantially less training compute than prior methods.

With this release, we're making available the WildDet3D model, WildDet3D-Data, an iOS app, supporting materials for evaluation and experimentation, and an interactive demo—all openly accessible.

Spatial intelligence is core to where AI is heading. The same model that helps an AR app place directions over a street can help a robot estimate the size of a package on a shelf, or power 3D-aware applications on smart glasses—and we think the most interesting applications are the ones no one has built yet.

Subscribe to receive monthly updates about the latest Ai2 news.

この記事をシェア

関連記事

KDnuggets★32026年6月10日 23:00

低コストでのローカルエージェント型プログラミング:Claude Code、Ollama、Gemma4の活用

KDnuggets は、Claude Code と Ollama、Gemma4 を組み合わせることで、高価なクラウドサービスに頼らずローカル環境でエージェント型プログラミングを実現する手法を紹介している。

Smol AI News★42026年6月4日 14:44

今日は何も大きな出来事はありませんでした

Smol AI News は、6月3日から4日にかけての期間に、12件のサブレッドや544件のツイートを調査しましたが、AI業界で特筆すべき動きは確認されませんでした。

TLDR AI★42026年5月29日 09:00

オープンモデルはどれほど遅れているのか?(17 分読了)

TLDR AI は、オープンソースモデルが最高峰のクローズドモデルより約 4〜6 ヶ月遅れており、DeepSeek R1 の発表時には差が最小だったが、その後再び拡大していると分析している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む