Perceptron Mk1 が、Anthropic や OpenAI、Google の 80〜90% 安価で高性能な動画分析 AI モデルを発表し業界を驚かせる
2 年目のスタートアップである Perceptron Inc. が、大手競合他社より 80-90% 安価な独自動画分析推論モデル「Mk1」を API で公開し、業界の価格競争に新たな波をもたらした。
キーポイント
圧倒的なコストパフォーマンスの実現
Perceptron Mk1 は、Anthropic の Claude Sonnet 4.5 や OpenAI の GPT-5 など主要競合モデルと比較して、API 利用料が約 80-90% 安価な価格設定で提供されている。
動画分析の多様なビジネス応用
セキュリティ監視(ウォッチドッグ)、マーケティング動画のハイライト抽出、コンプライアンス違反の検知、採用面接での行動分析など、企業向けの具体的なユースケースが提示されている。
スタートアップによる市場変革
設立 2 年目の若手スタートアップが、大手テック企業の独占的な高価格帯モデルに対し、高性能かつ低価格な代替案を提示することで、動画分析 AI の主流化を加速させる。
リアルタイム処理への対応
単なる録画の解析だけでなく、ライブフィード(生配信)の理解と分析が可能であり、即時性が求められる現場での活用が期待される。
影響分析・編集コメントを表示
影響分析
この記事は、動画分析 AI という特定領域において、大手テック企業の支配的な価格設定に対する強力な対抗馬が登場したことを示唆しています。Perceptron のようなスタートアップが「高性能×低価格」のモデルを確立することで、中小企業やコスト意識の高い大規模プロジェクトにおける AI 導入のハードルが大幅に下がる可能性があります。結果として、動画解析分野での市場競争が激化し、技術の民主化と普及加速が期待されます。
編集コメント
設立 2 年目のスタートアップが大手競合を凌駕する価格設定で参入してきた点は、AI 業界の価格競争激化を象徴する出来事と言えます。特に動画分析というニッチかつ高付加価値な領域でのこの動きは、今後の市場構造に大きな影響を与える可能性があります。
動画、特にライブ映像の状況を視覚的に理解できる AI は、多くの企業や組織にとって魅力的な製品であることは当然です。サイトや施設に対するセキュリティの「番犬」として機能するだけでなく、このような AI モデルは、マーケティングビデオの中で最もエキサイティングな部分を切り出してソーシャルメディア向けに再利用したり、動画内の矛盾やミスを特定して削除対象としてフラグを立てたり、統制された研究における参加者や新職に応募する候補者のボディランゲージや行動を識別したりするために使用することもできます。
今日、この種の機能を提供する AI モデルは一部存在しますが、まだ主流の機能とは程遠い状況です。しかし、2 年前に設立されたスタートアップ企業である Perceptron Inc. は、この状況をすべて変えようとしています。本日同社は、そのフラッグシップとなる独自開発の動画分析推論モデル「Mk1」("Mark One" の略)をリリースしたと発表しました。このモデルは、アプリケーションプログラミングインターフェース(API)を通じて提供され、入力 100 万トークンあたり 0.15 ドル、出力 100 万トークンあたり 1.50 ドルというコストで利用可能です。これは、Anthropic の Claude Sonnet 4.5、OpenAI の GPT-5、Google の Gemini 3.1 Pro という主要な競合他社の独自モデルと比較して、約 80〜90% も安価です。
imagePerceptron Mk1 のコストに関するパレート図。クレジット:Perceptron
メタ FAIR やマイクロソフト出身の共同創業者兼 CEO、アルメン・アガジャニャン率いる同社は、物理世界の複雑さに対処するため、16 ヶ月をかけて「マルチモーダルレシピ」をゼロから開発しました。
この発表は、モデルが文法に対する流暢さと同じレベルで、因果関係や物体のダイナミクス、そして物理学の法則を理解する時代が到来したことを示しています。
興味のあるユーザーや潜在的な企業顧客は、Perceptron の公開デモサイト で実際に試すことができます。
空間および動画ベンチマークにおけるパフォーマンス
このモデルのパフォーマンスは、グラウンディングされた理解に焦点を当てた一連の業界標準ベンチマークによって裏付けられています。
imagePerceptron Mk1 ベンチマーク比較表。クレジット:Perceptron
空間推論(ER Benchmarks)において、Mk1 は EmbSpatialBench で 85.1 のスコアを達成し、グーグルの Robotics-ER 1.5(78.4)やアリババの Q3.5-27B(約 84.5)を上回りました。
専門的な RefSpatialBench では、Mk1 のスコア 72.4 は、GPT-5m(9.0)や Sonnet 4.5(2.2)といった競合他社に対する劇的な飛躍を意味し、参照表現の理解において顕著な優位性を示しています。
imagePerceptron Mk1 の動画ベンチマーク比較チャート。提供:Perceptron
動画ベンチマークは同様の支配力を示しています。特に最初のフレームと最後のフレームからの推論では不十分な「EgoSchema」のハードサブセットにおいて、Mk1 は 41.4 を記録し、アリババの Q3.5-27B と同等であり、Gemini 3.1 Flash-Lite(25.0)を大きく上回りました。
VSI-Bench では、Mk1 は 88.5 に達し、比較対象モデルの中で記録された最高スコアとなりました。これは、実際の時間的推論タスクを処理する能力をさらに裏付けるものです。
マーケットポジショニングと効率フロンティア
Perceptron は明示的に「Efficiency Frontier(効率フロンティア)」を標榜しています。これは、動画および具現化された推論のベンチマークにおける平均スコアを、百万トークンあたりのブレンドコストに対してプロットした指標です。
ベンチマークデータによると、Mk1 は独自のポジションを占めています。GPT-5 や Gemini 3.1 Pro といった「フロンティア」モデルのパフォーマンスに匹敵し、あるいは上回る一方で、コスト構造は「Lite」や「Flash」バージョンに近いものです。
具体的には、Perceptron Mk1 の料金は、入力トークン百万あたり 0.15 ドル、出力トークン百万あたり 1.50 ドルです。一方、「Efficiency Frontier」チャートでは、GPT-5 はブレンドコストが著しく高く(約 2.00 ドル)、Gemini 3.1 Pro は約 3.00 ドルとなっています。それに対し Mk1 は、より優れた推論スコアを維持しながら、ブレンドコストは 0.30 ドルの水準に位置しています。
この積極的な価格戦略は、ハイエンドの物理 AI を実験的研究に限定するのではなく、大規模な産業利用のためにアクセス可能にする意図を持っています。
アーキテクチャと時間的連続性
Perceptron Mk1 の技術的核心は、広大な 32K トークンコンテキストウィンドウにおいて、ネイティブビデオを最大毎秒 2 フレーム(FPS)で処理できる能力です。
多くの場合、ビデオを単なる静止画像の断続的なシーケンスとして扱う従来のビジョン・ランゲージモデル(VLMs: Vision-Language Models)とは異なり、Mk1 は時間的連続性を設計理念としています。
このアーキテクチャにより、モデルは拡張されたストリームを「視聴」し、物体が隠れる場合でもその同一性を維持することが可能になります。これはロボット工学や監視アプリケーションにおいて極めて重要な要件です。
開発者は、長いストリーム内の特定の瞬間についてモデルに照会でき、構造化されたタイムコードを受け取ることができます。これにより、ビデオクリップの作成やイベント検出のプロセスが効率化されます。
物理法則に基づく推論
Mk1 の主要な差別化要因は、「物理的推論(Physical Reasoning)」機能です。Perceptron はこれを、モデルが現実世界の環境における物体のダイナミクスや物理的な相互作用を理解することを可能にする高精度な空間認識能力として定義しています。
例えば、モデルはシーンを分析して、バスケットボールのシュートがブザーの前か後かを、空中にあるボールの位置とショットクロックの表示を同時に推論することで判断できます。
これには単なるパターン認識以上のものが求められます。物体が空間と時間をどのように通過するかという理解が必要です。
このモデルは、密度が高く複雑なシーンにおいて「ピクセル精度」の指し示しや数百単位の計数を行うことが可能です。また、歴史的に純粋なデジタルビジョンシステムが高精度で解釈するのが難しかったアナログゲージや時計も読み取ることができます。
さらに、強力な一般的な世界知識と歴史知識を備えているようです。私の短いテストでは、米国議会図書館から1906年のニューヨーク市における高層ビル建設の古く公有領域の映画film of skyscraper construction in New York City dated 1906をアップロードしましたが、Mk1 は映像の内容(ロープに吊るされた作業員など、奇妙で典型的でない光景を含む)を正しく記述しただけでなく、迅速に対応し、映像の外観のみからおおよその日付(1900 年代初頭)も正確に特定しました。
imagePerceptron Mk1 の VentureBeat デモテストのスクリーンショット
物理的 AI 向けの開発プラットフォーム
このモデルのリリースに伴い、これらの高レベルな知覚能力を最小限のコードで機能するアプリケーションに変換するための拡張された開発プラットフォームが提供されます。
Python を介して利用可能な Perceptron SDK は、「Focus(フォーカス)」「Counting(計数)」「In-Context Learning(文脈内学習)」といった、いくつかの専門化された関数を導入しています。
Focus 機能により、ユーザーは自然言語プロンプトに基づいてフレームの特定領域を自動的にズームしたり切り取ったりできます。例えば、建設現場における個人用保護具(PPE)の検出と位置特定などが該当します。
Counting 機能は、密集したシーンに最適化されており、グループ内のすべての子犬や個々の農産物を識別して指し示すことが可能です。
さらに、本プラットフォームはコンテキスト内学習をサポートしており、開発者は数例を提供するだけで Mk1 を特定のタスクに適応させることができます。例えば、リンゴの画像を示し、新しいシーンで「Category 1」に該当するすべてのインスタンスをラベル付けするようモデルに指示を与えるといったケースです。
ライセンス戦略と Isaac シリーズ
Perceptron は、モデル重みおよびライセンスにおいて二つのトラックからなる戦略を採用しています。フラッグシップである Perceptron Mk1 は、エンタープライズグレードのパフォーマンスとセキュリティを目的としたクローズドソースモデルであり、API を経由してアクセス可能です。
しかし同社は、2025 年 9 月に Isaac 0.1 のローンチ で始まった「Isaac」シリーズも維持しており、これはオープンウェイトの代替手段として位置づけられています。Isaac 0.2-2b-preview は 2025 年 12 月にリリースされた、推論機能を備えた 20 億パラメータのビジョン・ランゲージモデルであり、エッジデバイスや低遅延デプロイメント向けに利用可能です。
Isaac モデルの重みは、人気の AI コード共有コミュニティ Hugging Face で公開されていますが、Perceptron は、最大限の制御やオンプレミスでの重みの展開を必要とする企業向けに商用ライセンスを提供しています。
このアプローチにより、同社はオープンソースコミュニティと、独自性の高い柔軟性を必要とする専門的な産業パートナーの両方をサポートすることが可能になります。ドキュメントによると、Isaac 0.2 モデルは特にサブ 200 ミリ秒のトークン生成までの時間(time-to-first-token)に最適化されており、リアルタイムのエッジデバイスに理想的です。
Perceptron の設立と焦点に関する背景
Perceptron AI は、ワシントン州ベルビューを拠点とする物理的 AI スタートアップで、Meta の Facebook AI Research (FAIR) ラボの元研究科学者である Aghajanyan 氏と Akshat Shrivastava 氏によって設立されました。
同社の公開資料では設立時期を 2024 年 11 月としていますが、Perceptron.ai Inc. のワシントン州法人登記記録には、Shrivastava 氏と Aghajanyan 氏を理事(governors)として記載した 2024 年 10 月 9 日付のより早期の外国登録出願 が示されています。
2024 年後半の創業者による発表ポストにおいて、Aghajanyan は、メタ(Meta)でほぼ 6 年間勤務した後、同社を離れ「Shrivastava と力を合わせて」物理世界向けの AI を構築したと述べており、一方 Shrivastava は、この会社は自身の効率性、マルチモーダル性、および新しいモデルアーキテクチャに関する研究から発展したものであると話しています。
この設立は、二人がメタで行ったマルチモーダル基盤モデルに関する研究に直接由来するものです。2024 年 5 月、Meta の研究者たちは Chameleon を発表しました。これはテキストと画像の混合シーケンスを理解・生成するために設計された、早期融合(early-fusion)モデルのファミリーであり、Perceptron は後にこの研究を自社のモデルの系譜の一部であると説明しています。
2024 年 7 月の続編論文 MoMa では、混合モーダルモデルのためのより効率的な早期融合トレーニングが探求され、Shrivastava と Aghajanyan の両者が著者リストに含まれていました。Perceptron が掲げる主張は、この研究方向を「物理 AI(physical AI)」へと拡張するものです。これは、ロボット工学、製造業、地理空間分析、セキュリティ、コンテンツモデレーションなどのユースケースのために、実世界の動画や他の感覚ストリームを処理できるモデルを指します。
パートナーエコシステムと将来展望
Mk1 の実世界への影響は、すでに Perceptron のパートナーネットワークを通じて示され始めています。早期採用者は、このモデルを多様な用途で活用しており、例えばライブスポーツのハイライトを自動クリップするアプリケーションでは、モデルの時系列理解能力を活用して人間の介入なしに重要なプレイを特定しています。
ロボット工学分野では、パートナーがテレオペレーションのエピソードをトレーニングデータとして収集・整理し、ロボットアームや移動ユニットのためのデータラベリングとクリーニングのプロセスを実質的に自動化しています。
その他のユースケースには、製造ラインにおけるマルチモーダル品質管理エージェントがあり、これらは欠陥を検出し、組み立て工程をリアルタイムで検証します。また、スマートグラス用のウェアラブルアシスタントは、ユーザーに文脈に応じた支援を提供します。
アガジャニアン氏は、これらのリリースが「物理 AI」がデジタル AI と同様に至る所に普及する未来へと向かう中、AI が物理世界で最も効果的に機能するようにすることを目的とした研究の集大成であると述べています。
原文を表示
AI that can see and understand what's happening in a video — especially a live feed — is understandably an attractive product to lots of enterprises and organizations. Beyond acting as a security "watchdog" over sites and facilities, such an AI model could also be used to clip out the most exciting parts of marketing videos and repurpose them for social, identify inconsistencies and gaffs in videos and flag them for removal, and identify body language and actions of participants in controlled studies or candidates applying for new roles.
While there are some AI models that offer this type of functionality today, it's far from a mainstream capability. The two-year-old startup Perceptron Inc. is seeking to change all that, however. Today, it announced the release of its flagship proprietary video analysis reasoning model, Mk1 (short for "Mark One") at a cost — $0.15 per million tokens input / $1.50 per million output through its application programming interface (API) — that comes in about 80-90% less than other leading proprietary rivals, namely, Anthropic's Claude Sonnet 4.5, OpenAI's GPT-5, and Google's Gemini 3.1 Pro.

Led by Co-founder and CEO Armen Aghajanyan, formerly of Meta FAIR and Microsoft, the company spent 16 months developing a "multi-modal recipe" from the ground up to address the complexities of the physical world.
This launch signals a new era where models are expected to understand cause-and-effect, object dynamics, and the laws of physics with the same fluency they once applied to grammar.
Interested users and potential enterprise customers can try it out for themselves on a public demo site from Perceptron here.
Performance across spatial and video benchmarks
The model's performance is backed by a suite of industry-standard benchmarks focused on grounded understanding.

In spatial reasoning (ER Benchmarks), Mk1 achieved a score of 85.1 on EmbSpatialBench, surpassing Google’s Robotics-ER 1.5 (78.4) and Alibaba’s Q3.5-27B (approx. 84.5).
In the specialized RefSpatialBench, Mk1's score of 72.4 represents a massive leap over competitors like GPT-5m (9.0) and Sonnet 4.5 (2.2), highlighting a significant advantage in referring expression comprehension.

Video benchmarks show similar dominance; on the EgoSchema "Hard Subset"—where first-and-last-frame inference is insufficient—Mk1 scored 41.4, matching Alibaba’s Q3.5-27B and significantly beating Gemini 3.1 Flash-Lite (25.0).
On the VSI-Bench, Mk1 reached 88.5, the highest recorded score among the compared models, further validating its ability to handle actual temporal reasoning tasks.
Market positioning and the efficiency frontier
Perceptron has explicitly targeted the "Efficiency Frontier," a metric that plots mean scores across video and embodied reasoning benchmarks against the blended cost per million tokens.
Benchmarking data reveals that Mk1 occupies a unique position: it matches or exceeds the performance of "frontier" models like GPT-5 and Gemini 3.1 Pro while maintaining a cost profile closer to "Lite" or "Flash" versions.
Specifically, Perceptron Mk1 is priced at $0.15 per million input tokens and $1.50 per million output tokens. In comparison, the "Efficiency Frontier" chart shows GPT-5 at a significantly higher blended cost (near $2.00) and Gemini 3.1 Pro at approximately $3.00, while Mk1 sits at the $0.30 blended cost mark with superior reasoning scores.
This aggressive pricing strategy is intended to make high-end physical AI accessible for large-scale industrial use rather than just experimental research.
Architecture and temporal continuity
The technical core of Perceptron Mk1 is its ability to process native video at up to 2 frames per second (FPS) across a significant 32K token context window.
Unlike traditional vision-language models (VLMs) that often treat video as a disjointed sequence of still images, Mk1 is designed for temporal continuity.
This architecture allows the model to "watch" extended streams and maintain object identity even through occlusions, a critical requirement for robotics and surveillance applications.
Developers can query the model for specific moments in a long stream and receive structured time codes in return, streamlining the process of video clipping and event detection.
Reasoning with the laws of physics
A primary differentiator for Mk1 is its "Physical Reasoning" capability. Perceptron defines this as a high-precision spatial awareness that allows the model to understand object dynamics and physical interactions in real-world settings.
For example, the model can analyze a scene to determine if a basketball shot was taken before or after a buzzer by jointly reasoning over the ball's position in the air and the readout on a shot clock.
This requires more than just pattern recognition; it requires an understanding of how objects move through space and time.
The model is capable of "pixel-precise" pointing and counting into the hundreds within dense, complex scenes. It can also read analog gauges and clocks, which have historically been difficult for purely digital vision systems to interpret with high reliability.
It also seems to have strong general world and historical knowledge. In my brief test, I uploaded a vintage public domainfilm of skyscraper construction in New York City dated 1906 from the U.S. Library of Congress, and Mk1 was able to not only correctly describe the contents of the footage — including odd, atypical sights as workers being suspended by ropes — but did so rapidly and even correctly identified the rough date (early 1900s) from the look of the footage alone.

A developer platform for physical AI
Accompanying the model release is an expanded developer platform designed to turn these high-level perception capabilities into functional applications with minimal code.
The Perceptron SDK, available via Python, introduces several specialized functions such as "Focus," "Counting," and "In-Context Learning".
The Focus feature allows users to zoom and crop into specific regions of a frame automatically based on a natural language prompt, such as detecting and localizing personal protective equipment (PPE) on a construction site. The Counting function is optimized for dense scenes, such as identifying and pointing to every puppy in a group or individual items of produce.
Furthermore, the platform supports in-context learning, allowing developers to adapt Mk1 to specific tasks by providing just a few examples, such as showing an image of an apple and instructing the model to label every instance of Category 1 in a new scene.
Licensing strategies and the Isaac series
Perceptron is employing a dual-track strategy for its model weights and licensing. The flagship Perceptron Mk1 is a closed-source model accessed via API, designed for enterprise-grade performance and security.
However, the company is also maintaining its "Isaac" series, which kicked off with the launch of Isaac 0.1 in September 2025, as an open-weights alternative.Isaac 0.2-2b-preview, released in December 2025, is a 2-billion parameter vision-language model with reasoning capabilities that is available for edge and low-latency deployments.
While the weights for the Isaac models are open on the popular AI code sharing community Hugging Face, Perceptron offers commercial licenses for companies that require maximum control or on-premise deployment of the weights.
This approach allows the company to support both the open-source community and specialized industrial partners who need proprietary flexibility. The documentation notes that Isaac 0.2 models are specifically optimized for sub-200ms time-to-first-token, making them ideal for real-time edge devices.
Background on Perceptron founding and focus
Perceptron AI is a Bellevue, Washington-based physical AI startup founded by Aghajanyan and Akshat Shrivastava, both former research scientists at Meta’s Facebook AI Research (FAIR) lab.
The company’s public materials date its founding to November 2024, while a Washington corporate filing record for Perceptron.ai Inc. shows anearlier foreign registration filing on October 9, 2024, listing Shrivastava and Aghajanyan as governors.
In founder launch posts from late 2024, Aghajanyan said he had left Meta after nearly six years and “joined forces” with Shrivastava to build AI for the physical world, while Shrivastava said the company grew out of his work on efficiency, multimodality and new model architectures.
The founding appears to have followed directly from the pair’s work on multimodal foundation models at Meta. In May 2024, Meta researchers published Chameleon, a family of early-fusion models designed to understand and generate mixed sequences of text and images, work that Perceptron later described as part of the lineage behind its own models.
A July 2024 follow-on paper, MoMa, explored more efficient early-fusion training for mixed-modal models and listed both Shrivastava and Aghajanyan among the authors. Perceptron’s stated thesis extends that research direction into “physical AI”: models that can process real-world video and other sensory streams for use cases such as robotics, manufacturing, geospatial analysis, security and content moderation.
Partner ecosystems and future outlook
The real-world impact of Mk1 is already being demonstrated through Perceptron's partner network. Early adopters are using the model for diverse applications, such as auto-clipping highlights from live sports, which leverages the model's temporal understanding to identify key plays without human intervention.
In the robotics sector, partners are curating teleoperation episodes into training data, effectively automating the process of labeling and cleaning data for robotic arms and mobile units.
Other use cases include multimodal quality control agents on manufacturing lines, which can detect defects and verify assembly steps in real-time, and wearable assistants on smart glasses that provide context-aware help to users.
Aghajanyan stated that these releases are the culmination of research intended to make AI function best in the physical world, moving toward a future where "physical AI" is as ubiquitous as digital AI.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み