TLDR AI·2026年6月3日 09:00·約5分で読める

データセンターがあなたのマシンへ（4 分読了）

#エッジ AI #ハイブリッド推論 #LLM オーケストレーション #Perplexity #プライバシー保護

TL;DR

Perplexity は、機密データをローカルで処理しつつ高度な推論をクラウドに任せるハイブリッド型推論オーケストレーターを発表し、AI の効率化とプライバシー保護の新たな基準を示した。

AI深層分析2026年6月12日 23:12

重要/ 5段階

深度40%

キーポイント

ハイブリッド推論オーケストレーションの実現

Perplexity は、タスクの内容に応じてローカルデバイスとクラウドサーバーの間で自動的に処理を振り分ける最初のハイブリッド型推論オーケストレーターを発表した。

精度・プライバシー・コストの最適化

高精度なモデルが必要な作業はクラウドで、機密データや日常的なタスクはローカルデバイスで処理することで、エネルギー効率とプライバシーを同時に最大化するアプローチを採用している。

ハードウェア依存性の低減と拡張性

Intel や NVIDIA の RTX Spark など、異なるシリコン上で動作するモデル非依存のハネスを提供し、ローカル計算能力の向上がそのままオーケストレーションの効率に直結する構造を構築した。

影響分析・編集コメントを表示

影響分析

この発表は、AI インフラのあり方を「クラウド集中型」から「エッジとクラウドの協調型」へと転換させる重要な転換点となる。ユーザー端末をデータセンターとして活用することで、通信コストの削減、プライバシーリスクの低減、そして大規模モデルへの依存によるエネルギー消費の最適化が同時に達成されるため、業界全体のインフラ設計基準に大きな影響を与えるだろう。

編集コメント

Perplexity が単なる検索エンジンから、リソース配分を自律的に制御するインフラプロバイダーへと進化していることが明確に示されました。特に「タスクごとに自動で場所を選ぶ」という機能は、実用化における最大の課題であるプライバシーと性能のトレードオフを解消する画期的なアプローチです。

データセンターがあなたのマシンへ

AI システムにとっての正しい目標は、ユーザーごとにワットあたりのトークン価値を最大化することです。一見シンプルに聞こえますが、実際にはそうではありません。なぜなら、三つの要素がお互いに拮抗しているからです。

精度（Accuracy）は最も能力の高いモデルを要求しますが、それを実行するにはコストがかかります。プライバシー（Privacy）は、一部の処理をあなたのマシンから外に出さないことを求めます。コストとエネルギー（Energy）は、小規模なモデルで対応可能なタスクに最先端モデルの計算リソースを浪費しないようにします。これら三つのうちどれかを最大化しようとしても、他方を無視することはできません。

この三つをバランスさせるのは、オーケストレーション（orchestration：調整・統制）の問題です。そして、オーケストレーションこそが Perplexity がこれまで一貫して取り組んできたことです。

本日、私たちは Personal Computer の次のステップを発表しました。それは、最初のハイブリッド・ローカルサーバー推論オーケストレーターです。これは、どの処理をデバイス上で実行し、どの処理をクラウド上のエージェントに任せるべきかを推論し、タスクの各部分を自動的に適切な場所にルーティングします。

モデルから計算リソースへ

Perplexity はまず、正確で出典が明記された回答を生み出すためにツールと情報源をオーケストレーションすることから始めました。Computer はこれを拡張し、数百のエージェントのためのハネス（harness：枠組み・基盤）となり、二十を超える最先端モデルの中から各タスクに最適なモデルを選択して起動します。今や私たちは、同じ考え方を計算リソースそのものに適用できます。どのモデルを、どこで実行し、なぜそうするのかという問いです。

ハイブリッド・エージェント型推論は、機密データを含むものの強力な AI が必要となる業務向けです。金融記録、健康情報、個人ファイルなどが該当します。コンパクトなモデルは端末上でローカルに実行され、いつ機密データをローカルに保持すべきかを判断します。

一方、フロンティア・モデルの全能力を必要とする業務はサーバー上で実行されます。実際のタスクの多くは混合されたものであるため、パーソナル・コンピューター（Personal Computer）がそれらを分割し、各部分を調整します。事前にローカルかクラウドかを選択するよう求めるツールとは異なり、これはタスクごとに自動的に発生します。

デバイスがデータセンターとなる

長年、より高性能なシリコンは主にアプリの高速化とバッテリー寿命の延長を意味していました。しかし、チップが実際の推論を実行できるようになると、この状況は変化します。ローカルハードウェアが良ければ良いほど、オーケストレーター（調整役）は端末上で維持できる割合が増え、サーバーは本当にそれを必要とする業務のために確保されるようになります。

私たちは Intel と共同でこれを発表しましたが、同じモデル非依存のハーン（枠組み）は NVIDIA の RTX Spark を含む他のローカル・シリコン上でも動作します。ローカル計算能力を巡る競争が始まっています。チップが進化するにつれ、真にシームレスなオーケストレーションのためのエージェント型ハーンと適用推論エンジニアリングを備えているのは Perplexity だけです。

これは、計算資源の不足を見守るすべての人にとっての数式も変えます。機密性の高い業務と日常的な業務が、すでにユーザーが所有しているデバイス上に移行すれば、それらを提供するために大規模な集中型インフラを構築する必要はなくなります。これにより、主権のあり方も変わります：重要なデータは、自国にデータセンターを建設して維持しなくても、そのデータが属する管轄区域内のままにしておくことができます。

人々は、自分が制御できないデータセンター上で動作させるよりも、自分のラップトップ内にデータセンターを持つことを望みます。

効率のための適切なアーキテクチャ

このアーキテクチャが Perplexity に適しているのには理由があります。私たちのビジネスは常に、販売するトークンの最大化ではなく、正確な AI を目指してきました。これはワットあたりの価値を最適化するための正しいインセンティブです：答えが正しく、業務が完了したときにこそ勝つのであり、より多くの計算資源を消費したからといって勝つわけではありません。

ハイブリッド AI は長年にわたり業界の目標でした。7 月に登場するローカル推論機能を備えたパーソナルコンピュータは、これを現実のものとする最初の製品であり、計算リソースをマシンとクラウド全体で知的にオーケストレーションすべき要素の一つとして扱う初の試みです。

原文を表示

The Data Center Moves to Your Machine

The right goal for an AI system is to deliver the most token value per watt, for each user. That sounds simple. It isn't, because three things pull against each other.

Accuracy demands the most capable models, which are expensive to run. Privacy demands that some work never leave your machine. Cost and energy demand that you don't spend a frontier model's compute on a task a smaller one can handle. You cannot maximize one without respecting the others.

Balancing all three is an orchestration problem. And orchestration is the thing Perplexity has always done.

Today we announced the next step for Personal Computer: the first hybrid local-server inference orchestrator. It reasons about what work should run on your device and what work should go to agents in the cloud, and it routes each part of a task to the right place automatically.

From models to compute

Perplexity began by orchestrating tools and sources to produce accurate, cited answers. Computer expanded that to a harness for hundreds of agents, spun up in more than twenty frontier models, choosing the right one for each task. Now we can extend the same idea to compute itself: which model, where it runs, and why.

Hybrid agentic inference is for work that includes sensitive data but needs powerful AI. Things like financial records, health information, and personal files. The compact model runs locally on your device to determine when sensitive data should also be kept locally.

Meanwhile, work that needs a frontier model's full capability runs on the server. Most real tasks are a mix, so Personal Computer splits them and coordinates the parts. Unlike tools that ask you to pick local or cloud up front, this happens on its own, task by task.

The device is the data center

For years, more capable silicon mostly meant faster apps and longer battery life. That changes when the chip can run real inference. The better the local hardware, the more the orchestrator can keep on your machine, and the more it can reserve the server for the work that genuinely requires it.

We unveiled this with Intel, and the same model-agnostic harness runs across other local silicon, including NVIDIA's RTX Spark. The race for local compute is on. As chips advance, only Perplexity has the agentic harness and applied inference engineering for truly seamless orchestration.

This also changes the math for everyone watching the compute shortage. When sensitive work and routine work move onto the devices people already own, you don't need to build as much centralized infrastructure to serve it. It changes what sovereignty looks like, too: important data can stay in its own jurisdiction without a country standing up a data center to keep it there.

People would rather own a data center in their laptop than build on one they don't control.

The right architecture for efficiency

There's a reason this architecture fits Perplexity. Our business has always been accurate AI, not maximizing the tokens we sell. That's the right incentive for optimizing value per watt: we win when the answer is right and the work gets done, not when it consumes more compute.

Hybrid AI has been an industry ambition for a long time. Personal Computer with local inference, coming in July, is the first product that makes it real, and the first to treat compute as one more thing to orchestrate intelligently, across your machine and the cloud.

この記事をシェア

NVIDIA Developer Blog★42026年6月17日 07:30

NVIDIA XR AI を用いた AR グラスおよび XR デバイス向け AI エージェントの構築

NVIDIA は、AR グラスや XR デバイス上で動作する AI エージェントを構築するための技術とアプローチを NVIDIA Developer Blog で発表した。

Google DeepMind★32026年6月9日 23:10

Gemma 4 12B の紹介：統一型エンコーダー非搭載マルチモーダルモデル

Google DeepMind が、エンコーダーを不要とした新しいマルチモーダルモデル「Gemma 4 12B」を発表した。このモデルは画像とテキストの両方を処理できる統合型アーキテクチャを採用している。

Google Developers AI★42026年6月3日 09:00

Google AI Edge を活用した Gemma 4 12B のローカル導入：ラップトップで実行可能なエージェント型ワークフローの実現

Google DeepMind は、メモリ 16GB の一般的なラップトップでも動作する「Gemma 4 12B」モデルを発表し、macOS 上で Google AI Edge Gallery を介してローカルデータ処理や視覚的洞察生成を可能にするエージェント型 AI ワークフローを提供している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

TLDR AI·2026年6月3日 09:00·約5分で読める

データセンターがあなたのマシンへ（4 分読了）

#エッジ AI #ハイブリッド推論 #LLM オーケストレーション #Perplexity #プライバシー保護

TL;DR

AI深層分析2026年6月12日 23:12

重要/ 5段階

深度40%

キーポイント

ハイブリッド推論オーケストレーションの実現

精度・プライバシー・コストの最適化

ハードウェア依存性の低減と拡張性

影響分析・編集コメントを表示

影響分析

編集コメント

データセンターがあなたのマシンへ

モデルから計算リソースへ

デバイスがデータセンターとなる

人々は、自分が制御できないデータセンター上で動作させるよりも、自分のラップトップ内にデータセンターを持つことを望みます。

効率のための適切なアーキテクチャ

原文を表示

The Data Center Moves to Your Machine

The right goal for an AI system is to deliver the most token value per watt, for each user. That sounds simple. It isn't, because three things pull against each other.

Balancing all three is an orchestration problem. And orchestration is the thing Perplexity has always done.

From models to compute

The device is the data center

People would rather own a data center in their laptop than build on one they don't control.

The right architecture for efficiency

この記事をシェア

NVIDIA Developer Blog★42026年6月17日 07:30

NVIDIA XR AI を用いた AR グラスおよび XR デバイス向け AI エージェントの構築

NVIDIA は、AR グラスや XR デバイス上で動作する AI エージェントを構築するための技術とアプローチを NVIDIA Developer Blog で発表した。

Google DeepMind★32026年6月9日 23:10

Gemma 4 12B の紹介：統一型エンコーダー非搭載マルチモーダルモデル

Google Developers AI★42026年6月3日 09:00

Google AI Edge を活用した Gemma 4 12B のローカル導入：ラップトップで実行可能なエージェント型ワークフローの実現

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

データセンターがあなたのマシンへ（4 分読了）

キーポイント

影響分析

編集コメント

データセンターがあなたのマシンへ

モデルから計算リソースへ

デバイスがデータセンターとなる

効率のための適切なアーキテクチャ

The Data Center Moves to Your Machine

From models to compute

The device is the data center

The right architecture for efficiency

関連記事

データセンターがあなたのマシンへ（4 分読了）

キーポイント

影響分析

編集コメント

データセンターがあなたのマシンへ

モデルから計算リソースへ

デバイスがデータセンターとなる

効率のための適切なアーキテクチャ

The Data Center Moves to Your Machine

From models to compute

The device is the data center

The right architecture for efficiency

関連記事