AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
One Useful Thing·2026年2月18日 10:45·約21分で読める

エージェント時代におけるAI活用法ガイド

#Agentic AI#LLM#Claude Opus 4.6#GPT-5#Gemini 3 Pro
TL;DR

Agentic AI時代において、単なるチャットボットの対話ではなく「モデル」「アプリ」「ハーネス」の3要素を区別して評価・選択することが、AI活用において不可欠である。

AI深層分析2026年4月27日 13:12
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
4
革新性10%
3

キーポイント

1

AI利用パラダイムの転換

従来の双方向チャットから、タスクを委任して自律的に実行する「エージェント」としての利用へ移行しており、これによりAI選択基準が根本的に変化している。

2

モデル・アプリ・ハーネスの3要素

AI活用には、推論能力を決定する「モデル」、実際の製品として対話する「アプリ」、そしてツール使用や複数ステップのタスク実行を可能にする「ハーネス」の3つを考慮する必要がある。

3

主要モデルと最新動向

GPT-5.2/5.3、Claude Opus 4.6、Gemini 3 Proが主要モデルであり、これらのリリースペースは過去よりも急速に進んでいる。

4

ハーネスの重要性と具体例

ハーネスはモデルの力を現実の仕事に変換する仕組みであり、Claude CoworkやCodeのような高度なハーネスは、仮想コンピュータやブラウザを通じて複雑なタスクを完遂できる。

5

ハarnessの重要性と多様性

AIモデルの能力を実務に活かすには、ツール使用や自律的なアクションを可能にする「ハarness」が不可欠であり、Claude CodeやManusなど用途に応じた多様なハarnessが存在する。

6

同一モデルでもハarnessで体験が異なる

同じAIモデルでも、チャットウィンドウで対話する場合と、コード生成やウェブサイト構築など特定のハarness内で自律的に動作する場合では、その能力発揮と体験が大幅に異なる。

7

有料モデルの必要性と無料モデルの限界

高度なAI活用には月額20ドル以上の有料プランが必要であり、無料モデルは正確性よりも対話の楽しさや速度に最適化されており、実務での精度や能力は有料モデルに劣る。

影響分析・編集コメントを表示

影響分析

この記事は、AI利用者が単に「どのモデルを使うか」だけでなく、「そのモデルをどのようなインターフェースとツールセット(ハーネス)で扱うか」という視点へシフトすべきことを示唆しており、実務におけるAI導入戦略の見直しを促す重要な指針となる。特にエージェント機能の普及により、ツールの連携能力が競争力の源泉になるため、企業や開発者はモデル選定に加えてエコシステムの整合性を評価する必要が生じる。

編集コメント

「モデル」と「それを利用する仕組み(ハーネス)」を明確に区別した分析は、Agentic AI時代の実践的なガイドラインとして極めて有用である。ユーザーは単なる性能比較だけでなく、ツール連携能力を重視した選択が求められる。

私は ChatGPT が登場して以来、この種のガイドを8本書いてきましたが、今回のバージョンは過去との決定的な断絶を表しています。なぜなら、「AI を使う」という意味が劇的に変化したからです。数ヶ月前まで、大多数の人にとって「AI を使う」とは、チャットボットと往復の会話を行うことを意味していました。しかしここ数ヶ月で、AI をエージェントとして実用的に利用することが可能になりました。タスクを割り当てれば、適切なツールを活用してそれを実行してくれます。この変化により、どの AI を使用するかを決定する際には、3 つの要素を考慮する必要があります:モデル(Models)、アプリ(Apps)、そしてハーンセス(Harnesses)。

image
image

同じモデルである Claude Opus 4.6 が、全く同じ質問「ChatGPT と Claude と Gemini を比較してください」を、3 つの異なるアプリとハーンセスで尋ねてみました。ハーンセスを使用しない場合、情報は古くなっています。Claude.ai のサイトでは、更新された情報と検証可能なソースが得られます。一方、Claude Cowork を使用すると、洗練された分析と整然とした対比比較が得られます。

モデルは基盤となる AI の頭脳であり、主要な 3 つは GPT-5.2/5.3、Claude Opus 4.6、Gemini 3 Pro です(各社は過去よりもはるかに速いペースで新モデルをリリースしているため、今後数週間でバージョン番号が変更される可能性があります)。これらがシステムの知能の度合い、推論能力、文章作成やコーディング、スプレッドシート分析における性能、画像の認識や生成能力を決定します。モデルはベンチマークで測定される対象であり、AI 企業が競って改善しようとするものです。「Claude は文章作成が得意」「ChatGPT は数学に強い」と言う場合、それはモデルについて話しているのです。

アプリは実際にモデルと対話し、モデルに実務を行わせる製品です。最も一般的なアプリは各モデルのウェブサイト(chatgpt.com、claude.ai、gemini.google.com)であり、あるいはスマートフォン用の同等アプリケーションです。さらに、OpenAI Codex や Claude Code といったコーディングツールや、Claude Cowork などのデスクトップツールなど、各 AI 企業が提供する他のアプリも増えています。

ハーネスとは、AI モデルの力を実際の作業に活用させる仕組みです。馬車や農耕具を引くために馬の生きた力を引き出す馬具と同じように、ハーネスは AI がツールを使用し、行動を起こし、単独で多段階のタスクを完了できるようにするシステムです。

アプリにはハーネスが備わっています。ウェブサイトの Claude には、Claude 4.6 Opus に Web 検索やコード作成を可能にするハーネスがあり、同時にスプレッドシートの作成やグラフィックデザイン作業など、さまざまな問題へのアプローチ方法に関する指示も含まれています。一方、Claude Code はさらに広範なハーネスを提供しており、Claude 4.6 Opus に仮想コンピュータ、Web ブラウザ、コードターミナルを与え、これらを組み合わせてゼロから新しいウェブサイトの調査、構築、テストを実際に行うことができるようにします。

Manus(最近 Meta によって買収されました)は、複数のモデルを包み込むスタンドアロンのハーネス essentially でした。最近大きな話題となった OpenClaw は、主にコンピュータ上で任意の AI モデルを使用可能にするハーネスです。

最近まで、あなたはこれを知る必要はありませんでした。モデルこそが製品であり、アプリはウェブサイトそのものであり、ハーン(制御基盤)は最小限のものでした。ユーザーが入力し、システムが応答し、また入力する。現在では、同じモデルでも、それが動作しているハーンによって非常に異なる振る舞いを示す可能性があります。チャットウィンドウであなたと対話する Claude Opus 4.6 と、Claude Code の内部で自律的に数時間にわたってソフトウェアの記述とテストを行う Claude Opus 4.6 では、体験は全く異なります。質問に答える GPT-5.2 と、ウェブサイトをナビゲートしてスライドデッキを構築する GPT-5.2 Thinking では、体験が非常に異なるのです。

これは、「どの AI を使うべきか」という問いに対する答えが以前よりも難しくなったことを意味します。なぜなら、その答えはあなたがそれを使って何を実現しようとしているかに依存するためです。では、この風景(ランドスケープ)を一緒に見ていきましょう。

現在のモデルたち

上位モデルは全体的な能力において驚くほど互角であり、以前にも増して「賢く」、エラーも極めて少ないです。しかし、高度な AI を本格的に活用したいのであれば、月額少なくとも 20 ドルを支払う必要があります(ただし、世界の特定の地域ではより安価な代替プランが存在します)。この 20 ドルで得られるのは、使用するモデルを選択できる権利と、より先進的なフロンティアモデルやアプリケーションを利用する能力の 2 つです。現在利用可能な無料モデルが有料モデルと同程度に優れているとお伝えできればよいのですが、残念ながらそうではありません。無料モデルはすべて正確性よりもチャット体験に最適化されており、非常に高速で会話相手として楽しいことが多いものの、精度と能力は大幅に劣ります。実際、誰かが AI が愚かな行動をする例を投稿している場合、それは無料モデルを使用しているか、あるいはより賢いモデルを選択しなかったことが原因であるケースがほとんどです。

主要なフロンティアモデルの3大巨頭は、Anthropic の Claude Opus 4.6、Google の Gemini 3.0 Pro、そして OpenAI の ChatGPT 5.2 Thinking です。これらの選択肢を利用すれば、音声モード機能や画像・ドキュメントの閲覧機能、コード実行機能、優れたモバイルアプリ、さらに画像や動画の作成機能(ただし Claude はここが弱点です)を備えた最高峰の AI モデルにアクセスできます。それぞれ異なる個性と強み・弱みを持っていますが、多くの場合、自分が最も気に入ったものを選ぶだけで十分でしょう。現時点では、この分野の他の企業はモデル面でもアプリやハーンネス(基盤システム)面でも後れを取っており、一部のユーザーにはそれらを選択する理由があるかもしれませんが。

image
image

これは少し誇張した表現ですが、正解であることが重要ではないカジュアルな会話であれば小型モデルを使用することも可能です。それ以外の場合は、必ず高度なモデルを選んでください!

AI アプリ(これらについては後ほど詳しく説明します)を使用する際、電話アプリやウェブサイトを含め、あなたが最も重視すべきことは適切なモデルを選ぶことです。しかし、AI 企業はこれを容易にしていません。単にチャットをするだけならデフォルトのモデルで十分ですが、実際に作業を行う場合はそうはいきません。ChatGPT では、無料版か有料版かを問わず、割り当てられるデフォルトモデルは「ChatGPT 5.2」です。問題は、GPT-5.2 が単一のモデルではなく、非常に弱い GPT-5.2 mini から優れた GPT-5.2 Thinking、そして極めて強力な GPT-5.2 Pro までを含む複数のモデルの集合体である点にあります。GPT-5.2 を選択すると、実際には「自動」モードが有効になり、AI がどのモデルを使用するかを決定します。その際、しばしば性能の低いモデルが選ばれます。有料版を利用すれば、使用するモデルを自分で選べるようになります。さらに複雑になるのは、モデルが回答に対してどれほど深く「思考」するかを選択できる点です。複雑なタスクには、私は常に手動で GPT-5.2 Thinking Extended(月額 20 ドルのプラン)または GPT-5.2 Thinking Heavy(より高価なプラン)を選択します。非常に難しい問題で多くの思考を要する場合は、最も強力なモデルである GPT-5.2 Pro を選択できますが、これはより高額な料金 tiers のみで利用可能です。

Gemini には3つの選択肢があります:Gemini 3 Flash、Gemini 3 Thinking、そして一部の有料プランでは Gemini 3 Pro です。Ultra プランに加入すれば、非常に困難な問題に対して Gemini Deep Think にアクセスできるようになります(これは別のメニューにあります)。真剣に取り組むべき問題については、必ず Gemini 3 Pro または Thinking を選択してください。

Claude の場合は、Opus 4.6 を選ぶ必要があります(新しい Sonnet 4.6 も強力ですが、やや劣ります)。「extended thinking」スイッチをオンにすることも忘れないでください。

再び申し上げますが、多くのユーザーにとって、モデル間の違いはすでに小さくなっているため、アプリやハッチス(harness)の方がモデルそのものよりも重要になっています。これが、より大きな問いへと私たちを導きます。

チャットボットのインターフェース

圧倒的多数の人は、AI モデルにアクセスするために ChatGPT、Claude、Gemini の主要ウェブサイトまたはモバイルアプリであるチャットボットを使用しています。事実上、チャットボットは最も重要で広範な AI アプリケーションと呼べるものです。ここ数ヶ月で、これらのアプリは互いにかなり異なるものへと進化しました。

いくつかの違いは、AI と一緒にバンドルされている機能にあります:

Gemini チャットボットにバンドルされており(小さなプラスボタンからアクセス可能):nano banana(現在の最高峰の AI 画像生成ツール)、Veo 3.1(主要な AI 動画生成ツール)、Guided Learning(学習を試みる際に、AI がよりチューターのように振る舞うのを支援)、そして Deep Research にアクセスできます。

ChatGPT にバンドルされている機能には、プラスボタンからアクセスできるさらに多種多様なオプションが含まれています。画像作成(画像生成モデルはほぼ nano banana に匹敵しますが、チャットボットからは Sora 動画クリエイターにアクセスできません)、学習と勉強(Gemini のガイド付き学習に相当しますが、なぜかクイズ作成機能も別途用意されています)、深層調査およびショッピングリサーチ(驚くほど優秀で見過ごされがちです)などがあり、その他多くの人が頻繁には使わないであろう一連のオプションも含まれていますが、これらについてはここでは取り上げません。

Claude には深層調査がバンドルされた唯一のオプションですが、プロジェクトを作成して学習用プロジェクトを選択することで、学習モードにアクセスできます。

すべての AI モデルはデータへの接続を可能にしており、例えば AI にメールやカレンダーを読み込ませたり、ファイルにアクセスさせたり、他のアプリケーションと連携させたりすることができます。これにより AI の有用性が大幅に向上しますが、やはり各 AI ツールで利用可能なコネクタのセットは異なります。

これは混乱を招きます!実際の業務を行う多くの人にとって、最も重要な追加機能は深層調査と、AI を自分のコンテンツに接続させることですが、他の機能についても試してみたいと思うかもしれません。しかし次第に重要視されるのは、ハネス(AI がアクセスできるツール群)です。そしてここにおいて、OpenAI と Anthropic は Google に対して明確なリードを握っています。Claude.ai と ChatGPT の両方とも、コードの作成と実行、ファイルの提供、広範な調査の実行など、多くの機能を持っています。一方、Google の Gemini ウェブサイトは(その AI モデル自体は同等に優秀であるにもかかわらず)、はるかに能力が劣ります。

ご覧の通り、ChatGPT と Claude では同様の質問に対して動作するスプレッドシートやパワーポイント資料を生成でき、追跡可能な明確な引用も提供してくれます。一方、Gemini はどちらの種類の文書も作成できず、引用やリサーチ機能も提供していません。ただし、Google はすぐにこの点を追いつけると予想しています。

チャットボットに関する最後の注意点として、GPT-5.2 Pro は付属のハーン(harness)とともに非常に賢いモデルです。これは直近で物理学における新規結果の導出を支援したモデルであり、複雑な統計解析や分析作業において最も能力が高いと私が考えるモデルでもあります。ただし、より高額なプランを通じてのみアクセス可能です。Google Gemini 3 Deep Think も同様に非常に有能力ですが、同じくハーンの問題を抱えています。

image
image

プロンプト:「あなたは経済社会学者です。このデータを用いて検証可能な新規仮説をいくつか導き出し、高度な実験を行い、その結果を教えてください。」と入力し、大規模な Excel データセットを提供しました。

その他のアプリおよびハーン

チャットボットのウェブサイトは、人々が AI と対話する主な場所ですが、最も印象的な成果が生まれる場所ではなくなりつつあります。これらの同じモデルをより強力なハッチ(harness)で包み込む他のアプリケーション群が増加しており、それらの重要性も高まっています。

Claude Code、OpenAI Codex、そして Google Antigravity はこれらの中で最も開発が進んだものであり、すべてがプログラマーを対象としています。それぞれが AI モデルにコードベースへのアクセス権、ターミナルへの接続、そして自らコードを書き、実行し、テストする能力を与えます。あなたが何を構築したいかを記述すると、AI がそれを実行し、完了するか行き詰まった時に報告します。もしあなたが職業としてコーディングを行っているなら、これらのツールはあなたの仕事を根本から変えています。最も広範なハッチを備えているため、たとえあなたがコードを書かない場合でも、これらは依然として莫大な作業を遂行することができます。

例えば、数年前に私は、GPT-1 のすべての内部重みとパラメータ(AI のコードであり、1 億 1700 万個の数値としてリストされている)を一連の書籍として提供することで、完全に紙ベースの LLM(大規模言語モデル)をどのように作成するかについて興味を持ちました。理論的には、十分な時間をかければ、これらの数値を使って手動で AI の計算を行うことが可能です。これは面白いアイデアのように思えましたが、明らかに実行する価値はありませんでした。しかし先週、私は Claude Code にそれを私に代わって実行するように依頼しました。約 1 時間ほどの間(主に AI が作業し、私がいくつかの提案をするという形でしたが)、GPT-1 の全内容を収めた 80 巻の美しくレイアウトされた書籍を作成し、計算方法に関するガイドも付与しました。さらに、各巻の表紙を考案して実行し、内部の重みを視覚化したデザインも施しました。その後、非常に洗練されたウェブサイト(以下のアニメーションを含む)を組み立て、Stripe を通じて決済機能を接続し、Lulu にオンデマンド印刷を依頼し、全体をテストした上で、私のためにリリースまで完了させました。私は一度もコードに触れたり見たりしたりしていません。私が試みたのは、コストで 20 冊を販売して反応を見ることでしたが、その日はすぐに完売しました。現在、すべての巻は同サイト上で無料の PDF として入手可能です。今では、以前なら多くの作業が必要だった小さなプロジェクトのアイデアさえあれば、私の側での努力をほとんど必要とせずに実行させることができます。

しかし、コーディング用のハーンセス(開発環境)はまだアマチュアにとってリスクが高く、明らかにコーディングに焦点を当てたものです。新しいアプリやハーンセスは、他の種類の知識労働にも注目を集め始めています。

Claude for Excel や PowerPoint は、アプリケーション内部の特定のハーンネスの例です。これら両方とも、これらのプログラムに対する非常に印象的な拡張機能を提供しています。特に Claude for Excel は、スプレッドシートを扱う際の働き方に大きな変化をもたらすものであり、Excel を職業として使用する人々にとって Claude Code と同様のインパクトを持つ可能性があります - ますます、AI に何をしたいかを伝えるだけで、それがジュニアアナリストのような役割を果たして作業を実行してくれます。結果が Excel 内に残るため、確認も容易です。Google は Google Sheets との統合を一部持っていますが(それほど深くはありません)、OpenAI には同様の製品は実質的に存在しません。

image
image

Claude Cowork は本質的に新しいものであり、独自の分類に値します。Anthropic によって1月にリリースされたこのツールは、非技術的な作業向けの Claude Code とほぼ同等のものです。デスクトップ上で動作し、ローカルファイルやブラウザと直接連携できます。ただし、Claude Code に比べてセキュリティが格段に高く、非技術ユーザーにとって危険性は低いです(詳細に関心のある方のために言えば、デフォルトで拒否するネットワーク設定と堅牢な分離機能が組み込まれた仮想マシン上で動作します)。あなたは成果物を指示するだけで(これらの経費報告書を整理する、これらの PDF からデータをスプレッドシートに抽出する、要約文を作成するなど)、Claude が計画を立て、それをサブタスクに分解し、あなたが監視している間(あるいはしていない間)でもあなたのコンピュータ上で実行してくれます。これは Claude Code と同じアジェンシーアーキテクチャの上に構築されており、自身も約2週間で Claude Code によって大半が作成されました。現時点では OpenAI や Google に直接同等の製品はありません。Cowork はまだ研究プレビュー段階であり、初期段階のため利用制限をすぐに使い果たす可能性がありますが、これはすべてが向かっている方向を明確に示しています:あなたの仕事について話すだけでなく、実際にあなたの仕事を遂行する AI です。

image
image

NotebookLM を使えば、左側に調査レポートの実施やソースドキュメントの収集を行い、中央側でその資料に対して質問を投げかけ、右側ではスライドショーなどの成果物に変換することができます。

NotebookLM は Google が異なる課題に対する回答として提供しているツールです。つまり、大量の情報から意味を見出すために AI をどう活用するかという問いへの答えです。NotebookLM に自身で深層調査を行わせることもできますし、ユーザーが自身の論文、YouTube 動画、ウェブサイト、ファイルなどを追加して、クエリ可能なインタラクティブなナレッジベースを構築することも可能です。このナレッジベースはスライドやマインドマップ、動画に変換でき、最も有名なのは AI が生成したポッドキャストです。2 人のホストがあなたの資料について議論する形式で、ホストの発言中に割り込んで質問することもできます。学生、研究者、あるいは文書の山から意味を見出す必要がある方々にとって、NotebookLM は非常に有用なツールです。

そして、OpenClaw もあります。これはどのカテゴリにもきれいに当てはまらないため、あえて言及するものですが、おそらく絶対に使用すべきではありません。OpenClaw は 1 月下旬にバズったオープンソースの AI エージェントです。あなたのコンピュータ上でローカルで動作し、好きな AI モデルに接続でき、WhatsApp や iMessage などの標準的なチャットツールを使って人間と会話するかのように操作できます。ウェブ閲覧、ファイル管理、メール送信、コマンド実行も可能です。いわば、あなたのマシン上に常駐する 24 時間 365 日のパーソナルアシスタントです。しかし、これは深刻なセキュリティリスクでもあります。AI にコンピュータやアカウントへの広範なアクセス権限を与えることになり、あなたがどのような危険にさらされているのかを誰も正確には知り得ないからです。ただし、これが今後どこへ向かっているかの兆候としては機能しています。

今何をすべきか

これは多くの情報かもしれません。簡潔にまとめましょう。

もしこれから始められるのであれば、3 つのシステム(ChatGPT、Claude、または Gemini)のうちいずれか 1 つを選び、20 ドルを支払って上級モデルを選択してください。私の著書からのアドバイスは依然として有効です:AI を行うすべての活動に招待してください。実際の業務で使い始めてください。実際に作業中のドキュメントをアップロードしてください。RFP(提案依頼書)や SOP(標準作業手順書)の形式で非常に複雑なタスクを AI に与えてください。双方向の対話を重ね、AI を追い込んでみてください。これだけで、どんなガイドよりも多くのことを学べるはずです。

すでにチャットボットの使い方に慣れているなら、特定のアプリを試してみてください。NotebookLM は無料で使いやすく、良い出発点となります。さらに深く掘り下げたい場合は、Anthropic が提供する最も強力なパッケージとして、Claude Code や Claude Cowork(どちらも Claude Desktop からアクセス可能)に加え、PowerPoint 用や Excel 用の専門プラグインがあります。これらを実際に試してみてください。デモとしてではなく、実際に必要なタスクを任せてみてください。その動作を観察し、間違えた際には導いてあげてください。あなたはプロンプトを打っているのではなく(私が前回のエッセイで書いたように)、管理しているのです。

チャットボットからエージェントへの移行は、ChatGPT の登場以来、人々が AI を利用する方法において最も重要な変化です。まだ初期段階であり、これらのツールはまだ理解しにくく、奇妙な行動をとることもあります。しかし、何かを実行する AI は、単に言葉を語る AI よりも本質的に有用であり、そのように使いこなす方法を学ぶことは、あなたの時間を無駄にするものではありません。

購読する

共有する

image
image
原文を表示

I have written eight of these guides since ChatGPT came out, but this version represents a very large break with the past, because what it means to “use AI” has changed dramatically. Until a few months ago, for the vast majority of people, “using AI” meant talking to a chatbot in a back-and-forth conversation. But over the past few months, it has become practical to use AI as an agent: you can assign them to a task and they do them, using tools as appropriate. Because of this change, you have to consider three things when deciding what AI to use: Models, Apps, and Harnesses.

image
image

The exact same model, Claude Opus 4.6, asked the exact same question, “Compare ChatGPT and Claude and Gemini” in three different apps and harnesses. With no harness the information is out of date, on the Claude.ai site I get updated information and verifiable sources, using Claude Cowork, I get a sophisticated analysis and well-formatted head-to-head comparisons

Models are the underlying AI brains, and the big three are GPT-5.2/5.3, Claude Opus 4.6, and Gemini 3 Pro (the companies are releasing new models much more rapidly than the past, so version numbers may change in the coming weeks). These are what determine how smart the system is, how well it reasons, how good it is at writing or coding or analyzing a spreadsheet, and how well it can see images or create them. Models are what the benchmarks measure and what the AI companies race to improve. When people say “Claude is better at writing” or “ChatGPT is better at math,” they’re talking about models.

Apps are the products you actually use to talk to a model, and which let models do real work for you. The most common app is the website for each of these models: chatgpt.com, claude.ai, gemini.google.com (or else their equivalent application on your phone). Increasingly, there are other apps made by each of these AI companies as well, including coding tools like OpenAI Codex or Claude Code, and desktop tools like Claude Cowork.

Harnesses are what let the power of AI models do real work, like a horse harness takes the raw power of the horse and lets it pull a cart or plow. A harness is a system that lets the AI use tools, take actions, and complete multi-step tasks on its own. Apps come with a harness. Claude on the website has a harness that lets Claude 4.6 Opus do web searches and write code but also has instructions about how to approach various problems like creating spreadsheets or doing graphic design work. Claude Code has an even more extensive harness: it gives Claude 4.6 Opus a virtual computer, a web browser, a code terminal, and the ability to string these together to actually do stuff like researching, building, and testing your new website from scratch. Manus (recently acquired by Meta) was essentially a standalone harness that could wrap around multiple models. OpenClaw, which made big news recently, is mostly a harness that allows you to use any AI model locally on your computer.

Until recently, you didn’t have to know this. The model was the product, the app was the website, and the harness was minimal. You typed, it responded, you typed again. Now the same model can behave very differently depending on what harness it’s operating in. Claude Opus 4.6 talking to you in a chat window is a very different experience from Claude Opus 4.6 operating inside Claude Code, autonomously writing and testing software for hours at a stretch. GPT-5.2 answering a question is a very different experience from GPT-5.2 Thinking navigating websites and building you a slide deck.

It means that the question “which AI should I use?” has gotten harder to answer, because the answer now depends on what you’re trying to do with it. So let me walk through the landscape.

The Models Right Now

The top models are remarkably close in overall capability and are generally “smarter” and make fewer errors than ever. But, if you want to use an advanced AI seriously, you’ll need to pay at least $20 a month (though some areas of the world have alternate plans that charge less). Those $20 get you two things: a choice of which model to use and the ability to use the more advanced frontier models and apps. I wish I could tell you the free models currently available are as good as the paid models, but they are not. The free models are all optimized for chat, rather than accuracy, so they are very fast and often more fun to talk to, but much less accurate and capable. Often, when someone posts an example of an AI doing something stupid, it is because they are either using the free models or because they have not selected a smarter model to work with.

The big three frontier models are Claude Opus 4.6 from Anthropic, Google’s Gemini 3.0 Pro, and OpenAI’s ChatGPT 5.2 Thinking. With all of the options, you get access to top-of-the-line AI models with a voice mode, the ability to see images and documents, the ability to execute code, good mobile apps, and the ability to create images and video (Claude lacks here, however). They all have different personalities and strengths and weaknesses, but for most people, just selecting the one they like best will suffice. For now, the other companies in this space have fallen behind, whether in models or in apps and harnesses, though some users may still have reasons for picking them.

image
image

This is only a slight exaggeration - for casual chats where being right doesn’t matter, you can use smaller models, otherwise please pick advanced models!

When you are using any AI app (more on those shortly), including phone apps or websites, the single most important thing you can do is pick the right model, which the AI companies do not make easy. If you are just chatting, the default models are fine, if you want to do real work, they are not. For ChatGPT, no matter whether you use the free or pay version, the default model you are given is “ChatGPT 5.2”. The issue is that GPT-5.2 is not one model, it is many, from the very weak GPT-5.2 mini to the very good GPT-5.2 Thinking to the extremely powerful GPT-5.2 Pro. When you select GPT-5.2, what you are really getting is “auto” mode, where the AI decides which model to use, often a less powerful one. By paying, you get to decide which model to use, and, to further complicate things, you can also select how hard the model “thinks” about the answer. For anything complex, I always manually select GPT-5.2 Thinking Extended (on the $20 plan) or GPT-5.2 Thinking Heavy (on more expensive plans). For a really hard problem that requires a lot of thinking, you can pick GPT-5.2 Pro, the strongest model, which is only available at a higher cost tier.

For Gemini, there are three options: Gemini 3 Flash, Gemini 3 Thinking, and, for some paid plans, 3 Pro. If you pay for the Ultra plan, you get access to Gemini Deep Think for very hard problems (which is in another menu entirely). Always pick Gemini 3 Pro or Thinking for any serious problem. For Claude, you need to pick Opus 4.6 (though the new Sonnet 4.6 is also powerful, it is not quite as good) and turn on the “extended thinking” switch.

Again, for most people, the model differences are now small enough that the app and harness matter more than the model. Which brings us to the bigger question.

The Chatbot Interfaces

The vast majority of people use chatbots, the main websites or mobile apps of ChatGPT, Claude, and Gemini, to access their AI models. In fact, we can call the chatbot the most important and widespread AI app. In the past few months, these apps have become quite different from each other.

Some of the differences are which features are bundled with AI:

Bundled into the Gemini chatbot (and accessible with the little plus button): you can access nano banana (the best current AI image creation tool), Veo 3.1 (a leading AI video creation tool), Guided Learning (when trying to study, this helps the AI act more like a tutor), and Deep Research

Bundled into ChatGPT is even more of a hodgepodge of options accessible with the plus button. You can Create Images (the image generator is almost as good as nano banana, but you can’t access the Sora video creator through the chatbot), Study and Learn (the equivalent to Guided Learning in Gemini, but there is also a separate Quizzes creator for some reason), Deep Research and Shopping Research (surprisingly good and overlooked), and a set of other options that most people will not use often, so I won’t cover here.

Claude has only Deep Research as bundled option, but you can access a study mode by creating a Project and selecting study project.

All of the AI models let you connect to data, such as letting the AI read your email and calendar, access your files, or connect to other applications. This can make AI far more useful, but, again, each AI tool has a different set of connectors you can use.

These are confusing! For most people doing real work, the most important additional feature is Deep Research and connecting AI to your content, but you may want to experiment with the others. Increasingly, however, what matters is the harness - the tools the AI has access to. And here, OpenAI and Anthropic have clear leads over Google. Both Claude.ai and ChatGPT have the ability to write and execute code, give you files, do extensive research, and a lot more. Google’s Gemini website is much less capable (even though its AI model is just as good),

image
image

As you can see, asking a similar question gets working spreadsheets and PowerPoints from ChatGPT and Claude, along with clear citations I can follow up on. Gemini, however, is unable to produce either kind of document, and it does not provide citations or research. I do expect that Google will catch up here soon, however.

One final note on Chatbots. GPT-5.2 Pro, with the harness that comes with it, is a VERY smart model. It is the model that just helped derive a novel result in physics and it is the one I find most capable of doing complex statistical and analytical work. It is only accessible through more expensive plans. Google Gemini 3 Deep Think also seems very capable, but suffers from the same harness problem.

image
image

Prompt: “you are an economic sociologist. I want you to figure out some novel hypotheses you can test with this data, do sophisticated experiments, and tell me the findings.” and I gave it a large excel dataset.

Other apps and harnesses

The chatbot websites are where most people interact with AI, but they are increasingly not where the most impressive work gets done. A growing set of other apps wrap these same models in more powerful harnesses, and they matter.

Claude Code, OpenAI Codex, and Google Antigravity are the most well-developed of these, and they are all aimed at coders. Each of them gives an AI model access to your codebase, a terminal, and the ability to write, run, and test code on its own. You describe what you want built and the AI goes and builds it, coming back when it’s done or stuck. If you write code for a living, these tools are changing your job. Because they have the most extensive harnesses, even if you don’t code, they can still do a tremendous amount.

For example, a couple years ago, I became interested in how you would make an entirely paper-based LLM by providing all of the original GPT-1’s internal weights and parameters (the code of the AI, listed as 117 million numbers) in a set of books. In theory, with enough time, you could use those numbers to do the math of an AI by hand. This seemed like a fun idea, but obviously not worth doing. A week ago, I asked Claude Code to just do it for me. Over the course of an hour or so (mostly the AI working, with a couple suggestions), it made 80 beautifully laid out volumes containing all of GPT-1, along with a guide to the math. It also came up with, and executed, covers for each volume that visualized the interior weights. It then put together a very elegant website (including the animation below), hooked it up to Stripe for payment and Lulu to print on demand, tested the whole thing, and launched it for me. I never touched or looked at any code. I had it make 20 books available at cost to see what happened - and sold out the same day. All of the volumes are still available as free PDFs on the site. Now, I can have a little project idea that would have required a lot of work, and just have it executed for me with very little effort on my part.

But the coding harnesses remain risky for amateurs and, obviously, focused on coding. New apps and harnesses are starting to focus on other types of knowledge work.

Claude for Excel and Powerpoint are examples of specific harnesses inside of applications. Both of them provide very impressive extensions to these programs. Claude for Excel, in particular, feels like a massive change in working with spreadsheets, with the potential for a similar impact to Claude Code for those who work with Excel for a living - you can, increasingly, tell the AI what you want to do and it acts a sort of junior analyst and does the work. Because the results are in Excel, they are easy to check. Google has some integration with Google Sheets (but not as deeply) and OpenAI does not really have an equivalent product.

image
image

Claude Cowork is something genuinely new, and it deserves its own category. Released by Anthropic in January, Cowork is essentially Claude Code for non-technical work. It runs on your desktop and can work directly with your local files and your browser. However, it is much more secure than Claude Code and less dangerous for non-technical users (it runs in a VM with default-deny networking and hard isolation baked in, for those who care about the details) You describe an outcome (organize these expense reports, pull data from these PDFs into a spreadsheet, draft a summary) and Claude makes a plan, breaks it into subtasks, and executes them on your computer while you watch (or don’t). It was built on the same agentic architecture as Claude Code, and was itself largely built by Claude Code in about two weeks. Neither OpenAI or Google have a direct equivalent, at least this week. Cowork is still a research preview, meaning it’s early and will eat through your usage limits fast, but it is a clear sign of where all of this is heading: AI that doesn’t just talk to you about your work, but does your work.

image
image

NotebookLM lets you conduct research reports and gather source documents (on the left), ask questions of the sources and material (the middle) and turn them into things like slide shows (on the right)

NotebookLM is Google’s answer to a different problem: how do you use AI to make sense of a lot of information? You can ask NotebookLM to do its own deep research, or else add in your own papers, YouTube videos, websites, or files, and NotebookLM builds an interactive knowledge base you can query, turn into slides, mind maps, videos and, most famously, AI-generated podcasts where two hosts discuss your material (you can even interrupt the hosts to ask questions). If you are a student, a researcher, or anyone who regularly needs to make sense of a pile of documents, NotebookLM is a very useful tool..

And then there is OpenClaw, which I want to mention even though it doesn’t fit neatly into any of these categories and which you almost definitely shouldn’t use. OpenClaw is an open-source AI agent that went viral in late January. It runs locally on your computer, connects to whatever AI model you want, and you talk to it like you were chatting with a person using standard chats like WhatsApp or iMessage. It can browse the web, manage your files, send emails, and run commands. It is sort of a 24/7 personal assistant that lives on your machine. It is also a serious security risk: you are giving an AI broad access to your computer and your accounts, and no one knows exactly what dangers you are exposing yourself to. But it does serve as a sign of where things are going.

What to do now

I know this is a lot. Let me simplify.

If you are just getting started, pick one of the three systems (ChatGPT, Claude, or Gemini), pay the $20, and select the advanced model. The advice from my book still holds: invite AI to everything you do. Start using it for real work. Upload a document you’re actually working on. Give the AI a very complex task in the form of an RFP or SOP. Have a back-and-forth conversation and push it. This alone will teach you more than any guide.

If you are already comfortable with chatbots, try the specific apps. NotebookLM is free and easy to use, which makes it a good starting place. If you want to go deeper, Anthropic offers the most powerful package in Claude Code, Claude Cowork (both accessible through Claude Desktop) as well as the specialized PowerPoint and Excel Plugins. Give them a try. Again, not as a demo, but with something you actually need done. Watch what it does. Steer it when it goes wrong. You aren’t prompting, you are (as I wrote in my last piece) managing.

The shift from chatbot to agent is the most important change in how people use AI since ChatGPT launched. It is still early, and these tools are still hard to figure out and will still do baffling things. But an AI that does things is fundamentally more useful than an AI that says things, and learning to use it that way is worth your time.

Subscribe now

Share

image
image
この記事をシェア

関連記事

AI News★42026年6月10日 20:00

Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可

Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。

AI News★42026年6月10日 19:00

マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中

マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。

MarkTechPost★42026年6月10日 17:26

Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場

Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む