Sign of the future: GPT-5.5｜未来の兆し：GPT-5.5 | AIニュース最前線

私は GPT-5.51 に早期アクセスできましたが、これは大きな出来事だと思います。それが大きな意味を持つのは、AI の急速な改善が終わっていないことを示しているからです。また、単に性能が優れている点でも重要です。さらに、これらすべての要素があるにもかかわらず、AI 能力の最前線は依然として不均一なままです。 AI が向上するにつれ、数学や単語の文字数カウントなど、かつて AI が苦手としていた多くのタスクが今では容易に処理できるようになったため、世代ごとの変化を迅速に示すことがますます難しくなっています。そこで、ここでは複雑な詳細を提供しますが、まず良い例となるシンプルなケースを紹介します。AI モデルが最も得意とするのはコーディングなので、OpenAI の最初の推論モデル o3（1 年と 1 週間前にリリース！）から現在の最高性能のオープンウェights モデル（Kimi K2.6）、そして新しい GPT-5.5 Pro まで、さまざまな AI にコーディング課題を出しました。「3000 BCE から 3000 AD までの港町の進化を示す、 procedurally generated（手動生成ではなくアルゴリズムで自動生成される）な 3D シミュレーションを作成してください。美しく見えるもので、かつ私が一定の制御を行えるものをお願いします。」 その後、私はこれらの回答をすべてギャラリーに投稿しました。あなた自身で実験できるようにするためです（実際、このギャラリーページを作成させたのは GPT-5.5 Codex でした）。実際に触れて違いを実感してほしいのですが、以下にいくつかの例を示します。他のすべての次元において優れているだけでなく、GPT-5.5 Pro だけが、単に時間とともに新しい建物の置き換えを生成するのではなく、進化する町をモデル化しました。GPT-5.5 Pro は以前のバージョンよりもはるかに高速です：タスク完了に GPT-5.4 Pro は 33 分、GPT-5.5 Pro は 20 分かかりました。 モデル、アプリ、ハルネス 私はあなたに、AI を単一の存在ではなく、相互に関連する3つの概念のセットとして考えるよう促してきました。Opus 4.7、Gemini 3.1、あるいは（今では）GPT-5.5 といったモデルを考える必要があります。また、実際にモデルと対話するために使用する製品であり、モデルに実務を行わせることができるアプリにも注目してください。最も一般的なアプリは、各モデルのウェブサイトです：chatgpt.com、claude.ai、gemini.google.com。しかし、Claude Code、Claude Cowork、OpenAI Codex といったデスクトップアプリケーションが、AI にとって最も有用なアプリになりつつあります。最後に、ハルネス（harnesses）とは、AI が使用できるツール、およびこれらのツールに AI モデルがどのように接続されているかを指します。ツールにより、AI はあなたのコンピュータを制御し、コードを書き、調査を行い、画像を作成することができます。 OpenAI は三つの分野すべてで進歩を遂げた。モデル面では、GPT-5.5 は強力なモデルファミリーであり、その中で GPT-5.5 Pro（ウェブサイトでのみアクセス可能）が最も能力が高い。アプリ面でも最近大きな進歩があり、OpenAI の Codex は優れた Claude Code の道をたどるようになり、アクセスしやすく有用なデスクトップアプリケーションを提供している。最後に、ハarness（実行環境）とそれらが使用するツールについてである。多くの新しい harness の改善があるが、その中で最も興味深いのは OpenAI によるもので、新しい画像モデルを搭載している。 この新しいモデルは、高品質なテキストのレンダリングや、あなたが説明できるほぼあらゆる画像の作成が可能になった。長年の読者なら私の「カワウソテスト」をご存知だろう。これは、AI に Wi-Fi を使用する飛行機の上のカワウソの画像を作成させるテストだ。それを再度説明する代わりに、新しい画像モデル（GPT-imagegen-2 と呼ばれることもある）に説明させてみよう。「イーサン・モリックのカワウソテストの結果を示すカワウソの科学者の写真。このテストは、AI 画像生成器が Wi-Fi を使用する飛行機の上のカワウソの画像をどの程度作成できるかを示すものである」 ![image](https://substackcdn.com/image/fetch/$s_!yClN!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd052e0ae-5993-4dab-b51a-59504f85d4ac_1448x1086.jpeg) 関連する学術論文を見たいか？「カワウソテストに関する学術論文の第1ページを、整えられた状態で机の上に置いた画像で私に見せて」 （テキストにズームインしても構わない） ![image](https://substackcdn.com/image/fetch/$s_!EIqx!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2e9f0c7b-c9ad-426e-aa0d-67907d83e914_1448x1086.png) それとも、ただの芸術作品として作ればいいのでしょうか？「今、洗練されたアートギャラリーを表示して。壁に飾られたすべての画像は、ラップトップを使用する飛行機上のカワウソで、クリムト、ロスコ、マティス、モネ、ピカソ、ティツィアーノ、レンブラント、オキーフのスタイルで描いてください。それぞれの下部には読み可能なラベルがあるようにしてください。」（これはズームインして確認する価値があります） ![image](https://substackcdn.com/image/fetch/$s_!I-g3!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F14e71374-9b3a-465d-8b8d-ba09b65737c4_1448x1086.jpeg) これらはすべて非常にクールで、数ヶ月前には不可能だったことですが、実用的でもあります。詳細なテキストと画像を生成できる画像ジェネレーターは、PowerPointのスライドやプロダクトのモックアップ、あるいは例示用のウェブサイトなど、あなたが求めるあらゆるものを作成するために使用できます。しかし、これは単なるツールの一つに過ぎず、真の魔法は、実際の問題に対してハルネス（基盤モデル）、アプリ、およびモデルを組み合わせる際に発生します。以下は、私が10年間先送りしてきたプロジェクトの例です。 統合する 私は学者であり、AI 以外の業務の多く、特に 2010 年代初頭の作業はクラウドファンディングに焦点を当てていました。私は、このトピックに関する調査、分析、研究作業から収集した何百もの匿名化されたデータファイルを持っており、それらは STATA、CSV、XLS、Word ファイルの混合で、論文としてまとめる機会がありませんでした。この情報を使って GPT-5.5 がどこまでできるかを見てみたかったので、GPT-5.5 搭載の Codex を使用し、「[データ] を整理し、興味深く検証可能な新しい仮説を生成し、洗練された方法でそれをテストし、学術論文を書いてください」と依頼しました。さらに、文献レビューと書式設定も含めるよう求めました。結果は非常に印象的でした。特に、GPT-5.5 Pro に論文のコメントを求め、その結果を Codex にフィードバックした後ではなおさらです。結果はここで確認できます。完璧ではありませんが、それは明らかなエラーがあるためではなく、文献レビューも統計データもすべて実在するものです。むしろ、専門家として、この仮説がそれほど興味深くなく、因果関係に関する標準的な懸念が残っているためです。AI はそれらを解決しようとするために非常に洗練された統計的手法を使用しましたが、それでもです。要約すれば、この論文が 2 年生の博士課程プロジェクトの結果であれば、私は非常に満足していたでしょう。そして、私はテキストに直接手を加えることなく、4 つのプロンプトを与えるだけでこれを実現しました。 ![image](https://substackcdn.com/image/fetch/$s_!Nrfp!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7a876f9f-9be0-472a-b1c0-027b3035690e_3157x1294.png) ハーネス、アプリ、モデルを別の方法で統合することも可能です。私はCodexに、完全に新しいテーブルトークロールプレイングゲームを作成するよう依頼しました。これは基本的に、独自の世界観を持つファンタジー世界での『ダンジョンズ＆ドラゴンズ』のようなもので、プレイに必要なすべてのテーブルやルールが含まれています。さらに、プレイヤーがゲームを体験するシミュレーションを行い、その結果に基づいてルールを修正することも依頼しました。ご覧の通り、AIはこれに応じ、魅力的な101ページのPDFを作成し、画像生成機能を用いてイラストも描いています。 ![image](https://substackcdn.com/image/fetch/$s_!eiPp!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F40ee48a2-ad74-4183-8180-c9857bac1c72_4415x1400.png) 技術的に洗練されているだけでなく、実際のコンテンツにも魅力が多数あります。設定は興味深く革新的であり、既存のゲームパターンを参照しつつ独自の要素を加えることで、ルールは理にかなっているように見えます。しかし、よく観察すると、AI の能力の境界線が完全に消えたわけではないことがわかります。AI モデルの世代ごとに、長編小説を実際に構築することには苦戦してきました。もしあなたが AI による文章の頻繁な読者であれば、ここでも同じ問題が見えるでしょう：不気味さへの愛好；完全に報われない過度に複雑なアイデア；奇妙な比喩（「天気と建築は、異なる速度での同じ議論である」）；装飾的な文が多すぎる（「海がかつて道であったことを忘れたときに表面化する聖なるものたち」は、一度ならクールですが、そのような内容が全書にわたれば疲れます）；すべてのキャラクターが同じ簡潔な口調で話す対話；そして「マラ」という名前。したがって、すべての素晴らしい技術的進歩の中でも、まだ荒々しい部分が残っています。 GPT-5.5は、モデルがますます賢くなり、アプリの機能が強化され、ハルネス（統合環境）が改善されることで、現実の問題解決における効果が高まっていることを示しています。4つのプロンプトから博士論文レベルの論文が得られたり、1つのプロンプトでイラスト付きかつ「プレイテスト済み」の遊べるロールプレイングゲームが生成されたりします。しかし、フィクションは依然として平坦であり、統計的に妥当な場合でも仮説が時として面白みに欠けることがあります。それでもなお、1年前にはこれらが実現する可能性はほとんどなく、最新のリリースでは能力の向上が加速しているように見えます。 GPT-5.5は明らかにこのプロセスの終着点ではありませんが、その過程での重要な一歩です。私は3年以上にわたりこのニュースレターを書き続けていますが、パターンは変わっていません：数ヶ月ごとに新しいモデルが登場し、私のテストを実行すると、以前は不可能だったことが容易になり、かつリリースサイクルごとに飛躍の規模が大きくなっています。境界線は依然として存在しますが、それは以前よりもはるかに先へと伸びています。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!hesI!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2c591570-ee4a-4107-a9d1-b167d3f4a64a_1484x1060.png) これがGPT-5.5がこの記事を描くために選んだ表現であり、それに異議を唱える私が誰でしょうか？ 私はOpenAIやその他のAIラボから金銭を受け取っておらず、またOpenAIは私のこの投稿を事前に目にしていません。さらに、私がこれを書いている時点では、ローンチに関する詳細な情報をすべて把握しているわけではないため、誤りがあった場合はご容赦ください。

未来の兆し：GPT-5.5

背景や根拠まで確認しますか？

関連記事

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する