機械はいつか知能を持つのか?
Microsoft Researchのポッドキャスト「The Shape of Things to Come」の初回エピソードでは、トランスフォーマーベースの大規模言語モデルと人間の脳のアーキテクチャを比較し、機械の知能の本質と限界について専門家が議論している。
キーポイント
知能の定義と比較
トランスフォーマーベースのLLMと人間の脳の分散的・継続学習アーキテクチャを比較し、効率性、表現、感覚運動的基盤の観点から現在のAIシステムの知能の有無を検討している。
現在のAIの長所と短所
現在のモデルが優れている点と不足している点を明らかにし、将来のAIシステムがギャップを埋めるために必要な要素について議論している。
学術的リソースの紹介
知能に関する理論や研究を深めるための複数の学術出版物(書籍・論文)とプロジェクトが紹介されており、背景知識の拡充を促している。
多角的な対話の場
技術者、政策決定者、ビジネスリーダーなど多様なステークホルダーを対象に、AI移行が正の純利益となる未来を構築するための共通理解の増幅を目指している。
脳の仕組みに基づくAI効率化への取り組み
Numentaでは、脳のエネルギー効率の高さに着目し、その仕組みをAIに応用することで、現在のAIよりもはるかに効率的なシステムの実現を目指している。
継続的学習の重要性
人間の脳は継続的に学習する能力を持っており、階段の段差修正の例のように、環境の変化に適応して行動を修正するプロセスが示されている。
脳の継続的で無意識的な世界モデリング
脳は意識的に認識していなくても、身の回りの環境を詳細にモデル化し、変化を瞬時に検知して更新する能力を持っている。
影響分析・編集コメントを表示
影響分析
この記事は、AIの知能に関する根本的な問いを提起し、技術開発者だけでなく政策担当者やビジネスリーダーにも重要な視点を提供する。AIの進歩が社会にもたらす影響を多角的に考察するための対話の枠組みを示しており、技術偏重ではなく人間中心のAI開発を促す可能性がある。
編集コメント
AIの知能を人間の脳と比較するという根源的な問いに立ち返り、技術開発の方向性を再考させる内容。実用的な技術進展の報告ではなく概念的議論が中心だが、業界の長期的なビジョン形成に寄与する。
技術の進歩は非常に急速なペースで進んでいるため、私たちが目指す明日を定義することは困難な場合があります。『The Shape of Things to Come』では、Microsoft Researchのリーダーであるダグ・バーガーと、さまざまな分野の専門家が、技術者、政策立案者、ビジネス意思決定者、その他のステークホルダーが現在直面している最も困難なAI(人工知能)問題を探ります。目標は、AI移行が正味のプラスとなる未来を構築するために必要な共通理解を高めることです。
このシリーズの最初のエピソードでは、バーガーはMicrosoft Researchのニコロ・フージとNumentaのスブタイ・アフマドを迎え、今日のAIシステムが真に知能を持っているかどうかを検証します。彼らは、トランスフォーマーベースの大規模言語モデル(LLM)と、人間の脳の分散型で継続的に学習するアーキテクチャを比較し、効率性、表現、感覚運動的基盤における違いを探ります。この議論は、知能が本当に何を意味するのか、現在のモデルがどこで優れているのか、あるいは不足しているのか、そして将来のAIシステムがそのギャップを埋めるために何を必要とするのかを探ります。
詳細情報:
Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
出版物 | 2026年3月
A Thousand Brains: A New Theory of Intelligence
書籍 | ジェフ・ホーキンス | 2022年
Thousand Brains Project
ホームページ
A Framework for Intelligence and Cortical Function Based on Grid Cells in the Neocortex
出版物 | 2019年1月
Why Neurons Have Thousands of Synapses, a Theory of Sequence Memory in Neocortex
出版物 | 2016年3月
On Intelligence
書籍 | ジェフ・ホーキンス、サンドラ・ブレイクスリー共著 | 2005年
Microsoft Research Podcastを購読する:
Apple Podcasts
Android
Spotify
RSS Feed
トランスクリプト
[音楽]
ダグ・バーガー: こちらはMicrosoft Research Podcast『The Shape of Things to Come』です。ホストのダグ・バーガーです。このシリーズでは、AI(人工知能)能力の最先端に挑み、基礎を深く掘り下げ、それらを本当に理解し、これらの能力が世界をどのように変えるか―良い面も悪い面も―について考えます。
今日のポッドキャストでは、2人のAI研究者・専門家を迎えます: デジタル、トランスフォーマーベースの大規模言語モデル(LLM)アーキテクチャと学習の専門家であるニコロ・フージと、生物学的アーキテクチャ、特に人間の脳の専門家であるスブタイ・アフマドです。私たちが議論する質問は、機械は知能を持っているのか?です。
私がそれによって意味することは: デジタル知能、大規模言語モデル(LLM)は、人間を超える道を歩んでいるのか、それともアーキテクチャが根本的に異なるため、一方は一連のことをうまく行い、もう一方は別のことを非常にうまく行うのか?です。ですから、私たちはデジタル実装と生物学的実装にわたる知能のアーキテクチャについて議論します。なぜなら、その質問への答えが、来るべきものの形を本当に決定すると考えるからです。
[音楽がフェードアウト]
ゲストの皆さんに自己紹介をお願いしたいと思います。あなたの背景と、AI(人工知能)において現在取り組んでいること―話せる範囲で―について少し教えてください。では、ニコロ、始めてもらえますか?
ニコロ・フージ: はい、ダグ、私たちを、そして私をここに迎えてくれてありがとう。とても楽しいです。私はニコロ・フージです。MSR(Microsoft Research)の研究者です。ダグは私の上司なので、このポッドキャストではダグに非常に、非常に、非常に良くしますよ。
冗談はさておき、私自身の背景はベイジアン非パラメトリックです。それが私が学び始めたことです。つまり、ガウス過程などです。そして同様に、計算生物学にも興味があります。なぜなら、それがAI(人工知能)技術の最も興味深いユースケースの一つだと感じたからです。そしてそれは、私のキャリアを通じてずっと真実でした。そしてほぼ他の皆さんと同じように、最終的にはカーネル法とベイジアン非パラメトリックから離れ、情報理論と情報理論と生成モデリングの関係に特に目を向けながら、言語モデル、トランスフォーマーモデルについてより多く働き始めました。そしてそれは、私よりもはるかに興味深い仕事をする人々の研究を管理すること以外に、私が今日主に行っていることの一つです。[笑]
バーガー: そこに割り込ませてください、ニコロ。あなたが私の道に餌を引っ張ってきたからです。
フージ: そうだろうと思いました。
バーガー: ご存知の通り、Microsoft Researchでは、世界で最高の人材を採用しているため、誰にも何をすべきか指示できないという管理ルールがあります。彼らを信頼しなければなりません。そして誰もが常に私にBS(でたらめ)と言う完全な自由を持っています。ですから、ニコロはそこで冗談を言っていたのです;[笑] 彼は党の路線に従う必要はありません。実際、私は彼にそうしないことを勧めます。だから、そう…
フージ: 私はただ行儀良くしていなければならないだけです。それが私が言う唯一のことです。[笑]
バーガー: ええ。ありがとう、私を餌で釣ってくれてありがとう。[笑] なぜなら、彼は自分が何をしているかを正確に知っていたからです。そして私はそれを愛しています。
スブタイ、あなたについて少し教えてもらえますか?
スブタイ・アフマド: もちろん。ダグ、私を迎えてくれて本当にありがとう。私たち全員の間の会話を本当に楽しみにしています。
私は自分自身を根本的にコンピュータ科学者と見なしています。ご存知の通り、私は認めたくないほど長い間コンピュータ科学を研究してきました。しかし、学部時代に私にとって何かが変わりました。認知心理学を副専攻することに決め、脳がどのように機能するかに本当に興味を持ち始めました。
そして私にとって、知能を理解し実装することは、コンピュータ科学者が解決できる最も難しい問題でした。ですから、私はそれに非常に、非常に興味を持ちました。ご存知の通り、それを本当にどう商業化するかは見えませんでした。私は製品などを作ることに非常に興味がありました。だから、しばらくの間、その仕事をやめました。コンピュータビジョン、ご存知の通り、ビデオ処理、そのような多くのことをするスタートアップをいくつか行いました。
そして、ジェフ・ホーキンスが2005年に脳がどのように機能するかを本当に深く理解し、それをAI(人工知能)にどのように適用するかを考え出すという考えでNumentaを始めたとき、私にとっては、すべての私の世界が一つにまとまるようでした。これが、私がしなければならなかったことです。私たちの誰も[笑] それがかかるほど長いとは思いませんでした。私たちは過去数十年間、プログラマーの観点から、基礎となるアルゴリズムから、神経科学を本当に深く理解しようとしてきました。そしてそれが本当に私が情熱を注いでいることです。ただ、神経科学について理解していることを今日のAI(人工知能)に翻訳しようとすることです。
そして、今日私たちが取り組んでいることに関しては、ご存知の通り、人間の―おそらくこれについて少し話すかもしれませんが―脳はその働き方において超効率的です―電力効率、エネルギー効率―そして私たちはそれらのアイデアを具体化し、AI(人工知能)を今日よりもはるかに効率的にしようとしています。
バーガー: 素晴らしい。効率性についてはポッドキャストの後半で少し取り上げると思います。なぜなら、それは元々訓練によってコンピュータアーキテクチャである私の心に近く、大切な主題だからです。
私は、あなたがNumentaに関わるようになった理由の一つに戻りたいと思います。ご存知の通り、スブタイと私は何年もメールを交換し、協力について議論し、お互いを訪問してきました。そして本当に私に残ったのは、ジェフの初期の本の一つ『On Intelligence』を読んだときでした。そしてその本には、ご存知の通り、人間の脳がどのように継続的に学習するかについて話す例がありました。私は生物学的生物一般が継続的に学習すると考えます。
そして私が覚えている逸話は、地下室の階段を歩いているときのこの逸話です。ご存知の通り、地下室への階段を歩いていて、いつも数インチずれている段が一つあり、それを直すことに決め、他の段と同じ高さになるように上げます。そして次に階段を下りるとき、あなたは覚えておらず、大きくずれて、ご存知の通り、その段に、予想より早くまたは遅くぶつかり、バランスを崩します。あなたはあちこちに手を振り回します。ご存知の通り、アドレナリンが大量に出ます。あなたは頭から階段を転がり落ちそうになると思います。うまくいけば落ちません。そして2回目にそれをすると、少しバランスを崩しますが、それはひどくはありません。そして3回目には少し気づくかもしれません。4回目には、それは、ご存知の通り、あなたの地下室の階段です。
そして、最初に下りたときと3回目、4回目に下りたときの間に、あなたの脳には地下室の階段の新しいタイミングを学習した分子的変化があります。そして私はその本からその例を鮮明に覚えています。そしてそれは私に考えさせました。わあ、これは私たちのデジタルAI(人工知能)の働き方とは非常に異なると。それについてコメントしてもらい、それからデジタルについて話すと思います。
アフマド: ええ、いいえ、それは素晴らしい例です。私たちの脳がそのような細かいレベルで私たちの世界全体を常にモデル化していることは驚くべきことだと思います。そして私たちは知覚的にもそれに気づいていません。ご存知の通り、階段の例はおそらく…あなたは意識的にそれに気づかないでしょう。それでも、あなたが非常に慣れ親しんでいる世界の何かが異なっていれば、あなたは即座にそれに気づくでしょう。そしてあなたは、ご存知の通り、あなたの世界モデルを更新し、調整し、続けます。脳がそれをいかにシームレスに行えるかは本当に驚くべきことです。
バーガー: そしてその多くは神経伝達物質に基づいていますよね?なぜなら、ただ…ご存知の通り、「私は階段を転がり落ちそうだ」という身体的反応があるとき、あなたは実際に脳の学習方法、または少なくとも学習速度を変える伝達物質の洪水を得ます。
アフマド: ええ、神経伝達物質や神経修飾物質も大量に放出され、変化を引き起こします。時には非常に急速に。もう一つの例ですが、熱いストーブに触れると――これは典型的な例です――非常に、非常に速く学習しますよね。ですから、多くの化学的変化が起こっています。しかし、私たちが他のすべての知識に影響を与えることなく、物事や世界に関する知識を更新できるということも、実に興味深い点です。これは、今日のAIモデルとはまた、非常に、非常に異なる点です。私たちは、非常に文脈依存的な、そして非常に細かい粒度でこれらの変更を行うことができるのです。
バーガー: それでは、ニコロ、少しトランスフォーマーの話に移りたいと思います。私たち、つまり君と私、そしてスブタイは皆、2017年にトランスフォーマーが登場するずっと前からAI分野で働いていました。私のチームは、RNN(リカレントニューラルネットワーク)やLSTM(長短期記憶)を高速化するハードウェアを構築していました。これらは、厄介なループ依存性、つまり計算のボトルネックがありましたが、トランスフォーマーははるかに並列化が容易でした。
では、これらのモデルの中で実際に何が起こっていると思いますか? まずは主要な構成要素から始めましょうか。私たちはこの件についてよく話してきましたからね。アテンション層があります。フィードフォワード層があります。エンコーダースタックとデコーダースタック、そしてその間の潜在空間があります。これらの構成要素について、大まかに説明し、何が起こっていると考えるかを教えていただけますか?
フージ: ええ。ええ、つまり、私にはなぜトランスフォーマーがこれほど優れているのかについて、非常に強い意見があります。
バーガー: だから君に話を聞いているんですよ。[笑う]
フージ: たぶん、そうですね、その意見を挟み込むかもしれません。それが超革新的な創造的な意見だとは思いませんが、一つの意見です。主な二つの構成要素は、あなたがすでに説明した通りです。トランスフォーマー層(つまりアテンション層)とフィードフォワード層です。一つの考え方は、文脈内の情報が互いにどのように関連し、例えば言語モデルにおけるトランスフォーマーの場合、各トークンが何を指しているのか、ということです。
ここで文脈とは、モデルに入力され、モデルが継続的に生成し、追加していく情報を意味します。
バーガー: つまり、チャット履歴のようなものですね。
フージ: あなたのプロンプトです。何ですか? チャットセッションにおけるあなたのチャット履歴、または特定のプロンプトです。
バーガー: OK。
フージ: そのプロンプト、つまり一連の単語は、一連のトークンに離散化されます。トークンは個々の単語の場合もあれば、複数の単語がつながったものの場合もあります。単語からトークンへ変換する方法は、通常、基本的に可能な限り圧縮しようとするアルゴリズムを通じて行われます。例えば「the dog」のような複数の単語は、モデルに入力するための第一段階の圧縮として、単一のトークンになるかもしれません。つまり、可能な限り効率的にまとめようとするのです。
そして、これらのモデル内部には、トランスフォーマー層があります。このトランスフォーマー層、すみません、このアテンション層は、基本的に「the」が何を指しているのか――「the dog」の中の「the」という語、あるいは「the dog jumps on the table」では「jumps」が犬を指している――を把握しようとします。つまり、このようなマッピングが起こるのです。
そして、フィードフォワード層があります。現代の大規模言語モデルでは、ここに多くの情報が格納されています。つまり、ここが典型的に知識が存在する場所、モデルが単に知っている事柄が置かれる場所なのです。例えば、あなたがテーブルの上のコップに腕をぶつけると、そのコップはテーブルから落ちる、といったことです。これは、モデルが、コップがぶつけられてテーブルから落ちるということを大量に読むことで、いわば焼き付けられた知識です。
ですから、私にとって、これら二つが基本的な構成要素です。そして私が強い意見を持っている理由は、正直なところ、RNNや、状態空間モデルの現代的形態でさえも、これらの言語データや視覚データ、音声データなどを学習するには十分だと思うからです。
トランスフォーマーの良い点は、二つのことを非常にうまく行うことです。一つは、邪魔にならないことです。リカレントネットワークのように「すべてが状態を通じてエンコードされなければならない」という概念がありません。二つ目は、あなたがおっしゃったように、計算効率が非常に高いことです。計算上のボトルネックがありません。そのため、モデル内を十分な情報の流れが可能にする、ちょうど良い時期にちょうど良いアーキテクチャとして、この素晴らしい余剰を生み出したのです…
バーガー: ええ。
フージ: …それによって、私たちはこれらの驚くべき成果を得ることができたのです。
バーガー: 一点、突っ込んで聞きたいのですが。アテンションブロックでは、どの単語やトークンがどのトークンに関連しているかを把握できます。ですから、プロンプトを入力すると、すべての関係を見つけ出し、それらの関係をフィードフォワード層――正確には層内のフィードフォワードユニット――に送り上げます。そしてあなたは知識がそこにエンコードされると言いましたが、では、それらのマップが知識にアクセスし、それを出力に投影し直し、次の層のアテンションブロックに送り上げるということは、実際には何を意味するのでしょうか?
フージ: 繰り返しになりますが、ええ。
バーガー: つまり、知識にアクセスし、その知識を統合し、別のアテンションマップに戻るというのは、少し奇妙に思えます。
フージ: そうですね、それは層のフィードフォワード部分で起こる混合操作と見ることができます。つまり、アテンションを行い、次に混合を行い、より高い情報内容を持つ空間や、異なるレベルの情報抽出が行われる空間に再投影するようなものです。そしてそれを、「さて、もう一ラウンド処理をしよう」と、再びアテンションを行い、混合するために戻すのです。そしてそれを何度も繰り返します。
ですから、プロンプト内に存在し、重みに焼き付けられた情報が、さらに洗練されていくのだと思います。その洗練が構造の抽出なのか、より高次の概念への集約なのかは、確信が持てません。構造が抽出され、無関係なものが押しのけられるだけだと思います。しかし、それが必ずしもアーキテクチャを通じて集約されることを意味するわけではありません。
バーガー: では、私が聞き取ったことを言い換えてみます。つまり、情報を追加し、より高次のレベルで情報を追加しているが、少なくとも関連性のない低次の情報を必ずしも捨て去っているわけではない、そういうことですよね?
フージ: ええ。
バーガー: なぜなら、高次のものが低次のものに依存している場合、まず低次のものを持っていなければならないからです。そして、エンコーダーブロックの頂点に到達すると、そのすべての情報が最大化された状態で潜在空間にいることになります。そう考えることはできますか? もし同意されるなら、エンコーダーブロックが実際に何であり、潜在空間が何であるかについて話していただけますか?
フージ: 私は同意する傾向があります、ええ。つまり、あなたが説明しているのは… 私が起こっていると思うことを説明していると思います。それは、プロンプトの文脈と、モデルが知覚する、あるいはあなたが行っていると理解するタスクが与えられたとき、関連する情報を強調し、引き出す必要があるということです。そしてそれは、層ごとに要約することによってではなく、その情報の顕著性を高め、他のものを抑制することによって行われるのです。ですから、最終的には、あなたの意図と、プロンプト内の要素、そしてそれを解決するために必要なモデルの知識の両方を特定する、概念空間におけるこの美しい地点に到達するまで、それが起こるのだと思います。
バーガー: では最後の質問です。その後、スブタイに少し話を移したいと思います。
では、デコーダースタックを通るとき、私たちは単に逆方向に進み、高次の概念を早期に取り除き、細かいトークンに下りていくだけなのでしょうか? それとも… なぜなら、エンコーダースタックを通って上昇し、それらのアテンションブロックとフィードフォワード層を経て、あの魔法のような潜在空間に到達するからです。そして今度は逆方向に進みます。エンコーダースタックと同じプリミティブで構成されるデコーダースタックを通るその逆方向のプロセスを、どのように考えますか?
フージ: 同じプリミティブです。一種の逆操作と考えることができます。つまり、あなたは全体を通して情報を失うことはありません。ただ、異なる種類の情報を抑制したり、優先したりしただけです。そして今度は、基本的にそれを、理解可能な空間に投影し戻しているだけです。そしてそれは、モデルがその… 報酬という言葉を使うのはためらわれますが、特定の意味合いがありますから… 損失が計算され、モデルに押し戻される場所のようなものです。
バーガー: そうですね、すべてのパラメータ――単語間の関係、フィードフォワード層内の情報、その潜在空間の設計、そしてそこからの知識の抽出――を進化させ、訓練しようとするときに。
フージ: その通りです。ですから、エンコーダー・デコーダーモデルでは、全体を通して押し進め、特定のトークンにデコードし戻します。これはご存じない方のために言うと、語彙から出てくる文字通りの数字、例えば487番目の単語のようなものです。もしそれが1500番目の単語だったら、あなたは…
バーガー: 別のものになりますね。
フージ: …悪い報酬を得ます。ええ、ええ。そして… もし正解だったら、モデル全体に流れ戻る肯定的な信号を得ます。
バーガー: では、スブタイに話を移したいと思います。これを聞いた後で、あなたは長年、神経科学や新皮質、皮質コラムなどを研究してきましたし、私たちは多くの議論を交わしてきました。人間の脳は、それとは異なることをしているのでしょうか? つまり、私たちは単に潜在空間を構築し、抽出しているだけなのでしょうか? アーキテクチャは非常に異なりますが、内部では何が起こっているのでしょうか?
AHMAD: ええ、アーキテクチャはまったく異なります。ニコロがトランスフォーマースタック(transformer stack)全体で何が起こるかを説明していたのを聞きながら、私は脳内でわかっていることも関連づけようとしていました。
典型的なトランスフォーマーモデル(transformer model)では、t
原文を表示
Technical advances are moving at such a rapid pace that it can be challenging to define the tomorrow we’re working toward. In The Shape of Things to Come, Microsoft Research leader Doug Burger and experts from across disciplines tease out the thorniest AI issues facing technologists, policymakers, business decision-makers, and other stakeholders today. The goal: to amplify the shared understanding needed to build a future in which the AI transition is a net positive.
In this first episode of the series, Burger is joined by Nicolò Fusi of Microsoft Research and Subutai Ahmad (opens in new tab) of Numenta to examine whether today’s AI systems are truly intelligent. They compare transformer-based large language models (LLMs) with the human brain’s distributed, continuously learning architecture, exploring differences in efficiency, representation, and sensory-motor grounding. The discussion probes what intelligence really means, where current models excel or fall short, and what future AI systems might need to bridge the gap.
Learn more:
Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models
Publication | March 2026
A Thousand Brains: A New Theory of Intelligence (opens in new tab)
Book | Jeff Hawkins | 2022
Thousand Brains Project (opens in new tab)
Homepage
A Framework for Intelligence and Cortical Function Based on Grid Cells in the Neocortex (opens in new tab)
Publication | January 2019
Why Neurons Have Thousands of Synapses, a Theory of Sequence Memory in Neocortex (opens in new tab)
Publication | March 2016
On Intelligence (opens in new tab)
Book | Jeff Hawkins with Sandra Blakeslee | 2005
Subscribe to the Microsoft Research Podcast:
Apple Podcasts
Android
Spotify
RSS Feed
Transcript
[MUSIC]
DOUG BURGER: This is The Shape of Things to Come, a Microsoft Research Podcast. I’m your host, Doug Burger. In this series, we’re going to venture to the bleeding edge of AI capabilities, dig down into the fundamentals, really try to understand them, and think about how these capabilities are going to change the world—for better and worse.
In today’s podcast, I’m bringing on two AI researcher-experts: Nicolò Fusi, who is an expert in digital, transformer-based large language model architectures and learning, and Subutai Ahmad, who is an expert in biological architectures, specifically the human brain. And the question we’re going to discuss is, are machines intelligent?
And what I mean by that: are digital intelligence, large language models, on a path to surpass humans, or are the architectures just so fundamentally different that one will do one set of things well, the other will do something else very well? And so we’ll be debating the architecture of intelligence across digital implementations and biological implementations because the answer to that question, I think, really will determine the shape of things to come.
[MUSIC FADES]
I’d like to ask each of my guests to introduce themselves. Tell me a little bit about your background and what you’re currently working on—to the extent you can talk about it—in AI. So, Nicolò, would you please start?
NICOLÒ FUSI: Yeah, thank you, Doug, for having us and having me here. It’s so much fun. So I’m Nicolò Fusi. I’m a researcher at MSR [Microsoft Research]. So Doug is my boss, so I will be very, very, very good to Doug in this podcast.
No, but jokes aside, my own background is in Bayesian nonparametric. That’s what I started studying. So Gaussian processes and things like that. And then equally, I would say, in computational biology, because I found it, like, one of the most interesting use cases for AI techniques. And that, kind of, has been true throughout my career. And pretty much like everybody else, eventually, I moved away from the kernel methods and the Bayesian nonparametrics and I started working more on language models, transformer models, with a particular eye towards information theory and the connection between information theory and generative modeling. And that’s, kind of, one of the main things I do today other than, kind of, managing the research of people who do much more interesting work than I do. [LAUGHS]
BURGER: I have to interject there, Nicolò, because you dragged a piece of bait across my path.
FUSI: I figured.
BURGER: You know, at Microsoft Research, I have a management rule that I can’t tell anyone what to do because we hire some of the best people in the world. You have to trust them. And everyone is always completely free to call BS on me. And so Nicolò was joking there; [LAUGHTER] he does not have to toe the party line. In fact, I encourage him not to. So, so …
FUSI: I just have to be well-behaved. That’s the only thing I will say. [LAUGHS]
BURGER: Yeah. Thank you, thank you for baiting me. [LAUGHS] Because he knew exactly what he was doing. And I love him for it.
Subutai, can you tell us a little bit about yourself?
SUBUTAI AHMAD: Sure. Thank you so much, Doug, for having me. I’m really looking forward to the conversation between us all.
So I see myself fundamentally as a computer scientist. You know, I’ve been studying computer science for longer than I care to admit. But something changed for me during my undergrad years. I decided to minor in cognitive psychology, and I started to get really interested in how the brain works.
And to me, understanding intelligence and implementing intelligence was the hardest problem a computer scientists could ever solve. So I got very, very interested in that. You know, I couldn’t see how to really commercialize that. I was very interested in making products and stuff. So I stopped, you know, working on that for a while. I did a number of startups doing computer vision, you know, video processing, a lot of that stuff.
And then when Jeff Hawkins started Numenta back in 2005 with the idea of really deeply understanding how the brain works and figuring out how to apply that to AI, for me, it was like all my worlds coming together. This, like, this is what I had to do. None of us thought [LAUGHS] it would take as long as it did. We spent the last couple of decades really deeply trying to understand neuroscience from a computer scientist—from a programmer’s—standpoint, the underlying algorithms. And that’s really what I’m passionate about, just trying to translate what we understand about the neuroscience to today’s AI.
And in terms of what we’re working on today, it’s, you know, the human—maybe we’ll get into some of this—the brain is super efficient in how it works—power efficient, energy efficient—and we’re trying to embody those ideas and trying to make AI a lot more efficient than it is today.
BURGER: Great. I think we’ll get into efficiency a little bit later in the podcast because that’s a subject that’s near and dear to my heart, you know, being a computer architect originally by training.
I want to go back to, you know, one of the reasons I got involved with Numenta is, you know, Subutai and I have been exchanging emails, like, discussing collaborations, you know, visiting each other through the years, and the thing that really stuck with me was when I read one of the earlier books from Jeff On Intelligence (opens in new tab). And there was an example in the book that talked about how, you know, the human brain learns continuously. I think biological organisms in general learn continuously.
And the anecdote that I remember was this anecdote if you’re walking down your basement steps, you know, you’re walking down the stairs to your basement and there’s one step that’s always been a few inches off and you decide to fix it, and so you raise it so it’s even with the others, and then the next time you go down the stairs, you don’t remember and you’re wildly off and, you know, you hit that step, you hit it earlier or later than you anticipated, you go out of balance. You’re flailing around. You know, you get all this adrenaline. You think you’re going to pitch headfirst down the stairs. Hopefully you don’t. And then the second time you do it, you’re a little off balance, but it’s not crazy. And the third time you maybe notice a little bit, and the fourth time, it’s, like, it’s your basement stairs.
And so somewhere between that first time down and the third and fourth times down, there are molecular changes in your brain that have learned the new timing of your basement steps. And I remember just that example vividly from the book. And that got me thinking, wow, this is so different from the way our digital AI works. I’ll turn it over to you to comment for that and then I think we’ll go into the digital.
AHMAD: Yeah, no, that’s a great example. I think it’s remarkable how our brain is constantly modeling our entire world at such a granular level, and we’re not even aware of it perceptually. Like, you know, that example of the steps is probably not … you wouldn’t consciously be aware of it, yet if something is different about anything in your world that you’re very familiar with, you’ll instantly notice it. And then you’ll, you know, you’ll update your world model, you’ll adjust, and you’ll continue on. It’s really remarkable how the brain’s able to do that so seamlessly.
BURGER: And a lot of that is based on neurotransmitters, right? Because there’s just a … you know, when you have that physical reaction to “I’m about to pitch down the stairs,” you get a flood of transmitters that actually changes the way your brain’s learning or at least the rate.
AHMAD: Yeah, there’s a flood of neurotransmitters and neuromodulators, as well, that invoke change, sometimes very rapidly. Another example, you know, if you touch a hot stove—that’s the canonical example—you will learn that very, very quickly. So there’s a lot of chemical changes that happen. But it’s also really interesting that we can update things and update our world knowledge without impacting everything else that we know. This is something that’s very, very different, again, from today’s AI models. We’re able to make these changes in a very contextual and very, sort of, fine-grained way.
BURGER: So, Nicolò, I want to go and talk a little bit now to transformers. So I think, you know, you and I and Subutai were all working in the AI field, you know, many years before 2017, when the transformer hit. You know, I was building, you know, with my team hardware to accelerate RNNs [recurrent neural networks], LSTMs [long short-term memory], you know, which had this awful loop-carried dependence, you know, the bottlenecked computation, and then the transformer was just much more parallelizable.
So what do you think’s really going on in these things? And maybe we could start—I know you and I have talked a lot about this—maybe just start with the major blocks. You know, you’ve got the attention layer. You’ve got the feedforward layer. You’ve got, you know, the encoder stack and the decoder stack and the latent space in between. Can you just, kind of, walk us through those pieces at a high level and tell us what you think is going on?
FUSI: Yeah. Yeah, I mean, I have a very opinionated view of why transformers are so great.
BURGER: That’s why you’re here. [LAUGHS]
FUSI: Maybe, like, yeah, maybe I’ll inject it. I don’t know. I don’t think it’s a super novel creative opinion, but it is an opinion. So I guess the two principal … the two main components you already described: the, you know, the transformer [read: attention] layers and the feedforward layers. One way to think about them is, how does information in your context relate to each other and what is every token referring to, for instance, in the case of transformers in language models?
So by context, we mean, like, the information you feed through the model, that the model keeps continuously generating and appending to.
BURGER: So like your chat history.
FUSI: Your prompt. Your what? Your chat history or your particular prompt in a chat session.
BURGER: OK.
FUSI: That prompt, which is a sequence of words, gets discretized in a series of tokens. Tokens can be individual words, can be multiple words, kind of, connected together. The way we go from words to tokens typically is through an algorithm that tries to basically collapse as much as possible. Multiple words, like “the dog,” may be just one token as a first, kind of, level of compression to feed into the model. So it just tries to bring things together as efficiently as possible.
Then there is, you know, within these models, there is a transformer layer. This transformer layer or this attention layer, sorry, tries to basically figure out what the “the” refers to—the term “the” in “the dog,” or “the dog jumps on the table,” “jumps” refers to the dog. So there is this kind of, like, mapping that happens.
And then there is, like, feedforward layers, which in modern large language models, they store a lot of information. Like, that’s kind of, like, where the knowledge typically kind of sits in, the things that the model just knows. You know, that, I don’t know, if you slam your arm against [the] cup of water on your table, that cup of water falls off the table. That’s something that the model, kind of, has baked in through reading a lot about cups falling off of tables when they’re hit.
So that’s, kind of, those are, for me, the two fundamental components, and the reason why I have an opinionated view is that, you know, honestly, I do believe that RNNs and, you know, even state-space—modern incarnations of state-space models—are good enough to learn over these, you know, language data or whatever or vision data or audio data.
The good thing about transformers is that they do two things very well. One is they get out of the way. They don’t have this notion of “everything has to be encoded through a state” like recurrent networks. And two, they do that very computationally efficiently as you were saying. There isn’t a computational bottleneck. And so they created this nice overhang where they happen to be the right architecture at the right time to unlock enough flow of information through the model …
BURGER: Yeah.
FUSI: … that we could get through these amazing things.
BURGER: Let me press you on one thing. Like, you know, in the attention blocks, you can figure out which words or which tokens relate to which tokens. So I put in the prompt and it’s finding all the relations and then feeding those relations up to, you know, the feedforward layer—well, the feedforward unit within a layer. And you said that knowledge is encoded there, but then what does it really mean for those maps to then access knowledge, but then you project it back into, you know, the output and then feed it up to the attention block in the next layer?
FUSI: Again, yeah.
BURGER: So it seems kind of weird that I’d be, like, accessing knowledge and then taking that knowledge, merging it, and going back to another attention map.
FUSI: Well, you can see it as a mixing operation that happens in the feedforward part of the layer. You know, like, you’re attending, then you’re mixing, and, kind of, like, reprojecting to some space with higher-information content or, like, a different level of information extraction. And then you’re putting it back into, “OK, so let me do another round of processing” and, kind of, attending and then a mix again. And then I do it again and then I do it again.
So I think that the information that is present in the prompt and in the, you know, that has been baked into the weights gather further and further refined. Whether that refinement is extraction of structure or aggregation into higher-level concepts, I’m not sure. I think it’s just structure gets extracted and things that are irrelevant get kind of pushed away. But that doesn’t necessarily mean that it gets aggregated through the architecture.
BURGER: So now I’m going to try to, like, restate what I think I hear you saying. So, you know, we’re adding information and we’re kind of adding information at a higher level but not necessarily throwing away the low-level information, at least that’s not relevant, right?
FUSI: Yeah.
BURGER: Because, you know, if the higher-level stuff depends on the low-level stuff, I have to have that first. And so then you get to the top of the encoder block and you’re in the latent space with all of that information kind of maximized. Is that a way to think about it? And if you agree, can you talk about what the encoder block really is and what the latent space is?
FUSI: I tend to agree, yes. I mean, there is … you’re describing … I think you’re describing what I think is happening, which is there is given the context in your prompt and given the task that the model perceives or, like, figures out that you’re doing, it has to highlight and pull out the relevant information. And it does that not by summarizing layer by layer, but it does it by, you know, increasing the prominence of that information and suppressing other things. So I think that’s ultimately what happens up to the point where you reach this beautiful point in concept space, which identifies both your intent and the things in the prompt and in the knowledge of the model that are necessary to solve it.
BURGER: And so one last question, and then I want to go to Subutai for a second.
So now when we go through the decoder stack, are we just going the other way and stripping out the high-level concepts early and then getting down to the granular tokens? Or, you know … because you go up through the encoder stack, those attention blocks and feedforward layers, to get to that magical latent space. And now we’re going to go the other direction. How do you think about that other direction through the decoder stack, which is the same primitives as the encoder stack?
FUSI: Same primitives. You can think of it as kind of the reverse operation. Like you, you never lost information throughout. You just kind of suppress or privileged different kinds of information. And now you’re basically just projecting it back out to a space that is, you know, intelligible. And it’s, kind of, where the model gets it’s … I hesitate to use the term reward because it has a particular implication, but that’s, kind of, where the loss gets computed and then gets pushed back through the model.
BURGER: Right, as you’re trying to evolve and train all those parameters—the relationship between words, the information in the feedforward layers, the design of that latent space, and the extraction of the knowledge from it.
FUSI: That’s right. And so in encoder-decoder model, you push through the whole thing, you decode back to a particular token, which for people who don’t know, it’s, like, literally a number out of a vocabulary, like word No. 487. And if it was word No. 1,500, you get, you know, like, …
BURGER: Something else.
FUSI: … a bad reward. Yeah. Yeah. And then … and if you got it right, you get a positive signal that then just flows back through the model.
BURGER: I’d like to go over to Subutai now. So after hearing this, you’ve studied, you know, neuroscience and the neocortex and cortical columns and all of this for a long time, and you and I have had lots of debates. Is the human brain doing something different than that? You know, are we just building latent spaces, then extracting? The architecture is very different, but what’s going on under the hood?
AHMAD: Yeah, the architecture is very different. You know, as Nicolò was describing what happens throughout a transformer stack, I was trying to relay and relate, you know, what we know in the brain, as well.
In a typical, you know, transformer model, t
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み