AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TechCrunch AI·2026年5月30日 03:49·約26分で読める

AI の用語を正しく理解しましょう:よく聞く言葉の意味を解説します

TL;DR

TechCrunch AI は、読者が曖昧に理解している AI 関連の専門用語について、その正確な意味や背景を明確に解説する記事を発表しました。

人工知能は世界を変え、同時にその仕組みを説明するための全く新しい言語も生み出しています。AI について 5 分間読むだけで、LLM(大規模言語モデル)、RAG(検索拡張生成)、RLHF(人間フィードバックによる強化学習)など、技術界の非常に賢い人々さえ不安を感じさせる dozen 以上の用語に遭遇することになるでしょう。この用語集は、その問題を解決しようとする私たちの試みです。この分野が進展するにつれて定期的に更新されるため、これは記述対象となる AI システムと同様に「生きているドキュメント」として捉えてください。

AGI

人工一般知能(AGI)とは曖昧な用語ですが、一般的には、多くのタスクにおいて、あるいはほとんどのタスクにおいて平均的な人間よりも能力が高い AI を指します。OpenAI の CEO サム・アルトマンはかつて、AGI を「[共同作業者として雇用できる] 中位レベルの人間の同等物」と表現しました。一方、OpenAI の定款では、AGI を「経済的に価値のある仕事のほとんどにおいて人間を上回る高度に自律的なシステム」と定義しています。Google DeepMind の理解はこれらの二つの定義とはわずかに異なり、同ラボは AGI を「認知的なタスクのほとんどにおいて人間と同等以上の能力を持つ AI」と捉えています。混乱しましたか?ご安心ください——AI 研究の最前線にいる専門家たちも同じように混乱しています。

AI agent

AI エージェントとは、基本的な AI チャットボットの機能を超えて、経費精算やチケット・レストランの予約、コードの作成と維持など、あなたに代わって一連のタスクを実行するために AI 技術を活用するツールのことを指します。しかし、私たちが以前説明したように、この新興領域には多くの要素が絡み合っており、「AI エージェント」という言葉は人によって異なる意味を持つ可能性があります。また、その想定された機能を発揮するためのインフラストラクチャもまだ構築途上です。しかし、基本的な概念としては、複数の AI システムを活用して多段階のタスクを遂行する自律型システムを指します。

API エンドポイント

API エンドポイントを、他のプログラムが押すことでソフトウェアに動作を実行させる「ボタン」だと考えてください。開発者はこれらのインターフェースを使用して統合機能を開発します。例えば、あるアプリケーションから別のアプリケーションへデータを取得できるようにしたり、AI エージェントが人間が各インターフェースを手動で操作することなく、サードパーティのサービスを直接制御できるようにしたりするためです。通常のユーザーが見たり対話したりしない場合でも、ほとんどのスマートホームデバイスや接続プラットフォームにはこれらの隠されたボタンが用意されています。AI エージェントの能力が高まるにつれ、それらは自らこれらのエンドポイントを見つけ利用できるようになり、自動化において強力な、そして時には予期せぬ可能性を開いています。

Chain of thought(思考連鎖)

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

単純な質問に対して、人間の脳はあまり深く考えずに答えを出すことができます。例えば「キリンと猫、どちらが高いか?」といった問いです。しかし多くの場合、正しい答えを導き出すにはペンと紙が必要で、中間ステップが存在するためです。例えば、農家が鶏と牛を持っていて、頭が合わせて 40 個、足が合わせて 120 本ある場合、答え(鶏 20 羽と牛 20 頭)を出すために簡単な方程式を書く必要があるかもしれません。

AI の文脈における大規模言語モデルの思考連鎖(chain-of-thought reasoning)とは、最終結果の質を高めるために問題をより小さな中間ステップに分解することを意味します。答えを得るには通常時間がかかりますが、特に論理やコーディングの文脈では、その答えが正しい可能性が高まります。推論モデルは従来の大規模言語モデルから発展し、強化学習(reinforcement learning)によって思考連鎖に適応するように最適化されています。

(参照:大規模言語モデル)

コーディングエージェント

これは「AI エージェント」よりも具体的な概念であり、AI エージェントとは、目標を達成するために自ら一歩ずつ行動を実行できるプログラムを指します。コーディングエージェントは、ソフトウェア開発に特化したバージョンです。人間がレビューして貼り付けるためのコードを単に提案するだけでなく、コーディングエージェントはコードの作成、テスト、デバッグを自律的に行い、通常は開発者の一日を消費するような反復的な試行錯誤作業を処理します。これらのエージェントは、コードベース全体で動作し、バグを発見し、テストを実行し、人間の監督を最小限に抑えながら修正を適用できます。眠らず、集中力を失わない非常に速いインターンシップ生を雇ったようなものですが、他のインターンと同様に、人間がその作業を検証する必要があります。

Compute

やや多義的な用語ではありますが、「Compute(計算資源)」は一般的に、AI モデルが動作するために不可欠な 計算能力 を指します。この種の処理は AI 業界を駆動し、強力なモデルのトレーニングと展開を可能にします。この用語は、計算能力を提供するハードウェアの種類、つまり現代の AI 業界の基盤を形成する GPU(グラフィックスプロセッサ)、CPU(中央演算装置)、TPU(テンソルプロセッサ)などのインフラストラクチャを指す略語としてよく使われます。

Deep learning

自己改善型機械学習のサブセットであり、AI アルゴリズムは多層構造を持つ人工ニューラルネットワーク(ANN)として設計されています。これにより、線形モデルや決定木などの単純な機械学習ベースシステムと比較して、より複雑な相関関係を把握することが可能になります。ディープラーニングアルゴリズムの構造は、人間の脳内の神経細胞が相互に接続された経路から着想を得ています。

ディープラーニング AI モデルは、データの中から重要な特徴を自ら特定することができ、人間のエンジニアがこれらの特徴を手動で定義する必要がありません。また、この構造はエラーから学習し、反復と調整のプロセスを通じて自身の出力を改善できるアルゴリズムもサポートします。ただし、ディープラーニングシステムが良い結果を得るためには大量のデータポイント(数百万以上)が必要であり、単純な機械学習アルゴリズムと比較してトレーニングに時間がかかるため、開発コストが高くなる傾向があります。

(参照: ニューラルネットワーク)

拡散モデル

Diffusion は、多くのアート生成、音楽生成、テキスト生成 AI モデルの核心にある技術です。物理学に着想を得た 拡散システムはゆっくりとデータの構造を「破壊」します — 例えば、写真や楽曲などのデータにノイズを加え続け、最終的に何も残らない状態まで導きます。物理学における拡散は自発的かつ不可逆的な現象であり、コーヒーに溶けた砂糖を再び立方体状に戻すことはできません。しかし、AI における拡散システムは、この「破壊されたデータを復元する」ような「逆拡散」プロセスを学習することを目指しており、ノイズからデータを回復する能力を獲得します。

Distillation

蒸留(ディスティレーション)とは、「教師モデル」と「生徒モデル」を用いて、大規模な AI モデルから知識を抽出する技術です。開発者は教師モデルにリクエストを送信し、その出力を記録します。回答の精度を確認するために、時には既存のデータセットと比較されます。その後、これらの出力は生徒モデルの訓練に用いられ、生徒モデルは教師モデルの振る舞いを近似するように訓練されます。

蒸留技術を用いることで、最小限の蒸留損失で、大規模モデルを基にしたより小型で効率的なモデルを作成することが可能です。これはおそらく、OpenAI が GPT-4 の高速版である「GPT-4 Turbo」を開発した際の方法論でしょう。

AI 企業すべてが内部で蒸留(distillation)技術を利用していますが、一部の AI 企業が最先端モデルに追いつくためにこれを用いた可能性もあります。競合他社からの蒸留は通常、AI API やチャットアシスタントの利用規約 違反 に該当します。

微調整(Fine-tuning)

これは、AI モデルの性能を最適化するために、以前の学習焦点よりもより特定のタスクや領域に特化させるための追加トレーニングを指します。通常、新しい専門的データ(つまり、タスク指向型データ)を入力することで行われます。

多くの AI スタートアップは、大規模言語モデル [LLM] を出発点として商用製品を構築していますが、独自のドメイン固有の知識と専門性を基にした微調整を通じて、ターゲットセクターやタスクにおける利便性を高めるために競い合っています。

(参照:[大規模言語モデル [LLM]](#large-language-model))

GAN

GAN(Generative Adversarial Network: 敵対的生成ネットワーク)は、生成 AI がリアルなデータを生成する際(ディープフェイクツールを含むがこれに限らない)、いくつかの重要な発展を支える機械学習フレームワークの一つです。GAN は一組のニューラルネットワークの使用を伴い、そのうち一方がトレーニングデータに基づいて出力を生成し、それをもう一方のモデルに渡して評価させます。

2 つのモデルは本質的に互いに競い合うようにプログラムされています。生成器は出力を識別器を通そうと試みる一方、識別器は人工的に生成されたデータを特定しようと努力しています。この構造化された競争により、追加の人間の介入なしに AI の出力をより現実的なものへと最適化できます。ただし GAN は汎用 AI ではなく、より限定的な用途(例えば、リアルな写真や動画の生成など)において最も効果的に機能します。

幻覚

幻覚は、AI モデルがでたらめな情報を生成する、つまり誤った情報を生み出すことを指す AI 業界における好ましい用語です。明らかに、これは AI の品質にとって大きな問題です。

幻覚によって生じる生成 AI の出力は誤解を招く可能性があり、実際のリスクにつながり、潜在的に危険な結果をもたらすこともあります(有害な医療アドバイスが返される健康に関する問い合わせなどを想像してください)。

AI が情報を捏造する問題は、トレーニングデータにおけるギャップの結果として生じると考えられています。幻覚は、知識のギャップの可能性を減らし、誤情報のリスクを縮小するための手段として、より専門的かつ/または垂直特化型の AI モデル(つまり、限定的な専門知識を必要とするドメイン固有の AI)への移行を促す要因となっています。

推論

推論(Inference)とは、AI モデルを実行するプロセスのことです。これは、モデルを解放して、過去に見たデータから予測を行ったり結論を導き出したりすることを意味します。明確にしておくと、推論はトレーニングなしでは発生しません。モデルが効果的にこのトレーニングデータから外挿を行うためには、まずデータのセット内でパターンを学習する必要があります。

推論を実行できるハードウェアには、スマートフォン用プロセッサから高性能な GPU(グラフィックス・プロセッシング・ユニット)、カスタム設計された AI アクセラレータまで多様な種類があります。しかし、それらすべてが同様に優れたモデル実行能力を持つわけではありません。非常に大規模なモデルの場合、例えばラップトップ上で予測を行うのと、高機能な AI チップを搭載したクラウドサーバー上で行うのでは、所要時間が桁違いにかかります。

参照:[トレーニング]

大規模言語モデル(LLM)

大規模言語モデル、または LLM は、ChatGPT、Claude、Google の Gemini、Meta の AI Llama、Microsoft Copilot、あるいは Mistral の Le Chat などの人気 AI アシスタントで使用されている AI モデルです。AI アシスタントとチャットする際、あなたはウェブブラウジングやコードインタープリタなど、利用可能なさまざまなツールの助けを借りて、あるいは直接あなたのリクエストを処理する大規模言語モデルと対話しています。

LLM は、単語やフレーズ間の関係を学習し、言葉の多様な次元マップのような言語表現を作成する、数十億もの数値パラメータ(または重み、以下参照)で構成された深層ニューラルネットワークです。

これらのモデルは、数十億冊の本、記事、および転写物に見られるパターンを符号化して作成されます。LLM にプロンプトを入力すると、そのモデルはプロンプトに最も適合する可能性が高いパターンを生成します。

(参照:ニューラルネットワーク)

メモリキャッシュ

メモリキャッシュは、推論(ユーザーの問い合わせに対して AI が応答を生成するプロセス)を強化する重要なプロセスを指します。本質的に、キャッシングは推論をより効率的にするために設計された最適化技術です。AI は明らかに高オクタン数の数学的計算によって駆動されており、その計算が行われるたびにさらに多くの電力を消費します。キャッシュは、特定の計算を将来のユーザー問い合わせや操作のために保存することで、モデルが実行しなければならない計算の数を削減するように設計されています。メモリキャッシュにはさまざまな種類がありますが、その中でもよく知られているのが KV(キーバリュー)キャッシング です。KV キャッシングはトランスフォーマーベースのモデルで機能し、回答を生成するのにかかる時間(およびアルゴリズム的な作業)を削減することで効率を高め、より高速な結果をもたらします。

(参照: 推論)

ニューラルネットワーク

ニューラルネットワークは、深層学習を支える多層的なアルゴリズム構造を指し、より広く言えば、大規模言語モデルの登場に続く生成 AI ツールの全体的なブームを支える基盤です。

人間の脳内の密接に相互接続された経路から着想を得て、データ処理アルゴリズムの設計構造として利用するという考えは 1940 年代まで遡りますが、この理論の可能性を本当に解き放ったのは、ビデオゲーム産業を通じて登場した比較的新しいグラフィックスプロセッシングハードウェア(GPU)です。これらのチップは、以前の時代には不可能だったよりもはるかに多くの層を持つアルゴリズムのトレーニングに非常に適しており、音声認識、自律型ナビゲーション、創薬など多岐にわたる分野において、ニューラルネットワークベースの AI システムがはるかに優れたパフォーマンスを発揮することを可能にしました。

(参照:[大規模言語モデル [LLM]](#large-language-model))

オープンソース

オープンソースとは、基盤となるコードが誰でも使用・検証・修正できるように公開されているソフトウェア、あるいは近年では AI モデルを指します。AI の世界では、Meta の Llama ファミリーが代表的な例であり、オペレーティングシステムにおける歴史的な著名な対比は Linux です。オープンソースのアプローチにより、世界中の研究者、開発者、企業が互いの成果の上に構築することが可能となり、進歩が加速するとともに、クローズドシステムでは容易に提供できない独立した安全性監査を可能にします。一方、クローズドソースとはコードが非公開であることを意味し、製品は使用できるものの内部動作を確認することはできません(OpenAI の GPT モデルなどが該当)。この区別は、現在 AI 業界における最も重要な議論の一つとなっています。

パラレル化

並列処理とは、一つずつ順番に行うのではなく、複数のことを同時に実行することを意味します。例えば、10 人の従業員がプロジェクトの異なる部分を同時に担当する代わりに、一人の従業員がすべてを順次行うような状況です。AI において、並列処理はトレーニングと推論の両方の根幹をなすものであり、現代の GPU は数千回の計算を並列で行うように特別に設計されており、これが業界のハードウェアの中核となった大きな理由の一つとなっています。AI システムがより複雑になり、モデルが大きくなるにつれて、多数のチップや多数のマシンにわたって作業を並列化する能力は、モデルをいかに迅速かつ費用対効果高く構築・展開できるかを決定する最も重要な要素の一つとなっています。より良い並列化戦略に関する研究は、現在ではそれ自体が一つの学問分野として確立されています。

RAMageddon(ラムアッゲドン)とは、私たちの日常生活で使用するほぼすべてのテクノロジー製品を動かすランダムアクセスメモリ、つまり RAM チップの供給不足という、あまり楽しくないトレンドがテック業界全体を席巻していることに対する、少しユーモラスな新しい用語です。AI 産業が花開くにつれて、最も強力かつ効率的な AI を実現しようと競い合う大手テック企業や AI ラボは、データセンターを稼働させるために膨大な量の RAM を購入しており、一般の私たちが利用できる分にはほとんど残っていません。その供給ボトルネックにより、残された RAM の価格はますます高騰しています。

これには、ゲーム業界(主要企業がコンソールの価格引き上げを余儀なくされている分野。デバイス用のメモリチップの入手が困難になっているため)、家電製品業界(メモリの不足により、過去 10 年以上で最大のスマートフォン出荷台数の減少を引き起こす可能性がある分野)、そして一般的なエンタープライズコンピューティング(自社データセンターに必要な RAM が十分に確保できない企業がある分野)が含まれます。価格の高騰は、恐ろしい供給不足が解消された後にのみ止まると予想されていますが、残念ながら、それがすぐに起きる兆候は ほとんど見られません。

再帰的自己改善

AGIと同様に、再帰的自己改善(recursive self-improvement)は、AI がどれほど賢く成長できるか、また人間にどれだけ依存するかが決まる重要な分岐点です。RSI のシナリオでは、AI モデルが人間の介入なしに自己改良を開始し、能力と自律性の劇的な加速をもたらします。一部の解説では、これは特異点(singularity)に匹敵する壊滅的な瞬間、つまり AI モデルが外部からの干渉に対して免疫を持つようになる瞬間として描かれます。しかし RSI はまた、「AI モデルが自身の後継者を設計できるか」という基本的な能力を指す用語でもあり、エンジニアがその実現を試みることをはるかに容易にしています。いくつかの最近の AI スタートアップ は再帰的自己改善型モデルの構築に取り組んでいますが、その多くは終末論的な含意を否定し、RSI を単なる研究の次のフロンティアとして提示しています。

強化学習

強化学習は、システムが試行錯誤を行い、正解に対して報酬を得ることで学習する AI の訓練方法です。愛するペットにおやつを与えて訓練するようなものですが、このシナリオにおける「ペット」はニューラルネットワークであり、「おやつ」は成功を示す数学的信号です。ラベル付き例の固定データセットでモデルを訓練する教師あり学習とは異なり、強化学習ではモデルが環境を探検し、行動を取り、受け取るフィードバックに基づいて継続的に行動を更新します。このアプローチは、AI にゲームプレイやロボット制御を教え、さらに最近では大規模言語モデルの推論能力を高めるために特に強力であることが証明されています。人間のフィードバックからの強化学習(RLHF)などの技術は、主要な AI ラボがより有用で正確かつ安全なモデルに微調整を行う際の中心的な役割を果たしています。

人間と機械のコミュニケーションにおいて、いくつかの明白な課題があります。人間は自然言語を用いてコミュニケーションをとりますが、AI プログラムはデータに基づいた複雑なアルゴリズムプロセスを通じてタスクを実行します。トークンはこのギャップを埋めるものであり、LLM(大規模言語モデル)によって処理または生成されたデータの離散セグメントを表す、人間と AI のコミュニケーションの基本的な構成要素です。これらは「トークナイゼーション」と呼ばれるプロセスを通じて作成されます。これは、コンパイラーが人間が理解できる言語をコンピュータが理解できるバイナリコードに変換するのと同様に、言語モデルが消化できる bite-sized な単位に生テキストを分解する処理です。企業環境では、トークンはコストも決定します。ほとんどの AI 企業が LLM の利用料をトークン数に基づいて課金しているため、ビジネスでの利用量が多くなるほど、支払額も増加します。

トークンスループット

繰り返しになりますが、トークンは AI ランゲージモデルが処理前に言語を分割するテキストの小さな断片であり、しばしば単語全体ではなく単語の一部です。AI のワークロードを理解する目的では、これらは「単語」にほぼ相当します。

スループットとは、特定の期間内に処理できる量のことを指すため、トークンスループットは本質的にシステムが一度に処理できる AI ワークの量を測る指標です。高いトークンスループットは、AI インフラストラクチャチームにとって重要な目標であり、なぜならそれがモデルが同時にサービス提供可能なユーザー数と、各ユーザーが応答を受け取るまでの速度を決定するからです。

AI 研究者のアンドレイ・カルパティ氏は、自分の AI サブスクリプションがアイドル状態にあるときに不安を感じたと述べています。これは、高価なコンピュータハードウェアが十分に活用されていない大学院生時代の彼の感覚と重なるものであり、この感情はなぜトークンスループットの最大化がこの分野で一種の執着となっているかを捉えています。

訓練

機械学習 AI を開発するには、「トレーニング」と呼ばれるプロセスが必要です。簡単に言えば、これはモデルがパターンから学習し有用な出力を生成できるようにするためにデータを入力するプロセスです。本質的には、システムがデータ内の特性に応答して出力を目的とする目標(猫の画像の識別や、要求に応じて俳句の作成など)に向けて適応させるプロセスです。

トレーニングは多くの入力が必要となるため高価になりがちであり、必要なデータ量は増加傾向にあります。そのため、ルールベースの AI にターゲットを絞ったデータを適用して微調整するなどのハイブリッドアプローチを採用することで、ゼロから作り直すことなくコストを管理することが可能になります。

[参照:推論 (Inference)]

転移学習

異なるが通常は関連するタスクのための新しいモデルを開発する際の出発点として、すでにトレーニング済みの AI モデルを利用する手法です。これにより、過去のトレーニングサイクルで得られた知見を再活用できます。

転移学習は、モデル開発の工程を短縮することで効率化とコスト削減を実現します。また、モデルの開発対象となるタスクに関するデータが限られている場合にも有用です。ただし、このアプローチには限界がある点に注意が必要です。汎用的な能力を獲得するために転移学習に依存するモデルは、その専門分野で良好に機能させるためには、追加のデータによるトレーニングが必要になる可能性が高いです。

(参照:微調整 (Fine tuning))

検証損失

検証損失は、AI モデルがトレーニング中にどの程度学習しているかを示す数値であり、低いほど良いことを意味します。研究者たちはこれをリアルタイムの成績表のようなものとして厳密に追跡し、トレーニングをいつ停止するか、ハイパーパラメータをいつ調整すべきか、あるいは潜在的な問題を検証する必要があるかどうかを判断するために使用しています。検証損失が示す重要な懸念事項の一つは過学習であり、これはモデルが新しい状況にも適用可能なパターンを真に学習するのではなく、トレーニングデータを単に暗記してしまう状態です。これは、教材を本当に理解している生徒と、昨年の試験問題をただ暗記している生徒の違いのようなものです。検証損失は、あなたのモデルがどちらのタイプになりつつあるかを明らかにするのに役立ちます。

重み

重みは AI トレーニングの中核をなすものであり、システムをトレーニングするために使用されるデータ内の異なる特徴(または入力変数)に与えられる重要性(または重み)の度合いを決定し、それによって AI モデルの出力を形成します。

言い換えれば、重みとは、特定のトレーニングタスクにおいてデータセットの中で最も顕著なものを定義する数値パラメータです。これらは入力に対して乗算を適用することでその機能を果たします。モデルトレーニングは通常、ランダムに割り当てられた重みから開始されますが、プロセスが進むにつれて、モデルがターゲットにより近い出力に到達しようとする過程で重みが調整されていきます。

例えば、特定の地域の歴史的不動産データを基にトレーニングされた住宅価格予測用の AI モデルには、寝室や浴室の数、物件が独立型か半独立型か、駐車場やガレージの有無といった特徴に対する重みが含まれる可能性があります。

究極的に、モデルが各入力に付与する重みは、与えられたデータセットに基づき、それらが物件の価値にどの程度影響を与えるかを反映したものです。

*この記事は新しい情報で随時更新されます。*

*当社の記事内のリンクを通じてご購入いただいた場合、小規模な手数料をいただいている可能性があります。これは当社の編集の独立性には影響しません。

原文を表示

Artificial intelligence is changing the world, and simultaneously inventing a whole new language to describe how it’s doing it. Spend five minutes reading about AI and you’ll run into LLMs, RAG, RLHF, and a dozen other terms that can make even very smart people in the tech world feel insecure. This glossary is our attempt to fix that. We update it regularly as the field evolves, so consider it a living document, much like the AI systems it describes.

AGI

Artificial general intelligence, or AGI, is a nebulous term. But it generally refers to AI that’s more capable than the average human at many, if not most, tasks. OpenAI CEO Sam Altman once described AGI as the “equivalent of a median human that you could hire as a co-worker.” Meanwhile, OpenAI’s charter defines AGI as “highly autonomous systems that outperform humans at most economically valuable work.” Google DeepMind’s understanding differs slightly from these two definitions; the lab views AGI as “AI that’s at least as capable as humans at most cognitive tasks.” Confused? Not to worry — so are experts at the forefront of AI research.

AI agent

An AI agent refers to a tool that uses AI technologies to perform a series of tasks on your behalf — beyond what a more basic AI chatbot could do — such as filing expenses, booking tickets or a table at a restaurant, or even writing and maintaining code. However, as we’ve explained before, there are lots of moving pieces in this emergent space, so “AI agent” might mean different things to different people. Infrastructure is also still being built out to deliver on its envisaged capabilities. But the basic concept implies an autonomous system that may draw on multiple AI systems to carry out multistep tasks.

API endpoints

Think of API endpoints as “buttons” on the back of a piece of software that other programs can press to make it do things. Developers use these interfaces to build integrations — for example, allowing one application to pull data from another, or enabling an AI agent to control third-party services directly without a human manually operating each interface. Most smart home devices and connected platforms have these hidden buttons available, even if ordinary users never see or interact with them. As AI agents grow more capable, they are increasingly able to find and use these endpoints on their own, opening up powerful — and sometimes unexpected — possibilities for automation.

Chain of thought

Given a simple question, a human brain can answer without even thinking too much about it — things like “which animal is taller, a giraffe or a cat?” But in many cases, you often need a pen and paper to come up with the right answer because there are intermediary steps. For instance, if a farmer has chickens and cows, and together they have 40 heads and 120 legs, you might need to write down a simple equation to come up with the answer (20 chickens and 20 cows).

In an AI context, chain-of-thought reasoning for large language models means breaking down a problem into smaller, intermediate steps to improve the quality of the end result. It usually takes longer to get an answer, but the answer is more likely to be correct, especially in a logic or coding context. Reasoning models are developed from traditional large language models and optimized for chain-of-thought thinking thanks to reinforcement learning.

(See: Large language model)

Coding agents

This is a more specific concept that an “AI agent,” which means a program that can take actions on its own, step by step, to complete a goal. A coding agent is a specialized version applied to software development. Rather than simply suggesting code for a human to review and paste in, a coding agent can write, test, and debug code autonomously, handling the kind of iterative, trial-and-error work that typically consumes a developer’s day. These agents can operate across entire codebases, spotting bugs, running tests, and pushing fixes with minimal human oversight. Think of it like hiring a very fast intern who never sleeps and never loses focus — though, as with any intern, a human still needs to review the work.

Compute

Although somewhat of a multivalent term, compute generally refers to the vital computational power that allows AI models to operate. This type of processing fuels the AI industry, giving it the ability to train and deploy its powerful models. The term is often a shorthand for the kinds of hardware that provides the computational power — things like GPUs, CPUs, TPUs, and other forms of infrastructure that form the bedrock of the modern AI industry.

Deep learning

A subset of self-improving machine learning in which AI algorithms are designed with a multi-layered, artificial neural network (ANN) structure. This allows them to make more complex correlations compared to simpler machine learning-based systems, such as linear models or decision trees. The structure of deep learning algorithms draws inspiration from the interconnected pathways of neurons in the human brain.

Deep learning AI models are able to identify important characteristics in data themselves, rather than requiring human engineers to define these features. The structure also supports algorithms that can learn from errors and, through a process of repetition and adjustment, improve their own outputs. However, deep learning systems require a lot of data points to yield good results (millions or more). They also typically take longer to train compared to simpler machine learning algorithms — so development costs tend to be higher.

(See: Neural network)

Diffusion

Diffusion is the tech at the heart of many art-, music-, and text-generating AI models. Inspired by physics, diffusion systems slowly “destroy” the structure of data — for example, photos, songs, and so on — by adding noise until there’s nothing left. In physics, diffusion is spontaneous and irreversible — sugar diffused in coffee can’t be restored to cube form. But diffusion systems in AI aim to learn a sort of “reverse diffusion” process to restore the destroyed data, gaining the ability to recover the data from noise.

Distillation

Distillation is a technique used to extract knowledge from a large AI model with a ‘teacher-student’ model. Developers send requests to a teacher model and record the outputs. Answers are sometimes compared with a dataset to see how accurate they are. These outputs are then used to train the student model, which is trained to approximate the teacher’s behavior.

Distillation can be used to create a smaller, more efficient model based on a larger model with a minimal distillation loss. This is likely how OpenAI developed GPT-4 Turbo, a faster version of GPT-4.

While all AI companies use distillation internally, it may have also been used by some AI companies to catch up with frontier models. Distillation from a competitor usually violates the terms of service of AI API and chat assistants.

Fine-tuning

This refers to the further training of an AI model to optimize performance for a more specific task or area than was previously a focal point of its training — typically by feeding in new, specialized (i.e., task-oriented) data.

Many AI startups are taking large language models as a starting point to build a commercial product but are vying to amp up utility for a target sector or task by supplementing earlier training cycles with fine-tuning based on their own domain-specific knowledge and expertise.

(See: [Large language model [LLM]](#large-language-model))

GAN

A GAN, or Generative Adversarial Network, is a type of machine learning framework that underpins some important developments in generative AI when it comes to producing realistic data — including (but not only) deepfake tools. GANs involve the use of a pair of neural networks, one of which draws on its training data to generate an output that is passed to the other model to evaluate.

The two models are essentially programmed to try to outdo each other. The generator is trying to get its output past the discriminator, while the discriminator is working to spot artificially generated data. This structured contest can optimize AI outputs to be more realistic without the need for additional human intervention. Though GANs work best for narrower applications (such as producing realistic photos or videos), rather than general purpose AI.

Hallucination

Hallucination is the AI industry’s preferred term for AI models making stuff up – literally generating information that is incorrect. Obviously, it’s a huge problem for AI quality.

Hallucinations produce GenAI outputs that can be misleading and could even lead to real-life risks — with potentially dangerous consequences (think of a health query that returns harmful medical advice).

The problem of AIs fabricating information is thought to arise as a consequence of gaps in training data. Hallucinations are contributing to a push toward increasingly specialized and/or vertical AI models — i.e. domain-specific AIs that require narrower expertise – as a way to reduce the likelihood of knowledge gaps and shrink disinformation risks.

Inference

Inference is the process of running an AI model. It’s setting a model loose to make predictions or draw conclusions from previously seen data. To be clear, inference can’t happen without training; a model must learn patterns in a set of data before it can effectively extrapolate from this training data.

Many types of hardware can perform inference, ranging from smartphone processors to beefy GPUs to custom-designed AI accelerators. But not all of them can run models equally well. Very large models would take ages to make predictions on, say, a laptop versus a cloud server with high-end AI chips.

See: [Training]

Large language model (LLM)

Large language models, or LLMs, are the AI models used by popular AI assistants, such as ChatGPT, Claude, Google’s Gemini, Meta’s AI Llama, Microsoft Copilot, or Mistral’s Le Chat. When you chat with an AI assistant, you interact with a large language model that processes your request directly or with the help of different available tools, such as web browsing or code interpreters.

LLMs are deep neural networks made of billions of numerical parameters (or weights, see below) that learn the relationships between words and phrases and create a representation of language, a sort of multidimensional map of words.

These models are created from encoding the patterns they find in billions of books, articles, and transcripts. When you prompt an LLM, the model generates the most likely pattern that fits the prompt.

(See: Neural network)

Memory cache

Memory cache refers to an important process that boosts inference (which is the process by which AI works to generate a response to a user’s query). In essence, caching is an optimization technique, designed to make inference more efficient. AI is obviously driven by high-octane mathematical calculations and every time those calculations are made, they use up more power. Caching is designed to cut down on the number of calculations a model might have to run by saving particular calculations for future user queries and operations. There are different kinds of memory caching, although one of the more well-known is KV (or key value) caching. KV caching works in transformer-based models, and increases efficiency, driving faster results by reducing the amount of time (and algorithmic labor) it takes to generate answers to user questions.

(See: Inference)

Neural network

A neural network refers to the multi-layered algorithmic structure that underpins deep learning — and, more broadly, the whole boom in generative AI tools following the emergence of large language models.

Although the idea of taking inspiration from the densely interconnected pathways of the human brain as a design structure for data processing algorithms dates all the way back to the 1940s, it was the much more recent rise of graphical processing hardware (GPUs) — via the video game industry — that really unlocked the power of this theory. These chips proved well suited to training algorithms with many more layers than was possible in earlier epochs — enabling neural network-based AI systems to achieve far better performance across many domains, including voice recognition, autonomous navigation, and drug discovery.

(See: [Large language model [LLM]](#large-language-model))

Open source

Open source refers to software — or, increasingly, AI models — where the underlying code is made publicly available for anyone to use, inspect, or modify. In the AI world, Meta’s Llama family of models is a prominent example; Linux is the famous historical parallel in operating systems. Open source approaches allow researchers, developers, and companies around the world to build on top of one another’s work, accelerating progress and enabling independent safety audits that closed systems cannot easily provide. Closed source means the code is private — you can use the product but not see how it works, as is the case with OpenAI’s GPT models — a distinction that has become one of the defining debates in the AI industry.

Parallelization

Parallelization means doing many things at the same time instead of one after another — like having 10 employees working on different parts of a project at the same time instead of one employee doing everything sequentially. In AI, parallelization is fundamental to both training and inference: modern GPUs are specifically designed to perform thousands of calculations in parallel, which is a big reason why they became the hardware backbone of the industry. As AI systems grow more complex and models grow larger, the ability to parallelize work across many chips and many machines has become one of the most important factors in determining how quickly and cost-effectively models can be built and deployed. Research into better parallelization strategies is now a field of study in its own right.

RAMageddon

RAMageddon is the fun new term for a not-so-fun trend that is sweeping the tech industry: an ever-increasing shortage of random access memory, or RAM chips, which power pretty much all the tech products we use in our daily lives. As the AI industry has blossomed, the biggest tech companies and AI labs — all vying to have the most powerful and efficient AI — are buying so much RAM to power their data centers that there’s not much left for the rest of us. And that supply bottleneck means that what’s left is getting more and more expensive.

That includes industries like gaming (where major companies have had to raise prices on consoles because it’s harder to find memory chips for their devices), consumer electronics (where memory shortage could cause the biggest dip in smartphone shipments in more than a decade), and general enterprise computing (because those companies can’t get enough RAM for their own data centers). The surge in prices is only expected to stop after the dreaded shortage ends but, unfortunately, there’s not really much of a sign that’s going to happen anytime soon.

Recursive self-improvement

Like AGI, recursive self-improvement is a threshhold for how smart AI can get, and how little it may rely on humans. In the RSI scenario, AI models start improving themselves without human intervention, leading to a huge acceleration in capabilities and autonomy. In some tellings, this would be a cataclysmic moment akin to the singularity, a moment when AI models become immune to outside intervention. But RSI also describes a basic capability — can an AI model design its own successor? — which makes it much easier for engineers to try to build it. A number of recent AI startups have set out to build recursively self-improving models, but most of them dismiss the apocalyptic implications, presenting RSI as simply the next frontier for research.

Reinforcement learning

Reinforcement learning is a way of training AI where a system learns by trying things and receiving rewards for correct answers — like training your beloved pet with treats, except the “pet” in this scenario is a neural network and the “treat” is a mathematical signal indicating success. Unlike supervised learning, where a model is trained on a fixed dataset of labeled examples, reinforcement learning lets a model explore its environment, take actions, and continuously update its behavior based on the feedback it receives. This approach has proven especially powerful for training AI to play games, control robots, and, more recently, sharpen the reasoning ability of large language models. Techniques like reinforcement learning from human feedback, or RLHF, are now central to how leading AI labs fine-tune their models to be more helpful, accurate, and safe.

Token

When it comes to human-machine communication, there are some obvious challenges — people communicate using human language, while AI programs execute tasks through complex algorithmic processes informed by data. Tokens bridge that gap: they are the basic building blocks of human-AI communication, representing discrete segments of data that have been processed or produced by an LLM. They are created through a process called tokenization, which breaks down raw text into bite-sized units a language model can digest, similar to how a compiler translates human language into binary code a computer can understand. In enterprise settings, tokens also determine cost — most AI companies charge for LLM usage on a per-token basis, meaning the more a business uses, the more it pays.

Token throughput

So again, tokens are the small chunks of text — often parts of words rather than whole ones — that AI language models break language into before processing it; they are roughly analogous to “words” for the purposes of understanding AI workloads. Throughput refers to how much can be processed in a given period of time, so token throughput is essentially a measure of how much AI work a system can handle at once. High token throughput is a key goal for AI infrastructure teams, since it determines how many users a model can serve simultaneously and how quickly each of them receives a response. AI researcher Andrej Karpathy has described feeling anxious when his AI subscriptions sit idle — echoing the feeling he had as a grad student when expensive computer hardware wasn’t being fully utilized — a sentiment that captures why maximizing token throughput has become something of an obsession in the field.

Training

Developing machine learning AIs involves a process known as training. In simple terms, this refers to data being fed in in order that the model can learn from patterns and generate useful outputs. Essentially, it’s the process of the system responding to characteristics in the data that enables it to adapt outputs towards a sought-for goal — whether that’s identifying images of cats or producing a haiku on demand.

Training can be expensive because it requires *lots* of inputs, and the volumes required have been trending upwards — which is why hybrid approaches, such as fine-tuning a rules-based AI with targeted data, can help manage costs without starting entirely from scratch.

See: [Inference]

Transfer learning

A technique where a previously trained AI model is used as the starting point for developing a new model for a different but typically related task – allowing knowledge gained in previous training cycles to be reapplied.

Transfer learning can drive efficiency savings by shortcutting model development. It can also be useful when data for the task that the model is being developed for is somewhat limited. But it’s important to note that the approach has limitations. Models that rely on transfer learning to gain generalized capabilities will likely require training on additional data in order to perform well in their domain of focus

(See: Fine tuning)

Validation loss

Validation loss is a number that tells you how well an AI model is learning during training — and lower is better. Researchers track it closely as a kind of real-time report card, using it to decide when to stop training, when to adjust hyperparameters, or whether to investigate a potential problem. One of the key concerns it helps flag is overfitting, a condition in which a model memorizes its training data rather than truly learning patterns it can generalize to new situations. Think of it as the difference between a student who genuinely understands the material and one who simply memorized last year’s exam — validation loss helps reveal which one your model is becoming.

Weights

Weights are core to AI training, as they determine how much importance (or weight) is given to different features (or input variables) in the data used for training the system — thereby shaping the AI model’s output.

Put another way, weights are numerical parameters that define what’s most salient in a dataset for the given training task. They achieve their function by applying multiplication to inputs. Model training typically begins with weights that are randomly assigned, but as the process unfolds, the weights adjust as the model seeks to arrive at an output that more closely matches the target.

For example, an AI model for predicting housing prices that’s trained on historical real estate data for a target location could include weights for features such as the number of bedrooms and bathrooms, whether a property is detached or semi-detached, whether it has parking, a garage, and so on.

Ultimately, the weights the model attaches to each of these inputs reflect how much they influence the value of a property, based on the given dataset.

*This article is updated regularly with new information.*

*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*

この記事をシェア

関連記事

TechCrunch AI2026年5月31日 01:30

‘What a joke’: Github Copilot’s new token-based billing spurs consternation among devs

TechCrunch AI2026年5月31日 00:59

Meta is reportedly developing an AI pendant

TechCrunch AI2026年5月31日 00:30

I put Google’s 24/7 AI assistant Gemini Spark to work, and it’s actually pretty useful

ニュース一覧に戻る元記事を読む