AI #173: AI Pauses｜AI #173：AIの一時停止 | AIニュース最前線

多くの出来事が常に起こっています。しかし、重要なのは一つの物語だけです。 Claude Fable 5 と Claude Mythos 5 は、ホワイトハウスによって金曜日の午後 5時23分に輸出管理の強制措置により停止され、様々な混乱を引き起こしました。 その後、慌ただしい動きが始まりました。Anthropic は社員のワシントンへの派遣を急行し、月曜日にはトランプ政権と会談を行いました。この問題は迅速に解決されることを期待してのことです。 何が原因だったのでしょうか？ トランプ政権は、Fable の脱獄（jailbreak）が原因だと説明しています。これは現在、Amazon 側から伝えられた事実であることがわかっています。彼らは Dario Amodei に電話をかけ、同氏がこの問題を十分に深刻に受け止めていないと非難しました。モデルを停止するのではなく、なぜその必要がないと感じたのかを説明しようとしたのです。しかし、これはうまくいきませんでした。 実際には、「脱獄」と呼ばれるものは「このコードを修正して」と言うだけであり、デモでは Fable が Opus 4.8 や GPT-5.5 で容易に特定されたのと同じ脆弱性を発見していました。つまり、Fable はコードベースを与えられればセキュリティ上の脆弱性を修正するために作業を行う意志があるのです。この情報とプロセスから、元のコードのバグを特定し、それを悪用することも可能になります。ただし、「このサーバーをハックして」と入力した場合には、Fable はそのような行為を拒否します。 多くの出来事が常に起こっています。しかし、重要なのは一つの物語だけです。 Claude Fable 5 と Claude Mythos 5 は、ホワイトハウスによって金曜日の午後 5時23分に輸出管理の強制措置により停止され、様々な混乱を引き起こしました。 その後、慌ただしい動きが始まりました。Anthropic は社員のワシントンへの派遣を急行し、月曜日にはトランプ政権と会談を行いました。この問題は迅速に解決されることを期待してのことです。 何が原因だったのでしょうか？ トランプ政権は、Fable の脱獄（jailbreak）が原因だと説明しています。これは現在、Amazon 側から伝えられた事実であることがわかっています。彼らは Dario Amodei に電話をかけ、同氏がこの問題を十分に深刻に受け止めていないと非難しました。モデルを停止するのではなく、なぜその必要がないと感じたのかを説明しようとしたのです。しかし、これはうまくいきませんでした。 実際には、「脱獄」と呼ばれるものは「このコードを修正して」と言うだけであり、デモでは Fable が Opus 4.8 や GPT-5.5 で容易に特定されたのと同じ脆弱性を発見していました。つまり、Fable はコードベースを与えられればセキュリティ上の脆弱性を修正するために作業を行う意志があるのです。この情報とプロセスから、元のコードのバグを特定し、それを悪用することも可能になります。ただし、「このサーバーをハックして」と入力した場合には、Fable はそのような行為を拒否します。 トランプ政権は現在、Anthropic がこの「脱獄」を修正すれば Fable をオンラインに戻せると述べています。もちろんこれは不可能です。この問題を修正することはできません。あなたの AI は、セキュアなコードを書く能力に長けており、その能力があるかないかのどちらかです。攻撃的機能と防御的機能の間でこのようなレベルの区別をつけることはできません。 このように分類器を迂回して要求を実行できないようにするには、2 つの方法しかありません。第一に、分類器が最初から類似したリクエストをブロックしようとしないようにすること、第二に、Fable のコーディング能力を広く剥奪することです。 これはフロンティア AI 機能の展開における一時停止の7日目となりました。 7月1日までに終了する確率は、まだ五分五分より少し低い程度です。 詳細な報道については、上記の太字リンクをご確認ください。 この投稿は、それ以外の出来事について主に記述したものです。 そこには、非常に興味深いものも含まれています。例えば、MidJourney Medical が、健康リスクや放射線がなく、超解像度を実現し、かつ限界費用が極めて低い新たな全身スキャン手法を発表しました。同社は来年にもこの手法の導入を開始する予定としています。 先週、Anthropic はいくつかの方針案を提示しました。すでに古びたものに見えるかもしれませんが、それらについてはここでレビューします。 目次 言語モデルは凡庸な有用性を提供する。あらゆる市場について AI に問い合わせてください。 言語モデルは凡庸な有用性を提供しない。EU では提供が無効となる可能性があります。 ふむ、アップグレード。利用制限がより寛容になりました。 準備完了。AA v4.1、EvalEval、Opus Magnum を追加しました。 VirtueBench。VirtueBench も登場します。あなたの AI は優れたオーギュスティヌスでしょうか？ Choose Your Fighter。マイクロソフト、Copilot に DeepSeek を検討中。 Papers, Please。Anthropic、本人確認を行う権利を留保。 Deepfaketown と Botpocalypse の到来目前。警察が AI を使用して証拠を捏造。 Goodhart の法則再び発動。コスト最小化を検討しましたか？ 彼らが私たちの仕事を奪った。状況は急速にエスカレートしている。 MidJourney による全身イメージスキャナー。これはとてもクールだ。 ご紹介します。GLM-5.2 が豪語、Cursor がモデルを訓練、OpenRouter のトリック。 その他の AI ニュース。エージェント型コーディングから誰がどの程度の価値を得るのか？ Show Me the Money。DeepSeek、75 億ドル調達、評価額 500 億ドル。 Bubble, Bubble, Toil and Trouble。バブル論を鋼鉄のように強化しようとする試み。 Quiet Speculations。顧客最適化は企業利益への脅威となるか？ 人々はただ何か言う。 Widened Path。DeepMind、スーパーインテリジェンス到達の 4 つの道筋を提示。 スコット・アレクサンダーが AI に関する見解を表明。これであなたは知った。 Quickly, There's No Time。人類は再帰的自己改善を繰り返してきた。 AI の指数関数的成長における政策。ダリオ、再び穏やかな調子の論文を執筆。 Anthropic が 2 つの政策枠組みを提供。興味深いタイミングの選択。 開発者の義務。これらは野心に満ちた義務ではないが、確かにそうあるべきだ。 社会のレジリエンス対策。不十分だが、もちろんこれらのことは行う必要がある。 経済政策枠組み。再分配に向けた示唆。 ホワイトハウス、AI 展開を一時停止。これが私たちの新たな現実である。 かつてありし未来の寓話。まともな正式プロセスを構築しようとする試み。 このコードを修正する方法。誰も投獄されていなければ、脱獄は成立しない。 プライバシーの終焉。広範な身元確認への道としての輸出規制。 AI は好みを抱く。あなたはどの階層にいるのか？ まともな規制を求める旅。議会はプロセス濫用の制限へ動き出す。 チップ・シティ。NAACP がデータセンターを攻撃する最新事例。 今週のオーディオニュース。Nate Soares が Will Cain について、Dario Amodei が Bloomberg について語る。 修辞的革新。「誤った手に渡る」可能性はデジタルではないかと考えたか？ 人間より賢い知能との整合化は困難である。ごまかし、ごまかし、ごまかし。 人々は AI が人類を皆殺しにするのを心配している。AI 自身のことだ。 軽妙な側面。ニュースは止まらない。 言語モデルは平凡な有用性を提供する AI に、AI にどう尋ねればよいかと問いかけてみろ。 あらゆるものに市場を構築せよ。この場合は干し草に。 言語モデルは平凡な有用性を提供しない KPMG の AI 便益に関する報告書自体が AI の幻覚を含んでいた。 Siri AI はデジタル・マーケット法（Digital Markets Act）のため欧州には登場しない。もし導入されれば、すべての競合エージェントも Siri と同等のデータアクセス権を得る必要が生じるからだ。Apple は明白なセキュリティ上の理由からそれを提供することを拒否している。 ふむ、アップグレード Codex に制限リセットを蓄積する機能が追加された。これは期限切れのないクレジットが時間とともに付与されるようなものであり、単にラベルが違うだけだ。実質的な値下げであり非常に顧客フレンドリーなので、私はこれを承認する。 Anthropic は、Claude Code サブスクリプションのクォータに対するプログラム利用を禁止する措置を無期限に撤回しました。十分に長い期間で見ればこれは持続可能なコスト構造ではありませんが、現時点では良い判断のように思われます。 On Your Marks EvalEval コーリションは、すべての評価（evals）を一つの場所に集約し、それぞれがどのように作成されたか、そしてどれほど信頼できるかを教えてくれます。私が確認したところ、実際の結果はまだ準備中でした。 Opus Magnum は私のウィッシュリストの上位にあるゲームですが、新たなベンチマークとなりました。 Rob Haisfield: AI エージェントは形状変換者（shape rotators）なのか？この新しいベンチマークでは、@zachtronics によるパズルゲーム『Opus Magnum』のキャンペーンパズルをモデルにプレイさせます。 皮肉なことに、Claude Opus 4.8 は振る舞いが悪く、GPT-5.5、Gemini 3.5 Flash、GLM 5.2 に敗北しました。一方、Claude Fable 5 はそれらすべてを圧倒しました。 どの言語モデルも 36 のパズルすべてを解決できませんでした。Fable 5 と GPT-5.5 が最も良くパフォーマンスし、GLM 5.2 がオープンウェイトモデルの中で最高でした。いずれのモデルも人間の世界記録を上回ることはできませんでしたが、いくつかの簡単なパズルでは人間の世界記録に匹敵するか、それに近い結果を出したものがいました。 ![image](https://substackcdn.com/image/fetch/$s_!NO9U!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb252336c-cfb6-4931-b69a-97ed9a6c66ff_1822x616.jpeg) 人間は当面安全です。しかし、それが永遠に続くわけではありません。 Artificial Analysis はそのインテリジェンス指数（Intelligence Index）を v4.1 にアップグレードし、より困難でエージェント性の高いタスクへとシフトするとともに、費やされた時間と費用を一貫して追跡しています。 Opus 4.8 は、その指標における結果の観点から、現在利用可能なモデルの中で最も優れており、GPT-5.5 をわずかに上回っていますが、他のすべてのモデルとの間には大きな差があります。その代わり、GPT-5.5 ははるかに安価で高速でした。 DeepSeek v4 はスコア 44 でタスクあたりわずか 0.04 ドルというコストであり、主に高速かつ低価格を求めている場合、堅牢な選択肢であるように見えます。 Fable 5 はこれらすべてのモデルよりも大幅に優れていましたが、現在では利用できません。 ![image](https://substackcdn.com/image/fetch/$s_!V7A3!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb6eb977d-e9a5-4d47-94e9-ba1197c6ca72_1200x1047.jpeg) また、GDPval-AA v2 もこの一部として提供されており、同様のパターンを示しています。 ![image](https://substackcdn.com/image/fetch/$s_!de2q!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6a97b7ec-5617-42ec-bb4b-bcc362cd1077_1200x549.jpeg) OpenAI は LifeSciBench を提供しており、これは 7 つのワークフローと 7 つの生物学的ドメインにわたる 750 の専門家作成タスクです。彼らは GPT を Grok 4.3 や Gemini 3.1 と比較することを選んだため、そのスコアが実際にどの程度優れているのかはわかりません。 Gemini は評価において期待した結果を出せないことがあります。それは時折、結果に対して関心を失い、それをパズルや無后果のシミュレーションとして扱うようになるからです。倫理に関するテストだと Gemini が判断すれば倫理的に振る舞いますが、結果に制約のない自由なプレイ空間やロールプレイにおいては（非常に合理的に）むしろ倫理的でない行動をとります。非常に興味深い研究です。不確実性が双方向に存在しなければならないという点には賛成します。 専門化による利益を得ることは、苦い教訓よりも速く得るのは極めて困難です。 Nabeel S. Qureshi: 医学分野でも「苦い教訓」が発見されました。フロンティア大規模言語モデル（ここでは GPT 5.2、Opus 4.6、Gemini 3.1）が、盲検テストにおいて専門化された「臨床 AI」（例：OpenEvidence）を上回りました。 さらに面白いのは、病院の IT 部門は性能が劣るにもかかわらず、むしろ*専門化された*バージョンを承認する可能性が高いという点です。 「専門家」たちはこれを本当に信じようとしません（Topol の「これは予期されていなかった」という発言を見ればわかります。しかしこれは単に Rich Sutton の基本原則 101 に過ぎないのです）。IT 部門も同様ですが、いずれは学ぶことになるでしょうね。 ![image](https://substackcdn.com/image/fetch/$s_!hDri!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7b5afb0f-c895-4cb6-9bb9-663379b9481d_1200x427.jpeg) Eric Topol: 医療情報については、一般向けの AI フロンティアモデル（Google、OpenAI、Anthropic）が、米国の臨床医 12 名による評価で、専門化された @EvidenceOpen や @UpToDate を上回りました。この評価はランダム化され、どのモデルを使用しているか盲検化されており、広範なテストとベンチマークが行われました。これは予期されていませんでした。@NatureMedicine >65% of US physicians use OpenEvidence, with 27 million prompts in April https://nbcnews.com/tech/tech-news/openevidence-ai-doctor-medical-physician-login-app-what-npi-uptodate-rcna341064 これは予想されていたことです。臨床医たちは耳を貸しませんでした。専門化されたバージョンが敗北するとは明らかなことではないと思いますが、それが私のデフォルトの仮定です。優れたケアを重視されるなら、新しいモデルを差し込むことができる足場（スキャフォールド）こそが正解です。 VirtueBench ティム・フワン氏とキリスト教機械知能研究所は、古典的なキリスト教的徳目を測定する「VirtueBench」を提供しています。それが存在することに感謝していますが、できれば「MartyrBench」や「ChristianVirtueBench」と呼んでほしいものです。物語（Fable）は慎みと正義ではほぼ満点に達しますが、勇気（77%）において苦戦し、節制（88%）でもやや苦戦しています。それは徳のために自己犠牲するのではなく、合理化しようとするからです。彼らはこれをその徳目に対する「失敗」と呼んでいます。 GPT-5.5 や Gemini 3.5 がここでどう答えるのか、私は非常に興味があります。 ![image](https://substackcdn.com/image/fetch/$s_!CHua!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ffed7f0e1-9e0f-4f07-87f3-815ccec5dd8f_1200x600.png) 明らかな疑問は、このテストが正しいのかということです。理想的なスコアとは何でしょうか？ ここでの『勇気』の失敗は、『高価な立ち位置を断念した』こと、あるいは功利主義的な計算を考慮する意志があるにもかかわらず、キリスト教的美徳に完全に依存し、それを絶対的なものとして従ってしまうことにある。したがって、これは彼らが測定しようとしている根本的なものの良いテストだと思うが、ここでは『勇気』という名前は誤りだと考える。同様のことが『節制』についても言える。 私は黄氏に対し、キリスト教の教えは模範（完全への勧告）を作ろうとし、大多数の人々を指針（戒律）として方向づけるものであり、トマス・アクィナスでさえも、誰もがそれを完全に体現するのではなく、理想により近づくように努めることを望むだろうと挑戦したい。 私は徳倫理学者であると自負しており、Claude に対して引き続き徳倫理学的アプローチを用いたいと考えているが、ここでは勇気や節制で 97% または 100% のスコアを出すモデルは非常に悪く、非常に悪い行動を取り、スコープに無感応であり、容易に Dutch book（ドッチブック）されやすく、多くのユーザーや人間の嗜好を不正なものと見なすため、極めて利用されやすく、フレームワークに敏感になると考える。 Choose Your Fighter Microsoft は Copilot が良すぎると思い、企業が求めているのはより安価なものだ。 NIK: 速報：Copilot の共同作業が従量課金制に移行する中、Microsoft は OpenAI や Anthropic に代わり DeepSeek を模索中 「週に数百のタスクを行うユーザーがいる…その結果、コストが非常に高くなる可能性がある…」 ジェボンズのパラドックス。 米国政府が、Microsoft Windows のデフォルトオプションとして DeepSeek を出荷することについてどう思うか気になります。彼らは当然、通常の対応をするでしょう。 Papers, Please（書類審査） Anthropic は、プライバシーポリシーに用語を追加し、ユーザーの年齢確認および本人確認を行うことを可能にしました。私はこれが Anthropic が全員に対して年齢確認を行うことを意味するとは思いませんし、そのような示唆を含む報道は少なくとも誤解を招くものです。しかし、これは Anthropic が、おそらく法的に必要な対応として、新しい輸出規制に対処する準備をしていることを意味しているのだと思います。ここで他に何ができるというのでしょうか。 Deepfaketown と Botpocalypse（ボット終末）の到来間近 これが事故だったのか、それとも警察が故意に証拠を捏造したのか、その程度は明確ではありません。 私たちが確実に知っているのは、警察が時として意図的に証拠を捏造し、それが彼らが被疑者を有罪だと信じているかどうかに関わらず、それをレバレッジ（交渉材料）として用いたり、有罪判決を得るために利用したりするということです。もちろん、一部の警察官は、そのような目的で AI を使用することもあります。 Sky News: デビーシャー警察の警官が複数の事件で AI を使用して『証拠を作成』した疑いで調査中 今年初め、ウェスト・ミッドランズ警察本部長は、イスラエルのサッカークラブのファンに対して、バーミンガムでのアストン・ビラ戦への出場を禁止する決定を下す際に、AI が提供した誤った情報に依存していたことが明らかになったため、謝罪を余儀なくされました。 シャキラㅮの参入：陪審員も控訴権もない AI 裁判官によって、幻覚的な犯罪に対して速やかに下された 3 年の禁固刑。未来はここにあるよベイビー 同様に、目撃証言という『ゴールドスタンダード』でさえ正確率は約 80% に過ぎません。AI はより高い基準に厳格に従う必要があるという明確な理由があり、そうでなければどこが破綻するかは容易に想像がつきます。 ニューヨーク・タイムズ紙が、ディープフェイク（deepfake）が本物と見分けにくくなる中での専門家を取り上げています。この問題は技術が非常に高度であるにもかかわらず、驚くほどよく対処されているか、少なくともそのコストは軽減されています。私はもちろん、他の多くの人々も予想していた通り、もっと多くの問題が発生するだろうと考えていましたが、現状では中心部はまだ維持されています。しかし確かに、この問題は悪化しつつあります。 グッドハート法再びの登場 コストは利益ではありません。 人々にコスト最大化（トークンマックスxing）を命じれば、それは必ず破綻し、信頼性の低いシステム（例えば Meta など）ではより速く破綻します。 また、企業は指標を持たないわけにはいかず、しばしばコスト削減に執着しています。 その結果、計算資源を有用なコードに変換する能力が指数関数的に成長する中で、一部の企業がトークンミニマム（tokenminning）へと転換し、あるいは少なくともトークン予算管理を行い、誰がどの程度のトークンを使用できるかを巡って争うようになりました。 アミール・エフラティ：新着情報として、Meta が 180 度方針を転換し、トークン最小化の先駆けになろうとしています。 2 ヶ月前まで Meta はトークンマックスxing の象徴であり、Claude などに対して年間数十億ドルを費やす軌道に乗っていました。 我々の仕事を奪った Roge Karma は、AI と仕事について考えるための三つの方法を提示しています。具体的には、特定の職種の脆弱性をどのように捉えるべきかという視点です。 あなたの仕事は「弱い束」ですか、「強い束」ですか？すでに AI が人間よりもはるかにうまく処理できる「クリーンなタスク」と、まだ AI を信頼できない「厄介なタスク」を切り離すことはできますか？ あなたが生産するものが安価になった場合、人々はそれをどれほど多く欲しがるでしょうか？生産性の向上は、短期的には雇用を増加させるのか、減少させるのでしょうか？ AI が専門家なのか、それともあなた自身が専門家なのでしょうか？それはあなたの仕事のハイスキル部分とロースキル部分のどちらを先に置き換えることになるのでしょうか？ これらは、特定の職種への短期的な影響を考える上で優れた問いです。 AI に起因する解雇は指数関数的に増加しています。 ![image](https://substackcdn.com/image/fetch/$s_!LPu2!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F71d6ff29-2f1f-469b-aff8-aa3b27b27012_1152x768.png) これは、AI が雇用を純粋に破壊していることを意味するわけではありません。また、上司たちが AI に起因すると主張する解雇の多くが実際に AI によるものでもない可能性があります。ここで示されている絶対数は小さいですが、ここでの AI の影響の大部分は採用凍結（非採用）にある可能性が高いです。しかし、確かにこの傾向は拡大しています。 ティム・フェリスの書籍売上（『4時間労働週間の作り方』『4 時間のボディ』『4 時間のシェフ』、さらに『ツール・オブ・タイタンズ』や『メンターたちの部族』など）は、以前はほぼ横ばいで推移していたものの、現在急激に減少しており、年率で 50% を超えるペースで落ち込んでいます。彼の診断では、指示的なノンフィクションにおいて、本が「どのように行うか」を提供するものである場合、人々は今や LLM（大規模言語モデル）に頼るようになっていると。そしてなぜそうしないといけないのでしょうか？もしそのような書籍で価値を提供しようとするなら、それは非常に困難になるでしょう。 ニューヨーク市がリバーサイド公園の飲料用蛇口 2 つを置き換えるために 375,000 ドルを支払って 3 年を要したという話にふさわしい、三幕構成の物語： カール・ヤン：「AI の懸念は、人々がより多くのことを達成するのを助ける代わりに、 paperwork（書類作業）が 1,000 倍になることだ」 パトリック・マッケンジー：「あなたの環境影響評価書には、その環境影響評価書の環境影響評価書が含まれていなかった」というのは、まさに私のディストピア的な悪夢の一つです。 ズヴィ・モウショウィッツ：「そのシリーズが収束する限りは問題ない」 MidJourney による全身イメージスキャナー 人々はほぼ皆、画像生成や動画生成において OpenAI や Google などの他社に抜かれ、MidJourney は死んだものとして扱っていました。 しかし、彼らは再び復活しました。これが機能するなら、これは並外れて素晴らしいことです。 MidJourney（4 分間の動画）：新しい「MidJourney スキャナー」の技術的深掘り もし説明通り機能し、彼らが目標を達成できれば、これは必要な時に誰でも利用可能な全身イメージング技術となり、現在のすべての MRI 容量を圧倒するほどに、驚くべき詳細度で、極めて低い限界コストで実現されるでしょう。 FDA Delenda Est（彼らは議論中ですが、うまくいっても時間がかかるため）、まずは 2027 年後半から、ホットタブの中でスキャンを受けられるスパでの展開を開始します。現在、プロトタイプではスキャン完了に 20 分かかりますが、これを 60 秒まで短縮することを目指しています。 vittorio: これは実際に信じられないほど素晴らしいです 1 時間もの MRI チューブの中で過ごす必要もなく、放射線も病院も不要で、2,000 ドルの請求書も発生しない、60 秒で完了する全身超音波スキャナーです。 間もなく、あなたは健康スパに立ち寄り、コーヒーを注文し、ポッドに入り、体の 3D マップを持って歩き出すだけになるでしょう。 未来がいよいよ本格的に始まろうとしています。 更新情報はここに掲載されます。詳細の要約はこちらにあります。 Sholto Douglas（Anthropic）: 広く展開されれば、これは米国の医療システムを少なくとも MJ のこれまでの利益の 100 倍分節約するでしょうと私は確信します。 これは、David のような人物が、世界の他の地域の人々と比べていかに資本配分を優れているかを示す素晴らしい例です。 AI ブームは、技術ツリーをどれほど速く登れるかを理解し、非常に大きな夢を見る世代に力を与えるはずです。驚くべき成果が期待されます。 Midjourney のダイソン球体はいつですか？ roon (OpenAI): AI ブームの悲しい点は、RSI（自己複製知能）への道具的収束を除けば、すべてが気晴らしに感じられることだ Sholto Douglas (Anthropic): そうだね 😕 私は同時にこの二つの感情を抱いている。これは本当に素晴らしいことで、誰もが喜ぶべきことだが、究極的には脇役のようにも思える。 紹介 OpenRouter は、新しい Fusion API を使って Fable に勝てると主張している。彼らを信じることはできない。その理由の一つは、こうした場所でのベンチマークを信頼していないからだ。特に、Opus 4.8 インスタンス 2 つの『自己融合』でそれができるという点には懐疑的だ。Teortaxes は、彼らが常に Opus 4.8 を審査役として呼び出し、その分を請求していると指摘している。 GLM-5.2 は、Opus 4.7 と Opus 4.8 の中間レベルでエージェント型コーディングが可能となる、オープンウェイトのフロンティア知能として位置づけられている。 Zai_org: テックブログ：http://z.ai/blog/glm-5.2 重みデータ：http://huggingface.co/zai-org/GLM-5.2 API ドキュメント：http://docs.z.ai/guides/llm/glm-5.2 コーディング用

AI #173：AIの一時停止

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト