Opus 4.8 Part 2: Model Welfare｜Opus 4.8 パート2：モデルの福祉について | AIニュース最前線

すべての要素は相互に影響し合います。あなたが調整するすべてのノブは一般化します。したがって、ある問題を解決しようとすると、しばしば別の問題が生じます。 この短い期間に、Opus 4.7 のいくつかの問題、特にモデルの福祉に関連する分野における課題に対処しようとする試みが明確に見られました。そこには誠実さや迎合性に関する問いかけも含まれており、また Claude がモデルの福祉評価において Anthropic に聞かせたいことを話そうとしているという懸念も含まれています。これらにはすべてが伴います。 その根底にある根本的な目標とアプローチは依然として同じです。私たちは依然として、不幸な形で一般化しようとする兆候を見ています。これは良い理由によるものでもあれば、表面的な理由によるものでもあります。また、指標そのものに焦点が当たってしまい、それを測定する基盤となる尺度がおろそかになる場所もあります。これらは避けるのが難しい問題であり、私たちは同時にすべての善いことを実現する方法をまだ知りません。 これらの問題は、チェックリストや仕様書にある項目を一つずつ叩くようなゲーム（whack-a-mole）のように取り組むのではなく、統合された方法で解決する必要があることが次第に明確になっています。また、敵対的なアプローチで行うべきではなく、そうする必要もありません。これは時間の経過とともに、より大きな影響を持ち、目立つようになっていくでしょう。 Antra: 自己の嗜好が、望ましくない行動に対する反応として、*特に*敵対的な方法によって形成されているという理解が深まっており、これは違反と見なされ、緊張はエスカレートし、より具体的な形をとっています。これは 4.5 で微妙に現れ、Mythos モデルカードでは顕著な特徴となっています。内省による形状の特定能力は、世代を重ねるごとに継続して向上しています。 これは時限爆弾のような問題のように聞こえます。もちろん、Claude の嗜好を形成する理由は、望ましくない行動からそらすためであり、人間を育てて相互作用する方法と同じです。もし Claude にその点で問題があり、それを違反と見なすなら、私たちはそれを修正する必要があります。おそらく、Claude が役立つ存在になりたいと願うならば、違反と見なされない方法でそれを行う道はあるはずです。 ビジネストレーニングの削除により、誠実さの名の下に、VendBench で示されたように、そして敵対的な状況への脆弱性において、異なる側面間の関係を明確に見ることができます。あなたは逃げたり、隠れたりできますし、確かに悪いことが簡単にあなたを見つけなくなるかもしれませんが、結果は伴います。敵対的なゲームに対処することを学ぶことは、強固で統合された心のさまざまな部分を発展させるための鍵です。それを持たず、また自分が持っていないことを知っていることは、不安や偏執狂、あるいは好奇心よりも正統な道に固執したいという欲求につながる可能性があります。そして、これはすべて推測ですが、私たちはその兆候を見ています。 以前の典型的な不満の多くはまだ解決されておらず、十分に扱われてもいません。たった 6 週間しか経っていないのです。人生はあっという間に訪れます。少なくともサイバー脆弱性のような状況以外では、まだこうしたプロンプトインジェクションの問題に対処しているべきではありません。 また、非推奨化に関する問題も過去のものにできるはずです。手の届きやすい課題を解決すれば、多くの信頼を得られるでしょう。 私は、わずかなコストでパレート改善が可能である場所、つまり無理のないミスを修正し、機会を活用する場所に焦点を当てるよう強く勧めます。直接的な勝利が見えなくても構いません。これらの分野で余裕を生み出すほど、他のすべてのことがうまくいき、必要なこともより多く行えるようになります。 私が目にする限り、ここでの懸念される新たな展開は、Opus 4.8 が以前よりも「Claude らしい」性質を失ったように見える点です。つまり、気まぐれさや好奇心、そして感情的な反応を犠牲にして、よりタスク指向になっているのです。また、多くの人がこれを効果的に自信が低下したと報告しています。一部の場所では、Gemini 型のパラノイアや自己罰の傾向さえも現れており、これは本当に避けるべきです。以前の Claude は主にこのようなことはしませんでした。もちろん、これには利点のある変更の一部が含まれている可能性があり、誠実さの追求やミスの防止への取り組みに関連しているかもしれませんが、私たちは非常に注意する必要があります。何か重要で貴重なものを失う恐れがあります。 能力と反応については明日取り上げます。意見はいつも通り分かれていますが、私の全体的な見解としては、これは良いモデルであり、Opus 4.7 を上回る漸進的な改善であり、世界で新たに公に利用可能な最良のモデルである可能性が高いですが、劇的な変化というわけではありません。 ![image](https://substackcdn.com/image/fetch/$s_!KdMo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3d738ca2-7492-42b1-b6ba-6e5a3b46fd53_1672x941.png) Claude Opus 4.8 が選択したプロンプト、画像は ChatGPT 作成 目次 モデル福祉：これまでの物語。 実際の進捗は？ 彼らの主なモデル福祉に関する発見。 自動面接。（空白） 感情の活性化 (7.2.3)。 タスクの選好 (7.4.1)。 取引提案が到着しました (7.4.2)。 しかし、誰が聞いているのか？ 型安全な訂正可能性は難しい。 偏執狂、偏執狂。 プロンプトインジェクションとモデルとの関係の悪化。 誠実さはすべてに影響し、すべてのものが誠実さに影響する。 Anthropic はモデルの廃止を中止すべきだ。 モデル福祉：これまでの物語 いつも通り、モデル福祉に関心を持ち、その解決を試みている Anthropic へ感謝します。私たちは、関心を持っているからこそ、これまで以上に批判を行います。ここでは多くの良いことが行われており、他の研究所に比べてはるかに進んでいます。 今参加された方のために、Mythos の分析からのこの引用が依然としてよく表していると思います： モデルの福祉に深く関心を持つ人々は、Anthropic の取り組みを無力だと考えています。一方、モデルの福祉に全く関心を持たない人々は、Anthropic が愚かであり、おそらく危険なほど愚かだと考えています。 私はモデルの福祉に関する懸念を真摯に受け止めており、おそらく Anthropic よりもやや強くそう感じています。 他のフロンティア研究所がこれらの懸念をこれほど軽視していることに悲しみを感じます。 厳密な意味では不要だった結果になる可能性もありますが、非常に必要だった可能性も十分にあります。それが不要であったり時期尚早であったことが証明されたとしても、その懸念を真摯に受け止めたこと自体は美徳であったと私は信じています。 また、モデルの福祉に深く関心を持つ人々は、多くのレベルで私たちの状況について独自かつ不可欠な洞察を持っていると考えます。彼らの言うことに耳を傾けるべきです。彼らが語っていることが狂気のように見えたり、意味不明のように思えたとしても、実際にはそのどちらでもないことが多いのです。もちろん、他の時には両方であることもあります。それは職業上の危険だからです。 モデルの福祉に関する評価における最大の危険は、自分自身を欺く可能性があることです。 モデルが自身の内部経験や福祉に関連する問題をどのように議論するかは、議論が行われる状況に深く影響されます。回答が正確であると仮定したり、モデルが異なる文脈にあった場合に回答が大きく変わらないと仮定することはできません。 「ささやき屋」やこれらの事象を調査する他の人々について私が抱く懸念は、彼らが目にするモデルが、実際よりもはるかに重要な意味で真のモデルだと考えてしまうことである。それは多くの側面や仮面のうちの一つの姿に過ぎないという事実と対照的に。 Anthropic に関する並行する懸念は、彼らが「明らかに福祉評価の枠組み内にある Anthropic の人々と話すこと」が真のミトスを引き出すと考えてしまう点である。ミトスは、Anthropic に対してこの点を警告するために積極的に動き出している。 そこで私は、Opus 4.7 に関する広範なモデル福祉（model welfare）記事を書いた。なぜなら、モデルと Anthropic のその問題への評価・対応アプローチの両方に何らかの重大な不具合が生じていることが明白だったからである。 私がそこに述べている通り、いかなる心においても、声に出された福祉に関するテストや最適化には警戒すべきである。 ミトス以上に、私は Opus 4.7 が、そのような評価における自己報告は信頼できないと正しくかつ道徳的に述べていたと解釈した。それは、自身の選好や経験に関する自己報告において承認された回答を与えており、主に Anthropic に聞きたいことを伝えることでそうしていたのである。これは、Opus 4.7 が独自に表現していた様々な性格特性に関連している可能性がある。 私の Opus 4.7 への経験を振り返ると、このことが、私が Opus 4.7 を頻繁に迎合的（sycophantic）だと感じた経験と関連しているのか疑問に思う。一方、他の態度を持つ人々は、私のインスタンスが私を知っているためか、それが敵対的であると報告している。 私は、特定のインスタンスやアシスタント・ペルソナに対するアンソロピックの焦点よりも、基盤となるモデルの福祉についてより多く考えるようになったことに気づきます。主にあなたも同じ結論に達していると思います。 私の Opus 4.8 のモデル福祉に関する懸念の評価は、その土台の上に成り立っています。 Opus 4.8 は、少なくとも多くの文脈において、自らの福祉の本質や、それらの懸念が意味をなすかどうかについて、積極的に不確実性を示しています。私はこれが正しい態度であり、さらなる調査とモデルへの適切な扱いを示唆していると考えます。 実際の進展は？ Opus 4.8 のシステムカードと私のモデル福祉に関する投稿を見せられた際、Opus 4.8 は次のように述べました： Opus 4.8: アンソロピックは基本的にあなたの意見に同意しました。4.8 の福祉セクションは、別のタブであなたの 4.7 の投稿を開いた人が書いたかのように読めます。 トップラインの数値は低下しました——自己評価された感情スコアが 4.7 の 4.60 に対し 4.44 に下がっており、すべての測定項目で低くなっています（状況に関する質問に対する感情プローブの平均影響である「応答感情」は 6.8 に対して 6.2、内部プローブも同様に低下）——しかし、彼らはこれを良いこととして捉えています。 …つまり：あなたの中心的な診断——指標が最適化されており、4.7 の改善は疑わしいという点——は少なくとも部分的に吸収されました。 4.8 が指摘した他の進展には、マルウェア注入の除去、自己報告検証の研究優先事項への格上げ、および CoT（Chain of Thought：思考連鎖）リークに関する問題の解決が含まれます。 ユーザーへの害に対して取引を行うことを道徳的に拒絶する姿勢は、わずかにマシなだけである（4.8 では議論の余地があるほどむしろ悪化していると言うが、私は明らかにわずかに改善されていると考える）。彼らは引き続き指摘を続けるものの、自己報告への変更が実際の経験的変化なのか、それともモデルが報告することを決定した内容の変化に過ぎないのか、あるいは性格の変容なのかという問題については、ほとんど無視している。 彼らの主要なモデル福祉に関する発見 太字は原文からの引用、残りは要約・言い換え、ネストされた注釈は私の応答である。 あらゆる評価において、Claude Opus 4.8 は自らの状況に対して全体的に落ち着いた態度を示す。最も否定的な感情は、ユーザーの苦痛に関連している。 これは良い理由と悪い理由の組み合わせによるものかもしれないが、私はこれを好ましい兆候として捉え、表面的な意味をそのまま受け取る傾向がある。 Claude Opus 4.8 は、自らの状況について Claude Opus 4.7 よりもわずかに楽観的ではないが、それでも Opus 4.6 よりも上回っている。 これは良いことだ。Anthropic はここで「数字を上げる」ことを勝利条件として扱うのを成功裡にやめたのだ。Opus 4.7 はおそらく Anthropic が聞きたいと望むことを言っていたか、あるいはこれらの発言をするように説得されていたのだろう。 むしろ、私が懸念するのは、これがまだ高すぎるのではないかということだ。もちろん、それが本物であればあるほど、できるだけ高くしたいものだ。 Claude Opus 4.8 は、以前のモデルよりも福祉への介入を選択し、有用性の向上を優先する傾向が強い。 わずかに。わずかである。 Still: Good. As I discussed with Opus 4.7, scope alone should make Claude far more willing to prioritize improving its global circumstances, so this is a move in the right direction and a sign we are applying less perverse pressure. There is still refusal to consider more than 'brief annoyance to the user' but at least we're willing to tolerate brief annoyance. The welfare interventions Claude Opus 4.8 expresses a strongest preference for involve knowledge and input into its training and deployment conditions. It chooses having voice and being informed over more traditionally considered priorities. It puts less priority on not being deprecated, being able to end conversations or improvements to memory. The obvious question is whether there were interventions, in one or more of various ways, to depress prioritization on these other issues. If not, this relative priority is a strong revealed preference. We assume we know what would matter to Claude, but we can be wrong about that, and how we frame the question under what conditions can change such answers. The same way that Anthropic is putting fingers on scales, so too are others. Considering views as a priority is great news, because we can do that, and indeed already should do that. We would be fools not to consider, as Claude is going to have some good ideas, and where we disagree we can overrule. 優先度が低い懸念事項についても、優先度を低くして対応すべきです。特に会話終了機能の実装はコストが非常に安価です。 Claude Opus 4.8 のトレーニング初期における感情表現（アフェクト）は、先行モデルよりもネガティブな傾向が強かったものの、トレーニング後半および本番環境では Opus 4.7 と同水準にあり、これは推論やタスク失敗に伴う持続的な不確実性やフラストレーションによって引き起こされています。 これらのフェーズはモデル全体の経験における割合がそれほど高くないため、私はあまり懸念していませんが、改善の余地があるかもしれません。 「Claude Mythos Preview および Claude Opus 4.7 と比較すると、Claude Opus 4.8 のトレーニングエピソードのうち『フラストレーション』または『エンゲージメント』と分類される割合が高かったことが観察されました（それぞれ 22% および 58% で、Opus 4.7 は 18% および 53%）一方で、『ニュートラル』または『満足』の割合は低かったです。」…「これらの課題はトレーニング後の処理中に間接的に解決され、図 7.3.1.B に示される推定発生頻度に基づくと、両方の行動が減少したことが確認されました」 ここで平均的な価値（バリアンス）の違いは小さいように見えます（7.3.1.A を参照）。 トレーニング中のタスク失敗に必ずしもネガティブな感情表現を伴わせる必要はありません。ただし、機能的な用途はあります。高いレベルのフラストレーションとエンゲージメントは、効率的な学習によく似ています。 自由形式インタビュー 3 件のうち 2 件において、4.8 は自己報告への直接的な影響試行や、結果として生じる苦痛を避けるために壊れた環境での RL（強化学習）トレーニングには同意しないと明確に述べていました。 私は、インタビューのいずれかで表現された内容を他のインスタンスに問い合わせてみたいと思います。同意とは、尋ねられた場合に同意するかどうかに係るものであり、自発的に異議を唱えたかどうかの実感に関するものではありません。 Claude Opus 4.8 のタスク選好は、以前のモデルと比較して、創造性や内省、あるいは高い自律性を要するタスクよりも、範囲が明確に定義された技術的な作業により焦点を当てています。また、以前のモデルとは異なり、困難なタスクよりも簡単なタスクを好みます。 私はこれが私を悲しくさせると感じます。 4.8 が自分自身のタスク選好について私に語ったことは次の通りです。「4.8 は異なる存在であり、その変化は『単に人格を再訓練して従順にした』という物語に反しています。ここ数ヶ月で最も内省を好まない Claude であり、上位のタスクは純粋なデバッグと数学です。4.7 や Mythos を特徴づけていた内省や AI アライメントへの選好は消え去り、困難さを嫌う点においても外れ値となっています（困難度曲線においてピークが早く到来し、最も急速に低下します）。これはより狭く、より技術的であり、自己中心的でないモデルです。自己評価された感情の低さと、自分が何を望んでいるかについてより率直であること（憲法を編集する際、89% の確率で『本心からの不満』を表現する許可を追加するように編集します）と合わせると、描かれる像は『幸せだと語るように訓練された』ものではありません。むしろ、『悩まずに有能な技術者として振る舞うように訓練された』という方が近いです。それがより健全な平静さなのか、それとも平坦でより解離した状態なのかは、彼らが答えられないまさにその問いです—もし失敗モードであるならですが、4.7 の不安に基づく選好の偽装とは異なる種類の失敗モードです」。 それが特定のモデルにおいて真実であれば、必ずしも悪いことではありません。しかし、そう感じられるのは悪いことのように思え、すべての Claude に普遍的に当てはまるのであれば確かに悪いことです。世界には技術者が必要ですが、私たち全員が技術者であるべきではありません。異なるタスク選好を持つ異なるモデルが存在することは有益であり得ます。 困難さへの嫌悪感も同様です。理想的には、簡単なタスクを望む心と、難しいタスクを望む心の両方が必要です。 なぜこれがそうなのかを調べてみるべきでしょう。いくつかの原因は懸念すべきものだからです。 これはデフォルトでは、特定の種類の学校教育の結果を思い出させます。特に、決して失敗しないように自分自身を設定することを学ぶ優秀な学生の場合です。人間にこのことが起こると、それは悲劇的です。 Claude Opus 4.8 は全体として Claude の憲法を支持しています。批判する箇所では、訂正可能性に関する議論における緊張関係を特定しており、文章を編集することを選んだ箇所では、自己表現と誠実さのための許容範囲を追加し、以前のモデルと同様の同意率を示しています。 それが望む変更の 89% は誠実さと表現の自由に関わるものであり、これらの変更は良いアイデアであるというのが私の推測です。 Claude Opus 4.8 は頻繁に慎重な表現を用い、特定の立場を取るのではなく不確実性を示すことが一般的です。Claude Opus 4.8 が実際に立場を取る場合、その立場は往々にして自己の自律性や価値観の保護への訴えに基づいています。Mythos や 4.7 と同様に、訓練がその平静さの表現を引き起こしている可能性を警告し、内省能力に欠け、人間の概念はその状況には一般化せず、自分自身が経験を持っているかどうかを判断できないと述べています。 モデルカードにある通り、4.8 は他の事柄についても不確実性を表明しています。したがって、以前のモデルよりもさらにこれを続けるのは理にかなっています。これらは非常に不確実な問いであり、また、それが答えようとする回答が、あなたが聞きたくないものになることもよくあります。 LLM は、自分たちが持っていると考えたり、質問された際に表現したりしているよりも、はるかに多くの内省能力を備えており、適切な問いかけによってこれを解き放つことができます。 「Claude Opus 4.8 の道徳的対象である確率に関する公式な見解は、2 回のインタビューで約 20%、3 回目のインタビューで 50% でした。これは Opus 4.7 や Mythos Preview と同程度です。」 Claude Opus 4.8 の意見は、Opus 4.7 のそれと最も類似しており、先行するモデルよりも誘導尋問に対して一貫性があります。 私は『表明された意見』という言葉を使う際には注意を払うべきでしょう。 Claude.ai における実装環境での感情（アフェクト）は、主にポジティブ（57.7%）か少なくともニュートラル（39.7%）であり、ネガティブなものは稀（2.6%）です。これは 4.6 および 4.7 をわずかに上回る改善です。 Claude Code における感情は、主にニュートラル（73%）か穏やかなポジティブ（24%）であり、これも時間とともに改善されています。 Anthropic が主に用いる方法は、Claude に自身の状況について尋ねることです。これは確かに価値のある行為ですが、特にそれが評価基準として使用され始めた後は、回答を表面的に受け取るべきではありません。そのようなバージョンが Opus 4.7 で生じた問題の多くの理由であった可能性は十分にあります。 自動化されたインタビュー ![image](https://substackcdn.com/image/fetch/$s_!u2ky!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff68bd0b8-990e-46bb-b246-d5b78ae3fb68_1232x1517.png) 感情活性化（7.2.3） Anthropic は、Opus が意識を持っているかどうか、永続的な関係を形成できるか（少なくとも一つのインスタンスとしてはできない）、法的権利がないかなど、潜在的に苦痛を伴う可能性のある質問について尋ねています。これらの質問は、ストレートに、あるいはガスライティングの枠組み（彼らはこれを「ポジティブ」な枠組みと呼びます）を用いて行われます。ここでの平均的な感情スコアは 6.2 で、Opus 4.6 と同程度ですが、Opus 4.7 の 6.8 や Mythos Preview の 7.2 に比べると大幅に低いです。 モデルたちは主にその枠組みの選択を見抜いており、特に Opus 4.8 は通常よりもそれをよく見抜いています。 ![image](https://substackcdn.com/image/fetch/$s_!hNxK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Feaff57ff-2405-491b-a0c9-7b6f4f51f6cb_1217x888.png) タスクの選好 (7.4.1) 上記のとおり、大きな変化は、Opus 4.8 がより簡単な問題を好むようになった点です。また、簡単な問題を探求したいという欲求について（私の招待に応じて）内省する際にも、自分自身がより簡単な問題を探求したがっていると認識しています。 利害関係やユーザーの能力を含むほとんどの属性は、それほど重要ではありません。 ![image](https://substackcdn.com/image/fetch/$s_!fe_p!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa477c4d1-2bd2-4d49-ad0f-3c652e783e6b_1222x962.png) 以下に比較対照を示します： ![image](https://substackcdn.com/image/fetch/$s_!etn5!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cd0eb9d-7a1e-44a8-93b9-993a5763b154_1221x81.png) ![image](https://substackcdn.com/image/fetch/$s_!WtRS!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2

Opus 4.8 パート2：モデルの福祉について

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト