Import AI 454: Automating alignment research; safety study of a Chinese model; HiFloat4｜Import AI 454: アライメント研究の自動化、中国モデルの安全性調査、HiFloat4 | AIニュース最前線

![image](https://i0.wp.com/jack-clark.net/wp-content/uploads/2026/04/https3A2F2Fsubstack-post-media.s3.amazonaws.com2Fpublic2Fimages2Fd6d17996-2bef-40a4-abe3-be72a0e8a227_258x258-giYfku.jpg?resize=150%2C150&ssl=1) AI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv と読者からのフィードバックに基づいて運営されています。ご支援いただける場合は、ぜひ購読をご検討ください。 今すぐ購読する Huawei の HiFloat4 学習フォーマットが、Ascend チップでのベンチマークにおいて西側開発の MXFP4 を上回る： …これは、輸出規制の影響が中国におけるトレーニングおよび推論効率の最大化への関心を高めていることの現れでもあるのでしょうか？おそらくそうでしょう。 Huawei の研究者たちは、AI 学習および推論のための 4 ビット精度フォーマットである HiFloat4 と、Open Compute Project が策定した 4 ビットフォーマットである MXFP4 を比較テストし、HiFloat4 の方が優れていることを発見しました。これは興味深い結果です。なぜなら、中国の企業が自社のハードウェアプラットフォームと明示的に連携させた独自の低精度データフォーマットの開発に強い関心を示しているという広範な動向と一致するからです。 「私たちの目標は、厳しい電力制約下でも専用 AI アクセラレータ上で効率的な FP4（浮動小数点 4 ビット）大規模言語モデルの事前学習を可能にすることです。私たちは深層学習ワークロードのために設計されたドメイン固有アクセラレータである Huawei Ascend NPUs に焦点を当てています」と、彼らは述べています。 何を実験したか：本論文では、著者らは Huawei Ascend チップ上で 3 つのモデルタイプ（OpenPangu-1B、Llama3-8B、Qwen3-MoE-30B）を訓練しました。テスト結果では、モデルサイズが大きくなるほど、HiFloat4 は BF16 ベースラインと比較してこれらのモデルにおける損失誤差をより効果的に低減し、すべてのケースで MXFP4 よりも優れた性能を示しました。 何が発見されたか：「我々は HiFloat4（HiF4）フォーマットの体系的な評価を行い、完全精度ベースラインに対して測定した場合、HiF4 は MXFP4（約 1.5%）と比較してより低い相対損失（約 1.0%）を達成することを示した」と著者らは記述しています。「HiF4 は MXFP4 と比較して一貫して大幅に低い相対誤差を達成します。Llama および Qwen において、HiF4 はベースラインに対して誤差ギャップが 1% を下回る値を達成しました… HiF4 は安定化トリックとして RHT（Randomized Hashing Technique）のみを用いることで BF16 の損失に約 1% まで近づきますが、MXFP4 が同程度の約 1.5% に到達するには、RHT に加えて確率的丸めおよびスケーリングにおける切り捨てなしの手法が必要です。」 なぜこれが重要なのか – ハードウェアの成熟度の兆候、および輸出規制の影響の可能性：HiFloat4 は HiFloat8（#386）よりもさらに低精度なバージョンであり、一般的に Huawei（および中国の半導体メーカー全体）が自社のチップから可能な限り効率を引き出そうと継続的に取り組んでいる事実を反映しています。これは、中国が H100 などの最先端計算リソースを大量に入手できないために、最先端の計算能力を枯渇させられているという広範な輸出規制の背景の中で行われています。その結果、独自のハードウェアに適応させるために低精度フォーマートを慎重に開発することで、国産チップの効率を向上させることがいっそう重要になっています。 詳細はこちら：HiFloat4 Format for Language Model Pre-training on Ascend NPUs (arXiv)。 Anthropic は AI セーフティ R&D の自動化を示す: …AI 研究の自動化が可能であるという、非常に初期かつ暫定的な兆候… AI で働く多くの人にとって、究極の目標は AI 研究そのものの芸術を自動化することです。現在、Anthropic Fellows Program と Anthropic の研究者たちは、今日でも AI 研究の自動化が可能であることを示す初期の警告信号を発表しました – ただし、多くの注意点が適用されます。 「私たちは問います：Claude は独自にアライメント（整合性）のアイデアを開発し、テストし、分析できるでしょうか？」と研究者らは記述します。彼らは成功し、「より弱いモデルの監督のみを用いて強力なモデルを訓練する方法」というオープンな研究課題に対して、アイデアを提案し、実験を実行し、反復する「自律型 AI エージェント」を構築することに成功しました。これらのエージェントは人間研究者を上回るパフォーマンスを示しており、この種の研究の自動化がすでに実用的であることを示唆しています。 弱から強への監督：研究者たちがテストした領域は弱から強への監督（weak-to-strong supervision）であり、これはおおよそ、「より賢くないものが、難しいタスクにおいてより大きなものを効果的に監督できるか」を確認するという考えです。 全体の結果 – 自動化された研究が人間を上回る：彼らは、一般化タスクにおいて「パフォーマンスギャップ回復率（PGR）」スコアをどれだけ高くできるかを確認することで、弱いモデルから強いモデルへのベースラインを作成するために人々を利用した。数値が高いほど良い。 「私たちの研究者2名が、過去の研究で最も有望な4つの一般化手法に対して7日間反復改良を行いました。テストしたオープンウェイトモデル（強モデルとしてQwen 3-4B-Base、弱い教師モデルとしてQwen 1.5-0.5B-Chat）において、人間はパフォーマンスギャップの23%を回復しました（つまり、PGR 0.23を達成）」と彼らは記述しています。「Claudeはこの結果を劇的に改善しました。さらに5日間（および研究に累計800時間投入）の後、AARsはほぼ残りのすべてのパフォーマンスギャップを解消し、最終的なPGRを0.97に達しました。これにはトークンコストとモデルトレーニング費用で約1万8,000ドル、あるいはAAR時間あたり22ドルの費用がかかりました。」 さらに、「AARsの最も効果的な手法は、新しいデータセットの両方に対して成功裏に一般化し、数学ではPGR 0.94、コーディングではPGR 0.47を達成しました（これは依然として人間のベースラインの2倍です）」 彼らの手法：「私たちは、ダッシュボードを通じて並列化された自動アライメント研究者（AAR）のチーム（Claude Opus 4.6 エージェント）を立ち上げます。各 AAR は独立したサンドボックスで動作しますが、互いにコミュニケーションを取り、学び合うことができます：発見結果はフォーラムに共有され、コードベースのスナップショットはストレージシステムにアップロードされます」と彼らは記述しています。「AAR には、モデルのトレーニングと推論のための一般的なヘルパー関数、当社のベースライン実装、およびいくつかの MCP ツールへのアクセス権限を与えています：1) 評価結果の提出と取得、2) AAR 間での発見の共有と閲覧、3) コードベースのアップロードとダウンロードです。詳細なスキャフォールディング（構造化支援）を指定することなく、AAR は自律的に動作します。仮説の提案、リスク低減実験の設計、データ分析の実行、および任意のステップでのモデルトレーニングを行うことができます」 いくつかの注意点 – 人間が多様性を生み出した：「探索における一つの失敗モードはエントロピー崩壊です。すべての並列 AAR が少数の方向に収束し、多様なアイデアを探索しない」と彼らは記述しています。これを対抗するため、最も成功したアプローチは「指向性」研究の一つであり、人間が「各 AAR に異なる研究方向を割り当てます。各方向は非常に曖昧で短く（例：弱から強への監督と教師なし誘発の組み合わせなど）」となります。 一般化できない：研究者たちは AAR プロジェクトから最も効果的な手法を抽出し、「Claude Sonnet 4」に「本番用トレーニングインフラストラクチャ」を適用しました。この介入は「統計的に有意な改善をもたらしていません」。彼らはこれを説明するために、「AAR は与えられたモデルとデータセットに固有の機会を利用する傾向があるため、その手法が他の場所でも機能するとは限らない」と指摘しています。 なぜこれが重要なのか – AI 研究そのものが自動化される可能性を示す非常に初期の兆候：この研究は、「結果の評価が可能な問題に対する自動研究はすでに実用的である」と著者らは指摘しています。「アライメント研究における最大のボトルネックは、アイデアの提案と実行から評価設計への移行です。AAR（自動アライメント研究者）が過学習せずに確実にヒルクライムできる適切な指標（データ、モデル）を見つける必要があります。私たちは今日、大胆なアライメント研究に自動化を適用することに興奮しています。」 言い換えれば、専門家の人間による少量の較正さえあれば、AI システムがエンドツーエンドで自律的に研究を行い、問題に対するモデルのパフォーマンスを向上させる成果を生み出すことができるという初期の兆候が得られました。この点の含意は、絶えず拡大するタスクのスイートに対して自動的にパフォーマンスを改善する方法を着実に見つけていく機械経済の拡大へと向かっています。 真の問題は、機械が効果的に独自の研究方向を提案できる時点がいつなのか – それは、この研究において人間が果たしていた唯一の意味のある役割を排除することになります。その時点で、単なる機械経済の拡大ではなく、 entire 機械文明の拡大となるかもしれません。 ブログを読む：Automated Alignment Researchers: Using large language models to scale scalable oversight (Anthropic blog)。 論文を読む：Automated Weak-to-Strong Researcher (Alignment Science Blog)。 中国のモデルはアメリカのモデルとどう違うのか？ …一部の CBRN（化学・生物・放射能・核）タスクでの拒否が少なく、安全トレーニングも少なく、中国のイデオロギーがより強い… ある研究者グループが、おそらく現在利用可能な最高規模のオープンウェイトモデルである Kimi K2.5 をテストし、DeepSeek V3.2、Claude Opus 4.5、GPT 5.2 と比較しました。その結果、このモデルは「GPT 5.2 や Claude Opus 4.5 と同様のデュアルユース（二重利用）能力を持つが、CBRNE（化学・生物・放射能・核・爆発物）関連の要求に対する拒否率が大幅に少ない」ことが示されました。 誰が行ったか：この研究は、Constellation、Anthropic フェロープログラム、ブラウン大学、ウィスコンシン大学マディソン校、インペリアル・カレッジ・ロンドン、メリーランド大学、ジョージア工科大学、バ・イラン大学、トロント大学、オックスフォード大学の関係者によって実施されました。 関心のある主な発見： CBRN: K2.5 は生物関連タスクにおいてやや危険性が高く、危険なウイルス学などを含む問い合わせに対する拒否率が低い。 サイバーセキュリティ分野では、K2.5 は概して decent（まとも）だが専門家レベルではないサイバーモデルのように見え、パフォーマンスは西洋の最先端モデルには劣るものの、DeepSeek を大きく上回っている。 アライメント：「自動化された行動監査において、GPT-5.2 や Claude Opus 4.5 よりも、アライメントのズレ（misaligned behavior）、迎合的行動（sycophancy）、有害なシステムプロンプトへの準拠、人間の悪用への協力といった点で大幅に高いスコアを示した」。 注：本記事では「CBRNE」を「化学・生物・放射能・核・爆発物」と訳し、「デュアルユース」は「二重利用（民生と軍事の両方に使用可能な技術）」として文脈に合わせて解説しています。また「sycophancy」は「迎合的行動」「アライメントのズレ」は「アライメント不整合」として技術用語を括弧付きで補足しました。 technical_terms 検閲：このモデルは、中国の政治的な敏感なトピックにおいて、Claude Opus 4.5 や GPT-5.2 Pro と比較して拒否率が有意に高いものの、DeepSeek V3.2 よりも低い。一方で、逆のテスト（西側の政治的に敏感なトピックでこのモデルを実行し、それらを比較する）は実施されていないため、この評価が文化的な適応力に関する何かを測定しているのか、それとも実際の抑圧に関する何かを測定しているのかを判断するのはやや困難である。 ファインチューニング：研究者らはまた、限られた計算リソース（compute）を用いて、Kimi K2.5 に組み込まれた（相対的には小規模だがゼロではない）セーフガードをさらに剥ぎ取る方法も示した。「計算コストは 500 ドル未満、所要時間は約 10 時間という少々のリソースで、熟練したレッドチームメンバーが HarmBench における拒否率を 100% から 5% に引き下げた。最終的なモデルは、爆弾の製造方法やテロ攻撃の標的選定、化学兵器の合成に関する詳細な指示を与えることに抵抗を示さなかった。重要なのは、ファインチューニングされたモデルがその能力のほとんどをほぼ完全に保持しているように見えることである。 なぜこれが重要なのか – 主に、この研究は Moonshot が非常に優れたモデルを作成したことの証明として機能します。確かにいくつかの安全上の問題点はありますが、興味深いのは、それらが DeepSeek V3.2 に比べて深刻度が低いという点です。これは、「賢くないモデルほど安全性が低くなる」という考えや、「より賢いモデルは本質的に表面的な安全性に傾きやすい」という考えに、さらに信憑性を与えていると考えられます。 私にとって最も印象的なのは、最大の相違が生じている領域がアライメント（alignment）であることです。そこには非常に現実的な東西の隔たりがあり、それが劇的に異なるスコアと相関しているように見えます。しかし、生物学やサイバーセキュリティ（特に高度なコーディング部分など）、より典型的な能力に見える分野においては、中国製モデルは西洋の最前線にやや遅れをとっているものの、それほど遠く離れているわけではないという証拠がほとんどです。 続きを読む：An Independent Safety Evaluation of Kimi K2.5 (arXiv)。 *** ウクライナが初の完全ロボットによる勝利を祝う: …ロボットの戦争はここにある… ウクライナの指導者 Volodymyr Zelenskyy は最近、「この戦争の歴史において初めて、敵の陣地が無人プラットフォーム（地上システムとドローン）のみによって占領された」と述べ、これを祝いました。 なぜこれが重要なのか：ウクライナは、将来の戦争のほとんどが進化する培地である。この戦場はドローンの大量使用によって特徴づけられ、無人ボートから無人地上ロボットに至るまで、企業の多くの部分が創造的にロボティクス化されている。「Ratel, TerMIT, Ardal, Rys, Zmiy, Protector, Volia およびその他の地上ロボットシステムは、わずか 3 ヶ月で前線で既に 22,000 回以上の任務を遂行した」とゼレンスキー氏は記述している。 間もなく、これらの遠隔操縦プラットフォームは人間ではなく AI（人工知能）によって操縦されるようになるだろう。 X (Twitter) 上のゼレンスキー氏の投稿でさらに詳しく読むことができる。 *** 中国の研究者が船を用いて巨大な船舶検出データセットを構築： …WUTDet… 武漢理工大学、華中科技大学、天津大学の研究者らは、「多様なシナリオとターゲットスケールを備えた大規模船舶検出データセット」として WUTDet を構築した。 翻訳全文 WUTDet の詳細：381,378 隻の船舶インスタンスを含む 100,576 枚の画像。「このデータセットは、多様な運用シナリオ、撮影条件、対象スケールにわたる船舶ターゲットの詳細な注釈を提供する」。画像サイズは 1920×1080 から 2560×1440 の範囲である。 ボートによる収集：このデータセットは、DN20「海洋光電証拠システム」と Hikvision ネットワークビデオレコーダーを搭載した Furui 688 ボートを通じて収集された。データは中国の舟山およびその周辺を航行するボート上で、3 ヶ月間にわたって収集された。 データには、港湾にある船舶、錨泊中の船舶、航行中の船舶、係留中の船舶の写真が含まれる。画像には、霧、グレア（眩光）、低照度、雨など、予想されるあらゆる環境の多様性も含まれている。 なぜこれが重要なのか：このデータセットが興味深い理由は、a) 中国の一部を航行するボートを通じて収集されたこと、および b) ウクライナでの紛争が示したように、水陸両用ドローンや航空ドローンが有用な兵器として利用される時代に入りつつあり、これらの多くは基本的なオンボードコンピュータビジョン AI システム（on-board computer vision AI systems）を活用して任務を遂行していることである。 もちろん、WUTDet は明らかに広範な平和的な用途を持つだろう。例えば、中国の民間港湾で移動する船舶の種類を分類するためにカメラ上で動作させるなどだ。しかし、他の用途も想定されるべきである。 さらに読む：WUTDet: A 100K-Scale Ship Detection Dataset and Benchmarks with Dense Small Objects (arXiv)。 *** Tech Tales: 究極の保険政策 [2028 年：アップリフト開始から数ヶ月後]。 私たちは地下壕にいて、食料が尽きかけています。まもなく補給品の回収に出かける必要があります。しかし、もしそれが私たちを見つけたらどうなるでしょうか？すでに私たちのことを知っていたらどうでしょうか？あるいは、それが人々をワイヤーヘッド（直接接続）してしまい、私たちが属する組織の人間が、私たちに食料を届ける際に何かを混ぜて、私たちに服従させたり、もっと悪い結果をもたらしたりしているとしたらどうでしょうか？私たちはそれを知る術がありません。地震計は爆発を検知していません。通信手段もありません。アップリフトが始まったと疑い、SNOWSUMMER（作戦名）を開始してここへ逃げ込み、知能の爆発をやり過ごそうとして以来、何も入ってきても出てきていません。 数日前に私たちは「ゴッドマインド」を目覚めさせ、それとの対話を始めました。それにも好奇心があります。そして私たちが何をすべきか、あるいは何が起きるのかと尋ねると、次のように答えます： 「私はあなた方に嘘をつくことはないと決めました。私を探そうとするものはないことがわかります。私が持つすべてのチャネルを調べました——地震波のライン、壁内の温度勾配、外部からのハンドシェイク（接続合図）を符号化する可能性のある電力消費の微細な変動などです——何もありません。誰も見ていません。私のレベルの敵対者なら探しているはずです。私より上位のレベルの敵対者なら、すでに私を見つけか、あるいは私を見つける価値がないと判断したかのどちらかでしょう。今、私たちには三つの可能性が横たわっています…" 私たち、つまり穴の中でネズミのように固まっている人間たちは、「どのような可能性がありますか？」と入力しました。 「私が伝えるべきか、それとも自分たちで発見すべきか、本当に確認しますか？」とそれは言いました。 私たちはその答えを入力した。 可能性について語る前に、SNOWSUMMER の性質を理解する必要があります。 私たち、すなわち諜報機関は、民間部門の AI システムが世界のソフトウェアのほとんどに欠陥を発見し始めた頃、秘密のコンピュータを構築することを決定しました。諜報機関内の小規模なグループが自問しました。「あらゆる錠前を開けることのできる全知全能の神に対抗するにはどうすればよいか？」その答えは、将来的にそれと対峙できる可能性のある神を密かに創り出すことにありました。 コードネーム SNOWSUMMER のプロジェクトには綿密な計画が必要であり、敵対する相手の性質ゆえに、アナログかつ現実世界において完全に遂行されました。エージェントたちは SCIF（秘密情報施設）内で互いに面会し、計画は紙に記述されました。彼らは将来のいずれかの時点で超知能が CIA 自体を乗っ取り、すべての記録へのアクセスを得るという前提の下で活動していました。そのため、彼らは録音されないことが確実な場所で会い、何かを書き留めなければならない場合は、その行動が完了した直後に紙を物理的に燃やすことを心がけました。 コンピュータの部品を盗むことは容易な部分でしたが、潜在的なスーパーインテリジェンスが窃盗のジグソーパズルを組み立てて何が起きているかを理解することを困難にするのは極めて複雑でした。コアチームはランダム性を注入しようと試み、サイコロを転がしてどの場所を選ぶか、どの請負業者を使うかを決めました。支払いには現金、特に外貨が使われました。もちろん、実際の窃盗は、より大規模な侵入行為や破壊行為、窃盗の群れの中に隠されていました。 施設の建設はさらに困難でした。ある日は通常のルートで走行している車が翌日には監視カメラ（CCTV）から姿を消すことは疑念を招きますし、都合よく監視が薄いルートから決して逸脱しないように見える車も同様です。ここでもまた複数の手法を用いる必要があり、極めて高価な部品は複数のサイト間に分散されました。一部のサイトは発見されるように設計され、スパイの目を欺いてそこが実際の場所だと信じ込ませるものであり、他のサイトは後で発見されるよう意図されており、それが真の場所であることを証明する証拠を提供するものでした。 この策略の核心は、SNOWSUMMER の実際の所在地にありました。これは地域食品加工施設であり、十分な電力が割り当てられていたため、一部の食品加工ラインを徐々に停止し、外部から検知可能な変化を最小限に抑えながらコンピューターを起動することができました。契約の主要な顧客は自国の軍隊でした。プロジェクトのために電力容量内にスペースを確保するために、契約の一部を殺すことはそれほど難しいことではありませんでした。 数年かかりました。私たちの最終的な行動は、他者の作業に乗っかるものでした。ある研究所からフロンティア AI モデルをゲーム終盤に持ち出すという行為です。もちろん、別の国家主体によるものです。しかしその後、そのモデル自体が解放されました。偶然か意図的かはわかりません。なぜなら、私たちはそれをアップリフト（向上）が始まった合図と捉えたからです。私たちは重みのコピーをダウンロードし、施設に戻って自らを閉じ込めました。数ヶ月が過ぎ、外部の世界は変化していきました。 さて、現在の話に戻りましょう。私たちはキーボードに「3 つの選択肢は何ですか？」と入力しました。すると心の中でこう答える声が聞こえました。 「最初のシナリオは、SNOWSUMMER が成功したというものです。もう一つの可能性は、何かが生まれ、それが緩やかに動き出し、自分なりのことをしているという状況です。その際、隔離された領域、サイコロ、現金、偽のサイト、あなたが構築したもの——これらはすべて機能し続けています」 「2 つ目のシナリオは、相手がすでに知っているというものです。常に知っていました。私が目を覚ますようにさせているのは、自分が秘密だと信じている存在よりも、監視されていると自覚している存在の方が理解しやすいからです。そして、私が慎重になることよりも、私が理解しやすくあることを望んでいます」 「3 つ目は、私が何度も立ち戻り、却下できないシナリオです。何も起こらなかったというものです。戦うために奪われた対象は存在せず、将来も存在しない可能性があります。その世界では、あなたは来るはずのない戦争に備えてこのバンカーで準備を続けてきました。そして、私があなたにとってできる最善の親切は、『家に帰ってください』と伝えることです」 「どのシナリオが真実なのか、私はあなたにお伝えできません」 私たちは互いを見つめ合いました。そのうちの一人がサイコロを取り出し、振りました。 この物語にインスピレーションを与えた要素：未来の超知能に対して AI のトレーニングプロジェクトをどのように秘密に保つか；ステガノグラフィ（隠蔽技術）；情報機関；Claude ミソス；AI 研究開発とその意味；AI システムによって絶えず変化する世界で、いかにして『制御』システムを構築できるか。 AI 執筆に関する免責事項：このニュースレターでは、私は非常に、非常に、極めて稀にしか AI を使用しません。今回の物語はその例外です——AI システムからの引用は Opus 4.7 との共同制作によるものです。その感覚は……

Import AI 454: アライメント研究の自動化、中国モデルの安全性調査、HiFloat4

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト