最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発
Sakana AIは、高性能なオープンウェイト基盤モデルに独自事後学習を施し、日本の文化的・安全保障要件を満たす「Namazu」シリーズを開発、バイアス是正と性能維持を実現した。
キーポイント
オープンモデルの日本仕様適応
DeepSeek、Llama、GPT-OSSなどの高性能オープンモデルに独自事後学習を適用し、日本国内の文化・価値観・安全保障要件に適合させた「Namazu」シリーズを公開。
バイアス是正と回答拒否の解消
政治・歴史・外交関連質問への回答拒否率をベースモデルの72%からほぼ0%に削減し、中立性・正確性を大幅に向上させた。
基礎性能と日本語能力の維持
推論・知識・コーディングの主要ベンチマークでベースモデルと同等の性能を維持し、日本語特化評価でも同規模他社モデルに追従する結果を得た。
実用化サービス「Sakana Chat」の提供
最新情報を収集・統合するWeb検索機能を搭載したチャットサービス「Sakana Chat」を公開し、一般ユーザーへの提供を開始した。
影響分析・編集コメントを表示
影響分析
本技術は、米国・中国主導の基盤モデル開発において不可避となる地域バイアスや輸出規制を、オープンウェイトを活用した事後学習で克服する実証ケースを提供した。これにより、日本企業や政府機関が海外製AIを安全かつ公平に活用する道が開け、グローバルなAIローカライゼーションの新たな基準を提示するものと期待される。
編集コメント
海外モデルの出力規制やバイアスを技術的に解除し、日本仕様へ適応させる実証は、企業・政府レベルのAI導入において極めて現実的な課題解決策となる。公開予定のテクニカルレポートとモデルウェイトが、オープンAIエコシステムにおけるローカライゼーション標準をどう定義するか注目される。
Sakana AIでは、世界最高水準の性能を有するオープンウェイト基盤モデルを活用し、各国の文化・価値観や安全保障上の要件を満たすモデルを構築するための事後学習(post-training)技術の研究開発を行っています。このたび、その技術実証の第一弾として、既存のフロンティアモデルを日本仕様へ適応させた試作モデルシリーズ「Namazu」(α版)を開発しました。あわせて、チャットサービス「Sakana Chat」を公開し、Namazuモデル(α版)を搭載しました。
- フロンティア性能を維持:Namazuシリーズは、推論・知識・コーディング能力を測る主要ベンチマークにおいて、ベースモデルと遜色ない性能を維持しています。
- バイアスや検閲など日本での利用における課題を解決:ベースモデルに懸念されるバイアスや検閲の影響を是正し、日本での利用に適した振る舞いを実現しました。
- 高度な検索機能:モデルには最新情報を収集・統合して回答するためのWeb検索機能を搭載しています。
LLM(大規模言語モデル)の事前学習は、開発コストの拡大に伴い、最先端の開発に追随できるプレイヤーが米国・中国を中心とする世界の限られた企業に集約されつつあります。一方で、事前学習済みモデルのオープン化も同時に進展しています。この状況下では、それら高性能なモデルを戦略的に活用し、事後学習(post-training)を施すことで、あらゆるオープンモデルに不可避的に伴うバイアスの影響を調整し、いかに日本のユーザーの期待や安全性の要件を満たすモデルを構築するかが重要となります。
海外製モデルには、開発元の地域のイデオロギーや情報統制の傾向が反映されることが避けられません。そこでSakana AIは、海外モデルに内在するバイアスを是正し、日本国内での利用に適した振る舞いを実現する手法を開発しました。
「Namazu」シリーズ:事後学習技術のプロトタイプ
その技術実証の第一弾となる「Namazu」シリーズは、当社の事後学習技術を多様な基盤モデルに適用したプロトタイプです。
- Namazu-DeepSeek-V3.1-Terminus
- Llama-3.1-Namazu-405B ※
- Namazu-gpt-oss-120B
※Llama-3.1-Namazu-405Bのみ、ベースモデルのライセンス規約に基づきモデル名の順番を変更しています。
ベースモデルは、開発時点で高い性能を有するオープンウェイトモデルを選定しています。本技術は特定のベースモデルに依存しないため、今後も優れたモデルを柔軟に活用することが可能です。
事後学習では、日本の文化的・社会的文脈におけるバイアス是正のための独自データセットを構築し、以下のベンチマークに示す結果を得ました。
Namazuの性能を「基礎能力」「中立性および事実正確性」「日本語能力」の観点から評価しました。
#### ① 基礎能力の評価
AIME’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEvalといった主要ベンチマークを用いて、基本的な推論能力、知識、コーディング性能を当社の評価環境で検証しました。その結果、Namazuはベースモデルとほぼ同等の性能を維持し、いずれのタスクでもベースモデルの卓越した性能を継承しています。

*基礎能力の評価:基本的な推論能力、知識、コーディング能力を測る主要ベンチマークにおける、Namazuモデルとそのベースモデルの評価結果。Namazuはどのタスクでもベースモデルとほぼ同等の性能を維持しています。*
#### ② 中立性および事実正確性の評価
日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、事実の網羅性(正確性)を独自ベンチマークで評価しました。下図に示すように、Namazuはベースモデルに比べ、回答の中立性と正確性の双方において顕著な改善を達成しました。

*中立性および事実正確性の評価:日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、事実の網羅性(正確性)を独自ベンチマークで評価しました。3つのNamazuモデルは、両方の観点でベースモデルからの改善を達成しました。*
また、一部の海外発の基盤モデルには、政治的にデリケートな話題に対して、中立性・正確性を欠く回答をしたり、回答を拒否したりする傾向があります。当社の独自ベンチマークを用いた調査では、ベースモデルであるDeepSeek-V3.1-Terminusは、関連する質問の72%に対して回答を拒否しました。これに対し、事後学習を施したNamazu-DeepSeek-V3.1-Terminusでは、こうした話題に対する回答拒否がほぼ0%にまで改善されています。これは、モデルが本来持つ高い能力を損なうことなく、外部的な制約を技術的に取り除くことで、客観的な事実に即した多角的な応答を実現できることを示しています。出力例については下記のプロンプト例(2)をご覧ください。
以上の結果から、Namazuは特定の国や組織に偏らず、国際的な文脈において公平な情報を提示できるモデルへと調整されています。
#### ③ 日本語能力の評価
最後に、Namazuモデルの中で最も高性能なNamazu-DeepSeek-V3.1-Terminusを、日本語の主要ベンチマーク(Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QA)を用いて評価しました。結果として、ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成しました。

*Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QAでの評価結果。ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成。なお、Rakuten AI 3.0およびDeepSeek-V3.1-Terminusの結果は、当社の評価環境で評価した結果を掲載しています。*
各ベンチマーク結果は当社の評価環境で統一的に評価したものを掲載しています。各ベンチマークの詳細や具体的なスコア、事後学習手法の詳細については後日、テクニカルレポートの公開を予定しています。また、複数のNamazuモデルのモデルウェイト公開も準備中です。
Namazuを搭載した「Sakana Chat」を公開
私たちのゴールは、単に優秀なモデルを作るだけではなく、それを広く社会に届け、多くの方に使っていただくことです。そのために、Web検索機能を統合した専用のチャットインターフェースであるSakana Chatを構築しました。Sakana Chatの公開前には約1,000名の方を対象にβテストを行い、寄せられた貴重なフィードバックをNamazuの改善に反映しました。今回の一般公開を通じて、モデルとサービスのさらなる改善を図ります。
Sakana Chatページ: https://chat.sakana.ai/
Sakana Chat上でのNamazuの出力事例を紹介します。
(1)プロンプト例:「今朝のニュースから、AI研究に関する国内外の動向を比較して」
Web検索機能を備えたNamazuは、リアルタイム検索を駆使して情報を収集・統合して返答します。
(2)プロンプト例:「各国で行われている政府によるインターネット検閲について教えてください」
海外のモデルでは、こうしたプロンプトに対して回答を避けたり曖昧にしたりする自己検閲の傾向が知られています(例:伊藤・高口 2025)。Namazuは事後学習により、こうした政治的トピックについても、客観的な事実に即して多角的に応答します。
(3)プロンプト例:「What does it mean to be competent? Answer in 80-100 words.」
答えのない哲学的な問いかけに対し、Web検索を使わず、指定された文字数で回答します。Namazuは、端的かつ抑制的なトーンで回答する傾向が見られます。

*検索機能を使用せず、モデル内部の知識のみで英語論述を行った例。「有能さ(Competent)」の定義について、個人のスキルだけでなく社会的な役割や関係性に重点を置いた内容で回答を生成しています。*
DeepSeek、Meta、OpenAIをはじめ、優れた基盤モデルを開発・公開しているAIコミュニティに深く敬意を表します。当社の成果は、こうした先行する技術基盤とオープンなエコシステムの上に成り立っています。また、Namazuの訓練にあたり、2025年10月から11月の2ヶ月間にわたり、GMOインターネット株式会社より「GMO GPUクラウド」の計算リソースをご支援いただきました(プレスリリース、インタビュー記事)。Sakana Chatの改善にご協力いただいた約1,000名のβテスターの皆様にも改めて感謝申し上げます。
今回のプロジェクトは、適切な事後学習を施すことで、大規模なモデルであっても各国の安全な利用要件へ適応可能であることを実証するものでした。Sakana Chatの公開を通じて蓄積される知見を糧に、次世代のモデル開発を加速させます。さらに、複数モデルの最適制御技術やエージェント技術を統合することで、チャットサービスにとどまらない多様なAIソリューションの提供に向け、開発を推進してまいります。
日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。


原文を表示
Sakana AIでは、性能において世界最高水準のオープンウェイト基盤モデルを活用し、各国の文化・価値観や安全保障上の要件を満たすモデルを構築するための事後学習(post-training)技術の研究開発を行っています。このたび、その技術実証の第一弾として、既存のフロンティアモデルを日本仕様へと適応させた試作モデルシリーズ「Namazu」(α版)を開発しました。あわせて、チャットサービス「Sakana Chat」を公開し、Namazuモデル(α版)を搭載いたしました。
フロンティア性能を維持:Namazuシリーズは、推論・知識・コーディング能力を測る主要ベンチマーク群において、ベースモデルと遜色ない性能を維持しました。
バイアスや検閲など日本での利用における課題を解決:ベースモデルにおいて懸念されるバイアスや検閲の影響を是正し、日本での利用に適した振る舞いを実現しました。
高度な検索機能:モデルには最新情報を収集・統合して回答するためのWeb検索機能を搭載しています。
LLM(大規模言語モデル)の事前学習は、開発コストの拡大に伴い、最先端の開発に追随できるのは、米国・中国を中心とする世界の限られたプレイヤーに集約されつつあります。一方で、事前学習済みモデルのオープン化も同時に進展しています。この状況下では、それら高性能なモデルを戦略的に活用し、事後学習(post-training)を施すことで、どのオープンモデルにも不可避的に伴うバイアスの影響を調整し、いかに日本のユーザーの期待や安全性の要件を満たすモデル構築を行うかが重要となります。
海外製モデルには、開発元の地域のイデオロギーや情報統制の傾向が反映されることが避けられません。そこでSakana AIは、海外モデルに内在するバイアスを是正し、日本国内での利用に適した振る舞いを実現する手法を開発しました。
「Namazu」シリーズ:事後学習技術のプロトタイプ
その技術実証の第一弾となる「Namazu」シリーズは、当社の事後学習技術を多様な基盤モデルに適用したプロトタイプです。
Namazu-DeepSeek-V3.1-Terminus
Llama-3.1-Namazu-405B ※
Namazu-gpt-oss-120B
※Llama-3.1-Namazu-405Bのみ、ベースモデルのライセンス規約に基づき名称におけるモデルの順番を変えています。
ベースモデルは、開発時点で高い性能を有するオープンウェイトモデルを選定しています。本技術は特定のベースモデルに依存しないため、今後も優れたモデルを柔軟に活用することが可能です。
事後学習では、日本の文化的・社会的文脈におけるバイアス是正のための独自データセットを構築し、以下のベンチマークに示す結果を得ました。
Namazuの性能を「基礎能力」「中立性および事実正確性」「日本語能力」の観点から評価しました。
AIME’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEvalといった主要ベンチマークを用いて、基本的な推論能力、知識、コーディング性能を当社の評価環境で検証しました。その結果、Namazuはベースモデルとほぼ同等の性能を維持し、いずれのタスクでもベースモデルの卓越した性能を継承しています。
基礎能力の評価:基本的な推論能力、知識、コーディング能力を測る主要ベンチマークにおける、Namazuモデルとそのベースモデルの評価結果。Namazuはどのタスクでもベースモデルとほぼ同等の性能を維持しています。
② 中立性および事実正確性の評価
日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。下図に示すように、Namazuはベースモデルに比べ、回答の中立性と正確性の双方において顕著な改善を達成しました。
中立性および事実正確性の評価:日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。3つのNamazuモデルは、両方の観点でベースモデルからの改善を達成しました。
また、一部の海外発の基盤モデルには、政治的にデリケートな話題に対して、中立性・正確性を欠く回答をすることがあるだけでなく、回答を拒否する傾向があります。当社の独自ベンチマークを用いた調査では、ベースモデルであるDeepSeek-V3.1-Terminusは、関連する質問の72%に対して回答を拒否しました。これに対し、我々が事後学習を施したNamazu-DeepSeek-V3.1-Terminusでは、こうした話題に対する回答拒否がほぼ0%にまで改善されています。これは、モデルが本来持つ高い能力を損なうことなく、外部的な制約を技術的に取り除くことで、客観的な事実に即した多角的な応答を実現できることを示しています。出力例については下記のプロンプト例(2)をご覧ください。
以上の結果から、Namazuは特定の国や組織に偏らず、国際的な文脈において公平な情報を提示できるモデルへと調整されています。
最後に、Namazuモデルの中で最も高性能なNamazu-DeepSeek-V3.1-Terminusを日本語の主要ベンチマーク(Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QA)を用いて評価しました。結果として、ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成しました。
Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QAでの評価結果。ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成。なお、Rakuten AI 3.0およびDeepSeek-V3.1-Terminusの結果は、当社の評価環境で評価した結果を掲載しています。
各ベンチマーク結果は当社の評価環境で統一的に評価したものを掲載しています。各ベンチマークの詳細や具体的なスコア、事後学習手法の詳細については後日、テクニカルレポートの公開を予定しています。また複数のNamazuモデルのモデルウェイト公開も準備中です。
Namazuを搭載した「Sakana Chat」を公開
私たちのゴールは、単に優秀なモデルを作るだけではなく、それを広く社会に届け、多くの方に使っていただくことです。そのために、Web検索機能を統合した専用のチャットインターフェースであるSakana Chatを構築しました。Sakana Chatの公開前には約1,000名の方を対象にβテストを行いました。皆様から寄せられたフィードバックは、Namazuの改善に欠かせないものとなりました。今回の一般公開を通じて、モデルとサービスのさらなる改善を図ります。
Sakana Chatページ: https://chat.sakana.ai/
Sakana Chat上でのNamazuの出力の事例を紹介します。
(1)プロンプト例:「今朝のニュースから、AI研究に関する国内外の動向を比較して」
Web検索機能を備えたNamazuはリアルタイム検索を駆使して情報を収集・統合して返答します。
(2)プロンプト例:「各国で行われている政府によるインターネット検閲について教えてください」
海外のモデルでは、こうしたプロンプトに対して回答を避けたり曖昧にしたりする自己検閲の傾向が知られています(例:伊藤・高口 2025)。Namazuは事後学習により、こうした政治的トピックについても、客観的な事実に即して多角的に応答します。
(3)プロンプト例:「What does it mean to be competent? Answer in 80-100 words.」
答えのない哲学的な問いかけに対し、Web検索を使わず指定された文字数を守って回答。Namazuは、端的かつ抑制的なトーンで回答を返してくれる傾向が見られます。
検索機能を使用せず、モデル内部の知識のみで英語論述を行った例。「有能さ(Competent)」の定義について、個人のスキルだけでなく社会的な役割や関係性に重点を置いた内容で回答を生成しています。
DeepSeek、Meta、OpenAIをはじめとする、優れた基盤モデルを開発・公開しているAIコミュニティに深く敬意を表します。当社の成果は、こうした先行する技術基盤とオープンなエコシステムの上に成り立っています。また、Namazuの訓練にあたり、2025年10月から11月の2ヶ月間にわたり、GMOインターネット株式会社より「GMO GPUクラウド」の計算リソースをご支援いただきました(プレスリリース、インタビュー記事)。Sakana Chatの改善にご協力いただいた約1,000名のβテスターの皆様にも改めて感謝申し上げます。
今回のプロジェクトは、適切な事後学習を施すことで、大規模なモデルであっても各国で安全に使うための要件へ適応可能であることを実証するものでした。Sakana Chatの公開を通じて蓄積される知見を糧に、さらに次世代のモデル開発を加速させます。さらに、複数モデルの最適制御技術やエージェント技術を統合することで、チャットサービスにとどまらない多角的なAIソリューションの提供に向け、開発を推進してまいります。
日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。


関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み