AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Allen AI (AI2)·2026年6月18日 17:00·約8分で読める

Domyn と AISquared が Ai2 のオープンリリースをどう活用したか

#LLM#Olmo#Open Source#RAG#Regulated Industries
TL;DR

Domyn と AISquared が、規制業界向けに Ai2 のオープンソースモデル「Olmo」を基盤とした独自モデルを開発し、透明性とコンプライアンスの確保を実現した事例。

AI深層分析2026年6月19日 04:05
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

規制業界における調達課題と解決策

金融や医療などの規制業界では、データの出自証明やリスク文書がない AI モデルの導入が困難であり、Domyn と AISquared はこれに対処するため完全な透明性を提供する Olmo を採用した。

2

AISquared の Bolt モデルファミリー

AISquared は Olmo 2/3/3.1 を基盤に、RAG や文書処理に適した「Bolt」シリーズ(1B, 7B, 32B)を開発し、構造化出力やハルシネーション低減などの機能を実装している。

3

透明性とライセンスの重要性

AISquared の共同創設者は、他社のモデルが非効率または複雑な学習スキームを必要としたのに対し、Olmo はアーキテクチャとトレーニングデータの完全な可視性により信頼性が高いと評価した。

4

企業向けプラットフォームでの実装

AISquared の「UNIFI」プラットフォームでは、Bolt Instruct がガードレール層として不適切コンテンツをブロックし、同時にリクエストを最適なモデルへルーティングする役割を果たしている。

影響分析・編集コメントを表示

影響分析

このニュースは、規制の厳しい業界において「ブラックボックス化」された商用モデルへの依存から脱却し、透明性と制御可能性を重視したオープンソースベースの AI 採用が現実的な解決策となりつつあることを示しています。特に、データ出自やリスク管理が厳格な金融・政府分野で、AI2 の Olmo が基盤として選定されたことは、オープンウェイトモデルの実用化と信頼性向上における重要な転換点と言えます。

編集コメント

規制業界における AI 導入の最大の障壁である「説明可能性」と「コンプライアンス」を、オープンソースモデルの透明性で解決する事例として注目すべき記事です。

規制業界、例えば金融サービス、ヘルスケア、学術界、そして公共部門に属する企業は、AI に関する調達面でしばしば課題に直面しています。多くのモデルには、コンプライアンス、法務、セキュリティチームが高インパクトな展開を承認するために必要とするデータの出所(プロベナンス)、リスク文書化、あるいは入力データの保護が欠けているからです。

規制業界向けに構築されている 2 つの AI ラボ、Domyn と AISquared(どちらも Ai2 とは無関係)は、Ai2 のオープンリリースから直接モデルを構築しました。ミラノに拠点を置く Domyn は、金融サービス、高度な製造業、およびその他の規制業界において、AI の主権——つまり展開するモデルとデータに対する完全な所有権と制御——に焦点を当てています。ワシントン D.C. に本社を置く AISquared は、同じ業界における連邦政府および米国の企業顧客を対象としています。

両社が Olmo を選んだのは、トレーニングデータ、コード、アーキテクチャの設計図を含む完全なモデルフローで利用可能であり、Domyn と AISquared のクライアント基盤が必要とする高いレベルの透明性とカスタマイズ性を提供できるからです。

なぜ AISquared は Olmo を選んだのか

今年初め、AISquared は Bolt をリリースしました。これは、検索拡張生成(RAG)、ドキュメント処理、モデルルーティングなどのエンタープライズワークフロー向けに設計されたオープンウェイトの小型言語モデルファミリーです。このファミリーの指示従属サブファミリーである Bolt Instruct は、1B、7B、32B の 3 つのサイズで、Olmo 2、Olmo 3、および Olmo 3.1 からファインチューニングされています。

Jacob Renn 氏にとって、AISquared の共同創設者兼チーフデータサイエンティストである彼が Bolt の基盤として Olmo を選んだ理由は、Ai2 のオープン性の哲学にあります。

「Olmo は完全にオープンであるため、そのアーキテクチャとトレーニングデータの完全な可視性が得られ、より透明性の低いオープンウェイトモデルと比較して、より高いレベルの信頼を得ることができました」と Renn 氏は述べています。AISquared がテストした他のファウンデーションモデルは、サポートが不十分なアーキテクチャや難解な手法に依存しており、その結果生じたファインチューン(微調整)は「非効率的であり、展開や運用が困難で、より複雑で高コストなトレーニングスキームを必要としたにもかかわらず、最終的なパフォーマンスは劣るものでした」と Renn 氏は指摘しています。

「Olmo の透明性と包括的なライセンスは、米国発のモデル群の中で容易に選択できる理由となりました」と Renn 氏は付け加えます。「さらに、そのライセンスにより、私たちは必要なに応じて Olmo を適応させ、顧客に対してライセンスを提供することが可能になりました」。

Olmo に上乗せして、AISquared チームは Bolt Instruct をカスタマイズし、機械可読な構造化出力の生成、RAG(Retrieval-Augmented Generation:検索拡張生成)におけるハルシネーション(幻覚・誤生成)率の低減、個人識別情報(PII: Personally Identifiable Information)や Jailbreak 試行の検出、および他のモデル間でのリクエストルーティングを実現しました。AISquared のエンタープライズプラットフォームである UNIFI 内では、Bolt Instruct は現在 2 つの役割を担っています。一つは、下流システムに到達する前に不適切なコンテンツをブロックするガードレール層(安全装置レイヤー)であり、もう一つは各リクエストを処理に適したモデルへ誘導するルーターです。

レンによると、Bolt への移行により、AISquared の自社インフラホスティングコストは約 50%削減され、顧客側でも同様のコスト削減が実現された。

Domyn が Dolma と Dolci を活用した方法

5 月、Domyn は Domyn Small をリリースしました。これは Ai2 のオープンソースである Dolma および Dolci データセットを一部に活用して構築された、10B パラメータのオープンウェイト推論モデルです。Dolma と Dolci は文書化された出典情報と寛容なライセンスが付属しているため、Domyn は規制対象組織がエンドツーエンドで追跡可能な形式で、Domyn Small のレシピを公開することができました。

「監査可能性の主張は、トレーニングの結果だけでなく、モデルのトレーニングデータに何が含まれたかを文書化できる場合にのみ正当化されます」と、Domyn の AI エンジニアリングマネージャーである Martin Cimmino は述べています。「誰でもが、モデルが具体的に何を学習したのかを確認できます。」

Domyn Small を開発するにあたり、Domyn はイタリア語版 10B(Italia 10B)から始めました。これは同社がゼロから訓練したファウンデーションモデルです。その後、多段階のポストトレーニングパイプラインをその上に重ねました。Italia 10B は Domyn に強力な初期基盤を提供しましたが、このモデルは汎用目的で訓練されたものであり、推論には最適化されていませんでした。また、Domyn の顧客が通常扱う長文ドキュメントに対応するにはコンテキストウィンドウ(文脈の保持範囲)が短すぎました。これを拡張するためには、高品質な長文データを用いた追加のトレーニングラウンドが必要でした。

Dolma は条件に合致していました。そのデータソースと、それがどのようにクリーニングされフィルタリングされたかは公開されているため、Domyn 社は社内の他のデータミックスに対してこれを較正することができ、「不透明なウェブクローラーを盲目的に使用するのではなく」と Cimmino 氏は述べています。さらに、Dolma のオープンライセンスと明確な出所は、「下流の商用展開のために通過しなければならない調達側の審査をクリアするのに役立ちました」と Cimmino 氏は付け加えています。

Dolma の次なるステップは、Domyn Small に曖昧で明らかに間違った応答ではなく、明確で正確な応答を与える方法を教えることでした。これを行うため、Domyn は Dolci を調達しました。これは Ai2 が作成したデータセットで、まさにこの種のチューニングのために約 260K の応答ペアを含むものです。Dolci は昨年、Olmo 3 とともにリリースされました。

大学院レベルの科学推論ベンチマークである GPQA-Diamond において、Dolci は Domyn Small が 10.1 ポイント向上するのを助けました。これはモデルのポストトレーニングパイプラインにおける単一の最大の飛躍です。

「実証的な成果は確かにありました」と Cimmino 氏は言います。

Ai2 のオープン性が可能にするもの

規制された顧客に対応する AI ラボにとって、基準は単に高い能力だけではありません。監査可能性と制御も必要です。EU AI 法(EU Artificial Intelligence Act)はこの基準をさらに引き上げ、汎用 AI モデルの提供者に対してトレーニングデータの詳しい要約の公開を要求しています。米国では、連邦顧客は出所やライセンスに関する独自の制約を抱えています。

この状況を根本から変えるのは、Ai2 がそのデータセットやその他の研究成果物に組み込んでいるような、上流におけるオープン性の種類です。

「Ai2 が公開したドキュメントは、当社のトレーサビリティおよび AI 法コンプライアンスの成果物に直接活用されています」と Cimmino は述べています。「Ai2 が運営する規模において、フルスタックを公開するというコミットメントは非常に稀有です。主権と公共の利益という制約の下で開発を進める当社の様な研究所にとって、Ai2 の取り組みはクローズドな独自パイプラインに対する信頼できる代替案の基盤となっています。」

最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。

原文を表示

Companies in regulated industries like financial services, healthcare, academia, and the public sector often face a procurement problem with AI: many models ship without the data provenance, risk documentation, or input data protections that compliance, legal, and security teams need to approve high-impact deployments.

Two AI labs building for regulated industries, Domyn and AISquared (both of which are unaffiliated with Ai2), have developed models that draw directly on Ai2's open releases. Based in Milan, Domyn focuses on AI sovereignty – full ownership and control of the models and data they deploy – for financial services, advanced manufacturing, and other regulated sectors. Headquartered in Washington, D.C., AISquared serves the federal government and U.S. enterprise customers in those same industries.

Both chose Olmo because it’s available with the full model flow, including the training data, code, and architectural blueprints—delivering the high level of transparency and customization needed for Domyn and AISquared’s client bases.

Why AISquared chose Olmo

Earlier this year, AISquared released Bolt, a family of open-weight small language models designed for enterprise workflows like retrieval-augmented generation (RAG), document processing, and model routing. Bolt Instruct, the family's instruction-following sub-family, is fine-tuned from Olmo 2, Olmo 3, and Olmo 3.1 across three sizes—1B, 7B, and 32B.

For Jacob Renn, AISquared's Co-Founder and Chief Data Scientist, choosing Olmo as the base for Bolt came down to Ai2’s philosophy of openness.

"Because Olmo is fully open, we had complete visibility into its architecture and training data, allowing us a higher level of trust compared to less transparent open-weight models,” says Renn. Other foundation models AISquared tested relied on less-supported architectures or arcane methods, and the resulting fine-tunes "were less efficient, more difficult to deploy and work with, or required much more complex and costly training schemas which still resulted in worse performance,” says Renn.

“Olmo's transparency and permissive licensing made it an easy choice among the set of U.S.-originated models," adds Renn. “Furthermore, its license ensured that we could adapt Olmo as needed and license it to our customers.”

On top of Olmo, the AISquared team customized Bolt Instruct to produce machine-readable structured outputs, reduce hallucination rates in RAG, detect personally identifiable information (PII) and jailbreak attempts, and route requests across other models. Inside UNIFI, AISquared's enterprise platform, Bolt Instruct now plays two roles: a guardrails layer that blocks disallowed content before it reaches downstream systems and a router that directs each request to the model best suited to handle it.

According to Renn, migrating to Bolt cut AISquared's own infrastructure hosting costs by roughly 50%, with customers seeing similar reductions in costs.

How Domyn used Dolma and Dolci

In May, Domyn released Domyn Small, a 10B-parameter open-weight reasoning model built in part on Ai2's open Dolma and Dolci datasets. Because Dolma and Dolci ship with documented sources and permissive licenses, Domyn could publish Domyn Small's recipe in a form regulated organizations could trace from end to end.

"The auditability claim is only defensible if we can document what went into a model’s training data, not just what came out of training," says Martin Cimmino, AI Engineering Manager at Domyn. "Any person can go look at exactly what the model saw.”

To develop Domyn Small, Domyn started from Italia 10B – a foundation model it trained from scratch – and layered a multi-stage post-training pipeline on top. Italia 10B gave Domyn a strong initial foundation, but the model had been trained for general use rather than reasoning, and its context window was too short for the long documents Domyn's customers typically work with. Extending it called for another round of training on high-quality, longer-form data.

Dolma fit the bill. The source of its data – and how it was cleaned and filtered – is public, so Domyn could calibrate it against the rest of the company’s internal data mix "rather than flying blind on opaque web crawls," says Cimmino. In addition, Dolma’s open license and clear provenance helped "clear the procurement-side review we have to pass for downstream commercial deployment,” adds Cimmino.

After Dolma, the next step was teaching Domyn Small to give clear, accurate responses rather than vague or obviously wrong ones. To do this, Domyn sourced Dolci, Ai2’s dataset containing around 260K response pairs built for exactly this kind of tuning. We released Dolci last year alongside Olmo 3.

On GPQA-Diamond, a graduate-level science reasoning benchmark, Dolci helped Domyn Small gain 10.1 points—the biggest single jump in the model's post-training pipeline.

"The empirical payoff was real," says Cimmino.

What Ai2's openness makes possible

For AI labs serving regulated customers, the bar isn't just high capability—it's auditability and control. The EU AI Act raises that bar higher, requiring providers of general-purpose AI models to publish detailed summaries of their training data. In the U.S., federal customers carry their own constraints around provenance and licensing.

What changes the picture is the kind of upstream openness Ai2 builds into its datasets and other research artifacts.

"Ai2's published documentation feeds straight into our traceability and AI Act compliance artifacts," says Cimmino. "The commitment to releasing the full stack is genuinely unusual at the scale Ai2 operates. Ai2's work anchors a credible alternative to closed proprietary pipelines for labs like ours that are building under sovereignty and public-interest constraints."

Subscribe to receive monthly updates about the latest Ai2 news.

この記事をシェア

関連記事

Hugging Face Blog★42026年6月18日 09:00

エージェント性は十分か?独自ツールを用いたオープンモデルのベンチマーク調査

Hugging Face が、独自に構築したツール環境において、オープンソースモデルがどれほど「エージェント性」を発揮できるかを評価するベンチマーク手法を発表しました。

Latent Space★42026年6月19日 14:53

[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定

Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。

MarkTechPost★32026年6月19日 11:44

Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け

Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む