Preferred Networks·2026年2月17日 17:09·約32分

MN-Core2グラフコンパイラ自作入門

#ハードウェアアクセラレータ #コンパイラ #AIチップ #Preferred Networks #開発者教育 #グラフコンパイラ

TL;DR

Preferred NetworksのMN-Core Compiler Coreチームが、セキュリティ・キャンプ2025ネクストで『低レベル MN-Core プログラミング』講座を担当し、MN-Core2 Graph Compilerの自作入門記事を公開した。

AI深層分析2026年2月26日 23:44

参考/ 5段階

深度40%

キーポイント

教育イベントでの実践講座

情報処理推進機構（IPA）主催のセキュリティ・キャンプ2025ネクストにおいて、Preferred Networksのチームが『低レベル MN-Core プログラミング』講座を担当した。

技術ブログ記事の公開

同講座に関連して、MN-Core2 Graph Compilerの自作入門記事がPreferred Networks Tech Blogに公開された。

MN-Core技術の普及活動

Preferred Networksが自社開発のMN-Core関連技術（特にコンパイラ）について、外部の開発者・学習者向けに情報発信と教育を行っている。

影響分析・編集コメントを表示

影響分析

この記事は、Preferred Networksが自社の専用プロセッサ「MN-Core」のエコシステム構築と開発者コミュニティ育成に取り組んでいることを示している。技術の詳細な内容ではなく教育・普及活動の報告であるため、業界全体への直接的な影響は限定的だが、同社の技術戦略の一端を窺うことができる。

編集コメント

技術の詳細な解説記事ではなく、教育イベントの報告と関連記事の紹介が主な内容。MN-Core技術の普及活動の一環として位置付けられる。

MN-Core Compiler Core チームの諸戸です。

情報処理推進機構（IPA）が主催するセキュリティ・キャンプ 2025 ネクストにて『低レベル MN-Core プログラミング』という講座を担当いたしました。

今回は本講座で扱った『グラフコンパイラ自作入門』について、セキュリティ・キャンプに参加されていない一般の方も体験できるよう、活動報告と解説を行っていきたいと思います。

まず、「グラフコンパイラ」と言われても、何をするものかイメージしづらいかもしれません。

また、「MN-Core」と聞いて「PFN が独自開発している AI チップ」ということは知っていたり、『MN-Core Challenge』を通じてどんな命令セットを備えているかは知っているという方は一定数いらっしゃるかもしれませんが、実際に MN-Core がどのように AI モデルの計算を行っているのか、実感されている方は少ないのではないでしょうか。

この記事を通じて、以下の 2 点を目指します。

MN-Core がどのように AI で使われる計算を行うのかを知る

Python で記述された AI モデルを、グラフコンパイラがどのように処理して AI チップ向けのアセンブリを生成するのかを知る

そのための題材として、オープンアクセスで公開されている MN-Core エミュレータを用いつつ、MNIST データセットの分類器の訓練を体験していただきます。

以下のコンテンツを用意しています。この記事と合わせてご参照下さい。

・MN-Core Simple Graph Compiler for Education (GitHub)

・MN-Core Challenge「MNIST Operator 実装」問題セット

・講義スライド

この記事では、この GitHub に公開された学習用のグラフコンパイラを用い、MN-Core 用のアセンブリ (vsm) を出力できるように改造してもらいます。

改造と言っても、MNIST のトレーニングに必要な演算（オペレーター）の実装部分を埋めるだけで、オープンアクセスのエミュレータを使用して実際のトレーニングまで行えるようになっています。

「演算（オペレーター）の実装部分」に関しては、MN-Core Challenge に特設問題セットを用意しました。オンラインジャッジ形式で、入出力アドレスなどが固定の状態で実装してもらうことで、ML 用途に特化された MN-Core の命令セットでどのようにトレーニングを行うのかを体験することができます。

特設問題セットの問題を 1 問解いたら、学習用のグラフコンパイラに実装を移すことで、コンパイラの対応演算が増えていき、最終的に MNIST のトレーニングが行えるようになる、という流れになります。

ブログを読みつつ、ぜひ自作グラフコンパイラを改造し、MN-Core 上での MNIST の訓練にトライしてください！

グラフコンパイラ

近年、AI 技術の発展は目覚ましく、それを支えるハードウェアも CPU、GPU、さらには MN-Core をはじめとする専用の AI アクセラレーターと多様化しています。AI 開発者がこれらの多様なハードウェアで最高の性能を引き出すための鍵となるのが、「グラフコンパイラ」です。

コンパイラと言うと、C++ コンパイラに限定しても GCC や Clang、Microsoft Visual C++ や Intel C++ Compiler など様々なものがありますが、グラフコンパイラにも数多くの種類があります。例えば PyTorch の標準コンパイラである TorchInductor や、Google の OpenXLA、Apache の Apache TVM や Microsoft の ONNX Runtime、LLVM の MLIR などが挙げられます。また PFN でも PFVM と呼ばれるグラフコンパイラを自社開発しており、MN-Core や GPU 向けのコード生成に使用されています。

グラフコンパイラとは、プログラムの計算手順を「計算グラフ」という形式で一度表現し、そのグラフ全体を分析して、特定のハードウェア向けに最適化するソフトウェアです。

計算グラフとは、数式やプログラムの処理を、ノード（演算）とフロー（データの流れ）で表現したものです。値（テンソル）と演算そのものを中心に、計算の流れを表現します。

一般的なコンパイラ（GCC や LLVM など）は、命令を load, mul, add, store など、細かい低レベルな命令の集合として処理を捉えるため、最適化は命令レベルにとどまります。一方、グラフコンパイラは、畳み込み（Conv）や活性化関数（ReLU）といった AI 特有の高レベルなノードとして計算を理解できます。これにより、「Conv → ReLU」といった典型的なパターンを一つの GPU カーネルにまとめる（Fusion）など、より高度な最適化が可能になります。

また、近年の深層学習では、マルチノード環境やノード内の高速なメモリを有効活用し、DRAM とのデータ往復を減らすことが性能向上の鍵となります。そのためには、グラフ全体で値の流れを最適化し、データ転送と計算の効率を最大化する必要もあります。

自作 C コンパイラなどを作ったことがある方なら、ソースコードを解析して AST（抽象構文木）を作る工程をご存知でしょう。グラフコンパイラでは、PyTorch などのフレームワークがその役割を担います。本演習で作成するのは、その中間表現（計算グラフ）を受け取り、ターゲットマシンのメモリ配置を決め、アセンブリを生成する「コンパイラ・バックエンド」の部分に相当します。

AI 分野でグラフコンパイラが不可欠とされる主な理由は以下の 3 点です。

ハードウェアの多様化への対応: ハードウェアごとに得意な計算が異なるため、開発者が全ての HW で最高性能のコードを書くのは困難です。グラフコンパイラがその差を埋めます。

開発者の生産性向上：開発者はハードウェアの低レベルな詳細を気にすることなく、モデルの設計という本質的な作業に集中できます。

AI 計算の性質：AI 計算のほとんどは行列積や畳み込みなどの密な線形代数演算で、非常に規則的です。静的で明示的な計算グラフを用いることで、機械的な並列化や最適化がしやすくなります。

グラフコンパイラは、主に以下の 3 つのステップを経て実行可能コードを生成します。

計算グラフのトレース：PyTorch などの AI フレームワークから、AI モデルの計算グラフ（例：ONNX 形式、torch.fx 形式など）を抽出します。

グラフ最適化：グラフ全体を分析し、より高速に実行できるグラフへと変換します。主な最適化手法には、複数の演算を一つにまとめる「演算子融合（Operator Fusion）」や、テンソルのメモリ上の並び順を効率的な形式に変換する「レイアウト変換（Layout Transformation）」、計算精度を調整する「自動混合精度（Automatic Mixed Precision）」などがあります。

コード生成：最適化されたグラフをもとに、ターゲットハードウェア（GPU など）に特化した高速な機械語コード（カーネルコード）を生成します。

MNIST と多層パーセプトロン（MLP）

今回の MN-Core 向けグラフコンパイラ自作では、以下の多層パーセプトロン（MLP）モデルを使用し、MNIST の分類を行います。

class SimpleNN1024(nn.Module):

def __init__(self):

super().__init__()

self.fc1 = nn.Linear(1024, 16)

self.fc2 = nn.Linear(16, 16)

self.relu = nn.ReLU()

def forward(self, x: torch.Tensor):

x = x.view(x.size(0), -1)

x = self.relu(self.fc1(x))

return self.fc2(x)

MLP は、最も基本的なニューラルネットワーク（NN）の一つで、複数の層に配置された「ニューロン」が情報を伝達し学習を行います。簡単には、以下のような構成をしています。

入力層 (Input Layer): データを受け取ります。本来 MNIST データセットは 28×28 ピクセル画像なのですが、簡略化のため 32×32 ピクセル（1024 次元）にパディングします。

隠れ層 (Hidden Layer): 入力からの情報を受け取り、複雑なパターンを学習・抽出します。今回のモデルでは 16 次元の隠れ層を持ちます。

出力層 (Output Layer): 最終的な予測や分類結果を出力します。MNIST は 0～9 の 10 クラス分類ですが、実装の都合上 16 次元にパディングしています。本来であればコンパイラが自動でパディングを挿入し、余った部分を計算結果に影響しない無害な値（加算なら 0、Max なら-inf など）で埋めて処理を行うべきですが、今回はその工程を省略する。

各層のニューロンは、前の層からの入力に重みを掛け合わせ、バイアスを加算し、活性化関数（今回は ReLU）を通して次の層へ出力を伝えるという、線形代数演算（𝑦=𝑊𝑥+𝑏）を基本としています。

MLP の学習は、大きく分けて「順伝播」「逆伝播」「パラメータ更新」のステップを繰り返し行うことで実現されます。

1. 順伝播 (Forward Propagation)

入力層（1024 次元）に画像データを入力し、隠れ層（16 次元）、そして出力層（16 次元）へと計算を進め、最終的な予測結果（各クラスのスコア）を算出します。

基本的な計算：各層のニューロンでは、前の層の出力に対して「重み行列（𝑊）」を乗算し、「バイアス（𝑏）」を加算する線形代数演算 (𝑦=𝑊𝑥+𝑏) が行われます。

活性化関数：線形演算の結果は、非線形性を導入するための活性化関数（今回は ReLU）を通過します。

2. 逆伝播 (Backward Propagation) と勾配計算

順伝播で得られた予測結果と、正解ラベルとの差を「損失（Loss）」として計算します。この損失を最小化するために、各層の重みとバイアスをどのように調整すべきかを示す「勾配（grad）」を計算するのが逆伝播です。

PyTorch などのフレームワークでは、順伝播を定義するだけで、自動的に勾配計算のための逆伝播グラフが内部で構築されます。

計算の手順としては、モデルの出力と正解ラベルの差分を元に計算された勾配を起点に、微分演算に従って入力側（前の層）へと逆向きに伝播させていくことで各パラメータの勾配を求めます。例えば、ReLU の微分は Step 関数、行列積（Gemm）の微分は転置を使った行列積として計算されます。

3. パラメータ更新 (Optimizer Step)

計算された勾配に「学習率（Learning Rate）」を乗算し、現在の重みとバイアスから差し引くことで、パラメータを更新します。これにより、損失が小さくなる方向へモデルのパラメータが調整されます。

今回の自作グラフコンパイラでは、独自アーキテクチャ用の計算コードを出力することに焦点を当てているため、モデルの自動微分パートは PyTorch の Autograd（自動微分）機能を使い、計算グラフを構築しています。

逆伝播グラフの構築方法も様々であり、PyTorch の Autograd では順伝播の Torch コードを実行しつつ演算のたびに裏で逆伝播のグラフを構築します。他にも、このような方法で作成された逆伝播付きのグラフを実行しトレースを行うことで、順伝播と逆伝播のグラフを同時に作成する方法もあり、順伝播と逆伝播の垣根を超えた演算融合（Fusion）や、メモリ使用量を抑えるための再計算の最適化が可能になるなどの特徴もあります。

演習用自作グラフコンパイラの説明

今回のグラフコンパイラ自作入門では、あらかじめ用意された C++ コードを出力するグラフコンパイラを拡張し、多層パーセプトロン（MLP）モデルを MN-Core2 向けのコードとして出力・実行し、MNIST データセットの学習を行っていただきます。

今回 MN-Core で動かすモデルは、fx_export/train.py に以下のように定義されています。

class SimpleNN1024(nn.Module):

def __init__(self) -> None:

super().__init__()

self.fc1 = nn.Linear(1024, 16)

self.fc2 = nn.Linear(16, 16)

self.relu = nn.ReLU()

def forward(self, x: torch.Tensor) -> torch.Tensor:

x = x.view(x.size(0), -1)

x = self.relu(self.fc1(x))

return self.fc2(x)

学習用自作グラフコンパイラには、既に以下の機能が実装されています。

定義された NN をトレースし、自動微分による逆伝播付き計算グラフを作成する

その計算グラフから C++ コードを出力する

出力された C++ コードをコンパイル・実行して MLP のトレーニングを行う

この「C++ コード出力機能」を参考に、MN-Core2 向けのアセンブリを出力する機能を作成していただきます。

演習用コンパイラは、モデルの定義から最終的な学習実行までを、以下のようなステップで実行します。

1. C++コード生成と検証、実行

演習用コンパイラは、主に以下の3つのコマンドを通じて、PyTorch で定義されたモデルをターゲット向けのコードに変換します。

コマンド

目的

内容

export (Step 1)

計算グラフの抽出 (ONNX)

PyTorch の自動微分機能を利用して、順伝播、逆伝播、パラメータ更新を含む学習ステップ全体の計算グラフを、中間表現である ONNX 形式のファイルとしてエクスポートします。

test (Step 2)

C++コードの検証

エクスポートされた ONNX グラフから C++ コードを生成し、そのコードを実際に実行します。参照実装（例：PyTorch）との計算結果の誤差（Error）を比較し、生成された C++ コードが期待通りに動作するかを検証します。

train_cpp (Step 3)

実際の学習実行

生成・コンパイルした C++ コードを用いて、MNIST の学習を最初から最後まで実行します。エポックごとの損失（Loss）と精度（Accuracy）が表示され、C++ コードが正しく学習を進められるかを確認します。

この一連のステップを通じて、AI フレームワークでのモデル定義から、ターゲットハードウェアで実行可能な低レベルコードへの変換、そして実データによる学習実行という、グラフコンパイラが担う役割全体を体験できます。

export では、計算が定義された関数のほかに、ダミー入力を一緒に渡します。ダミー入力を使用して関数を実行し、「どのような Tensor Shape で演算が行われるのか」を含めて計算のトレースを行い、ONNX を出力します。

動的型付け言語である Python のコードから、コンパイル時にメモリ配置を決定するためにダミー入力を流して型推論（Shape 推論）を行っていると捉えると分かりやすいでしょう。

実際に ./haribote_graph_compiler.py export を実行してみると、以下のような結果が得られるはずです。

=== ONNX エクスポート ===

モデル付き関数を検出しました。

自動微分ベースのグラフエクスポートを使用します。

ONNX モデルを /tmp/train_step/model.onnx に保存しました

エクスポート完了: /tmp/train_step

model.onnx
input_*.npy (6 files)
output_*.npy (10 files)

model.onnx は、トレースした関数を計算グラフとして ONNX で表現されたものになります。

input_*.npy は、テスト用のサンプル入力です。ダミー入力のほか、重みパラメーターの初期値なども保存されています。

output_*.npy はテスト用のサンプル出力で、input_*.npy を入力したときの関数の出力値や勾配 (grad)、逆伝播で更新されたあとのパラメーター値が保存されています。計算の関数としては、勾配は出力に含める必要性はないのですが、グラフコンパイラ開発のデバッグ用に出力しています。

test では、ONNX を入力にコンパイルとテストを行います。C++ 生成モードでは C++ コードを生成したあと、Python から呼べる形でコンパイルを行い、Python で計算した結果と同様の結果が得られるかをテストします。

実際に ./haribote_graph_compiler.py test /tmp/train_step を実行してみると、以下のような結果が得られるはずです。

(省略)

=== C++ チェック検証 ===

output | 5.44e-07 | -1.11e+00 | 9.06e-01 | -1.38e-03 |(256, 16) | ✓

loss | 9.54e-07 | 2.82e+00 | 2.82e+00 | 2.82e+00 |() | ✓

grad_fc1_weight | 9.31e-09 | -2.75e-02 | 2.93e-02 | 4.64e-05 |(16, 1024)| ✓

grad_fc1_bias | 1.12e-08 | -2.80e-02 | 3.06e-02 | 7.29e-03 |(16,) | ✓

grad_fc2_weight | 1.49e-08 | -2.74e-02 | 2.34e-02 | -1.46e-10 |(16, 16) | ✓

grad_fc2_bias | 3.73e-08 | -6.61e-02 | 8.17e-02 | -4.66e-10 |(16,) | ✓

updated_fc1_weight | 3.73e-09 | -3.14e-02 | 3.13e-02 | -1.65e-05 |(16, 1024)| ✓

updated_fc1_bias | 1.86e-09 | -3.01e-02 | 2.15e-02 | -3.55e-03 |(16,) | ✓

updated_fc2_weight | 1.49e-08 | -2.49e-01 | 2.49e-01 | 8.15e-03 |(16, 16) | ✓

updated_fc2_bias | 7.45e-09 | -2.33e-01 | 2.38e-01 | -3.15e-02 |(16,) | ✓

✓ テスト成功: /tmp/train_step

各出力の誤差や形状 (shape)、正誤判定 (verify) の表示が行われています。

fx_export/operators/ 以下に、各種オペレーター (Operator) の実装が記されています。

例えば fx_export/operators/add.py の generate_cpp には、Add オペレーターが入力された際に出力すべき C++ コードを返す定義が記されています。以下のような形式で、文字列の配列として C++ コードを返しています。

lines.append(f" const Matrix<{shape0[0]}, {shape0[1]}> {out_var} = add_colvec<{shape0[0]}, {shape0[1]}>({in0}, {in1});")

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "(省略)