日本語ビジネスニュースコーパスで学習したBART事前学習済モデルの公開
Stockmark が日本語ビジネスニュースに特化した BART モデルを Hugging Face で公開し、文脈理解や要約タスクの精度向上を目指す。
キーポイント
ドメイン特化モデルの開発背景
既存の汎用日本語 BART モデルではビジネスニュースの文脈を十分に捉えきれないため、Stockmark が独自に開発した。
大規模コーパスによる事前学習
約 3 年間にわたる 2100 万件(約 2.9 億文)のビジネスニュースを学習データとして使用し、Google TPU v2-8 で 45 日間訓練した。
文順入れ替えとマスク穴埋めの学習
元の文章から文の順序をシャッフルしたりトークンをマスクしたりするタスクを通じて、論理的な文脈理解能力を強化している。
影響分析・編集コメントを表示
影響分析
この発表は、汎用言語モデルでは対応しきれない専門領域(ビジネスニュース)における自然言語処理の実用性を高める重要な一歩です。特に文脈の論理的整合性を学習した手法は、金融や法務分野での自動要約・分析システムの精度向上に寄与する可能性があります。
編集コメント
汎用モデルの限界を補うドメイン特化アプローチは、実務現場での AI 活用において非常に有効な戦略です。特にビジネス文脈の理解が必要な分野では、この種の専門モデルが即戦力として期待されます。
はじめに 研究部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。
弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約などのタスクを実行することが必要不可欠となります。
近年、この要約タスクの分野では、BARTなどの事前学習済モデルが高い精度を報告しています。
そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。
BARTとは BARTは、2019年10月29日にFacebook社によって提案されました。BARTは、双方向エンコーダー(例: BERT)と左から右へのデコーダー(例: GPT)を用いたseq2seq構造を採用しています。BARTは基本的にテキスト生成のためのモデルですが、テキスト理解タスクにも適しています。そのため、抽象的な対話、質問応答、要約など、さまざまなタスクで広く使用されています。
ストックマークのBART BARTの事前学習済モデルはHugging Faceで公開されていますが、日本語かつビジネスニュースに特化したモデルは存在しませんでした。そのため、弊社では日本語ビジネスニュースコーパスで学習したBART事前学習済モデルを構築しました。
今回、このBART事前学習済モデルをHugging Faceで公開します。モデルの詳細な使用方法については、以下のリンク先をご覧ください。
https://huggingface.co/stockmark/bart-base-japanese-news
ここからは、弊社のBART事前学習済モデルについて簡単に紹介します。
事前学習 事前学習では、オリジナル文章の文順序をシャッフルし、テキストのトークンをランダムにマスクトークンに置き換えた文章から、元の文章を復元するタスクを学習します。
今回は、約3年半(2019-01-01~2022-07-12)の約2100万件のニュース記事(約2.9億文)を事前学習データとして使用し、BART-baseサイズのモデルを事前学習しました。学習には、Google TPU v2-8(64 GiBメモリ)を用いて約45日間を要しました。
事前学習済モデルの出力 事前学習では、文順序入れ替えタスクとマスクトークン穴埋めタスクを学習しています。以下に、学習結果の主な事例を示します。
文順序入れ替えタスク 文順序入れ替えタスクでは、以下のような文章がある場合、文の順番をシャッフルし、元の文順に復元します。
オリジナルテキスト(正しい文順)
明日は大雨です。電車は止まる可能性があります。ですから、自宅から働きます。
モデルが文順序入れ替えタスクを学習しているかを確認するため、文順をシャッフルした以下の6パターンを事前学習済モデルに入力します。
入力:
パターン1(このパターンはオリジナルテキストと同じ)
明日は大雨です。電車は止まる可能性があります。ですから、自宅から働きます。
パターン2
明日は大雨です。ですから、自宅から働きます。電車は止まる可能性があります。
パターン3
電車は止まる可能性があります。明日は大雨です。ですから、自宅から働きます。
パターン4
電車は止まる可能性があります。ですから、自宅から働きます。明日は大雨です。
パターン5
ですから、自宅から働きます。電車は止まる可能性があります。明日は大雨です。
パターン6
ですから、自宅から働きます。明日は大雨です。電車は止まる可能性があります。
出力:
原文を表示
はじめに Research部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。
弊社では、大量のビジネスニュースを解析対象としていますが、人間がすべてのビジネスニュースを精読することは不可能です。そのため、読むべき記事を判断するために、記事分類や要約等を行うことが必要不可欠となります。
近年では、この要約タスクの分野では、高い精度が報告されている事前学習済モデルBART等が存在します。
そこで、弊社で日本語向けのBART事前学習済モデルを作成しましたので、今回はそのモデルの紹介と公開を行います。
BART とは BART は、2019 年 10 月 29 日に Facebook社によって提案されました。 BART は、双方向エンコーダー (例えばBERT) と左から右へのデコーダー (例えばGPT) を使った seq2seq 構造を使用します。BART は、基本的にテキスト生成用のモデルですが、テキスト理解タスクにも適しています。そのため、さまざまな抽象的な対話、質問応答および要約などのタスクでよく使われます。
Stockmark の BART BART の事前学習済モデルは Hugging Face で公開されていますが、日本語かつビジネスニュースに特化したモデルはありません。そのため、弊社では日本語ビジネスニュースコーパスを学習したBART事前学習済モデルを作成しました。
今回、Hugging Face にてこのBART事前学習済モデルを公開します。BART事前学習済モデルの詳細な利用方法は以下のリンク先をご覧ください。
https://huggingface.co/stockmark/bart-base-japanese-news
ここからは、弊社のBART事前学習済モデルを簡単に紹介します。
事前学習 事前学習では、オリジナル文章の文の順序をシャッフルし、テキストのトークンをランダムにマスクトークンに置き換えた文章をオリジナル文章に復元するタスクを学習します。
今回は、約3年間半分(2019-01-01~2022-07-12)の約2100万のニュース記事(約2.9億文)を事前学習データに使い、BART-baseサイズのモデルを事前学習しました。 事前学習の期間は、Google TPU v2-8(64 GiBメモリ)で約45日間です。
事前学習済モデルの出力 事前学習で、文順入れ替えタスクとマスク穴埋めタスクを学習しましたので、事前学習結果の主力例を以下に示します。
文順入れ替えタスク 文順入れ替えタスクでは、以下のような文章があった場合、文の順番をシャッフルし、元の文順に戻します。
オリジナルテキスト(正しい文順) 明日は大雨です。電車は止まる可能性があります。ですから、自宅から働きます。 文順入れ替えタスクを学習しているか確認するために、以下のように文の順番をシャッフルした6パターンを事前学習済モデルに入力します。
入力:
パターン1(このパターンはオリジナルテキストと同じです) 明日は大雨です。電車は止まる可能性があります。ですから、自宅から働きます。 # パターン2 明日は大雨です。ですから、自宅から働きます。電車は止まる可能性があります。 # パターン3 電車は止まる可能性があります。明日は大雨です。ですから、自宅から働きます。 # パターン4 電車は止まる可能性があります。ですから、自宅から働きます。明日は大雨です。 # パターン5 ですから、自宅から働きます。電車は止まる可能性があります。明日は大雨です。 # パターン6 ですから、自宅から働きます。明日は大雨です。電車は止まる可能性があります。 出力:
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み