Stockmark Tech Blog·2022年12月2日 11:00·約4分

顧客体験向上のための自然言語処理技術活用：定義文抽出

#自然言語処理 #BERT #形態素解析 #情報抽出 #顧客体験 #テキスト分類

TL;DR

Astrategyは、BERTを用いた定義文判定器と形態素解析を用いた主語抽出器を組み合わせてニュース記事から定義文を抽出する自然言語処理技術を開発し、顧客が専門用語を調べる手間を省くことで顧客体験の向上を目指している。

AI深層分析2026年3月1日 18:45

注目/ 5段階

深度40%

キーポイント

解決すべき課題

Astrategyの利用者がニュース記事内の分からない単語に出会った際、外部サービスで調べたり個別記事を確認する必要があり、ユーザー体験に課題があった。

技術的アプローチ

定義文抽出には、BERTを用いて文を定義文か否か分類する「定義文判定器」と、形態素解析を用いて定義文から主語を抽出する「主語抽出器」の2段階処理を採用した。

実装と成果

社内で作成した定義文用データでBERTモデルをファインチューニングし、メタバースやNFTからマイナーな単語まで幅広く定義文を抽出することに成功した。

製品への統合と展望

抽出した定義文をAstrategy上のサービスに表示できるよう開発を進めており、将来的には文章要約やトレンド分析など新たな価値提供への活用も検討している。

影響分析・編集コメントを表示

影響分析

この取り組みは、自然言語処理の実用的な応用例として、情報過多の現代においてユーザーが必要な情報に素早くアクセスするための支援ツールを提供する点で意義がある。特定企業のサービス改善事例ではあるが、類似の情報構造化ニーズを持つ多くのメディア・分析プラットフォームへの応用可能性を示唆している。

編集コメント

特定サービス内のユーザー体験向上を目的とした、実用的で明確な課題解決型のNLP応用例。技術的には既存モデルの組み合わせだが、ビジネス上の具体的な価値提案が明確にされている点が評価できる。

はじめにこんにちは、Researcherの北山です。今回は自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行いましたので、その内容を共有いたします。本内容は弊社のTech Meetup #04でも発表したものです。ご興味のある方はそちらもご覧いただけますと幸いです。

自然言語処理とは自然言語処理（Natural Language Processing）とは、我々が日常のコミュニケーションで用いている言語（自然言語）を機械で処理する技術のことです。情報系の分野では単に「言語」というとプログラミング言語を連想する方も多いため、それと区別するために「自然言語」という用語が使われています。弊社では、この自然言語処理を活用し、ニュース記事内の情報を構造化することで顧客体験の向上に取り組んでいます。例えば、以下の例ではニュース記事から主題企業とその取り組み、またそれがどのフェーズにあるのかといった情報を抽出して構造化しています。こうした情報を蓄積し構造化しておくことで、その後の分析や情報提供に活用することができます。出典[1]

構造化事例: 定義文抽出今回は構造化の一例として、定義文抽出に取り組みました。ここでは、以下の図に示すようにニュース記事から単語の定義を説明している文（定義文）を抽出しています。出典[2][3][4]

定義文のニーズそもそも、なぜ定義文が必要になるのでしょうか？これまで、Astrategyをご利用のお客様がトレンドなどで分からない単語に出会った際に、外部サービス（Google検索など）で調べたり、個別のニュース記事を確認しなければならないという課題がありました。定義文抽出によって、あらかじめ用意された定義文をAstrategy内で提示できれば、こうした課題を解決することができます。出典[2]

定義文抽出の流れここからは、実際の定義文抽出の流れについて説明します。以下の図のように、ニュース記事を定義文判定器と主語抽出器の2種類で処理した後、抽出された定義文をデータベースに保存することで構造化を行います。保存されたデータベースにアクセスすることで、必要な時に定義文の情報を利用できるようになります。 2つの処理器について詳しく解説します。まず、定義文判定器ではニュース記事内の各文を、定義文であるか否かの2値に分類しています。ここでは、BERT（Bidirectional Encoder Representations from Transformers）という機械学習モデルを使用しています。BERTは大量のデータで学習された大規模事前学習済みモデルであり、追加で用意したデータでファインチューニング（fine-tuning）することで様々なタスクを解ける汎用モデルです。今回は、社内で作成した定義文用のデータを用いて判別器を作成しました。出典[2]

また、主語抽出器では、定義文判定器によって定義文と判定された文から主語部分を特定し抽出しています。ここでは、形態素解析（Morphological Analysis）という技術を用いています。形態素解析とは、文を単語単位に分割し、それぞれの単語に品詞情報などを付与する技術です。この情報を用いて、「複合名詞＋は/とは」が出現する箇所を文中から検出し、複合名詞部分だけを抜き出すアルゴリズムによって主語抽出器を作成しました。出典[2][3][4]

抽出結果以下は定義文抽出によって得られた定義文の一例です。メタバースやNFTのような近年流行りの単語だけでなく、バスクチーズケーキや「ぴえん〇〇」のようなニッチなものまで幅広く抽出することができました。表示順序は、検索語が文の主語と完全一致するものを優先表示し、その中では文が長いものが上位に来るようにしています。今後の製品リリースに向けては、お客様のニーズに合わせ、優先表示すべきメディアソースなど、並べ替えに使用する情報を選定していく必要があります。出典[5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24]

今後の展望現在、抽出した定義文をAstrategy上のサービスで表示できるよう開発を進めております。また、定義文の情報を活用した別の取り組み（文章要約やトレンド分析など）を進めることで、新たな価値を提供できるのではないかと考えております。

記事の出典 [1] https://thebridge.jp/tag/astrategy

[2] https://and-engineer.com/articles/YuORlxAAACAAKnUa

[3] https://www.zenchin.com/news/content-11.php

[4] https://prtimes.jp/main/html/rd/p/000003991.000003442.html

[6] https://diamond.jp/articles/-/295882

[7] https://finance.yahoo.co.jp/news/detail/20220511-00935059-fisf-stocks

[8] https://panora.tokyo/archives/43200

[9] https://prtimes.jp/main/html/rd/p/000000017.000060077.html

[10] https://prtimes.jp/main/html/rd/p/000000023.000081780.html

[11] https://prtimes.jp/main/html/rd/p/000000054.000025762.html

[12] https://prtimes.jp/main/html/rd/p/000002374.000003670.html

[13] https://japan.cnet.com/release/30613322/?ref=rss [14] https://www.weeklybcn.com/journal/explanation/detail/20220517_191017.html

[15] https://prtimes.jp/main/html/rd/p/000000191.000015685.html

[16] https://gigazine.net/news/20190801-pablo-basque-minipassion/

[17] https://news.yahoo.co.jp/articles/09e31317d0c351bf6d9079b1bc89fdcad95c8a58

[18] https://hayarimon.jp/seven-eleven-mont-blanc-wafu-parfait-basque-cheese-cake-8413/

[19] https://more.hpplus.jp/odekake/gourmet/50813

[20] https://www.atpress.ne.jp/news/240984

[21] https://www.rbbtoday.com/release/dreamnews/20210222/584199.html

[22] https://www.dreamnews.jp/press/0000232289/

原文を表示

はじめにこんにちは、Researcherの北山です。今回は自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行ったので、その内容を共有したいと思います。本内容は弊社のTech Meetup #04でも発表した内容になりますので、ご興味のある方はそちらもご覧いただけますと幸いです。

自然言語処理とは自然言語処理とは、我々が日常のコミュニケーションで用いている言語（自然言語）を機械で処理する技術のことです。情報系の分野では単に言語というとプログラミング言語を連想する方も多いため、それと区別するために自然言語という用語が使われています。自然言語処理が活用されている事例としては、例えば以下のようなものがあります。弊社では、そういった自然言語処理を活用し、ニュース記事内の情報を構造化することによって顧客体験の向上に取り組んでいます。例えば、以下の例ではニュース記事から主題企業とその取り組み、またそれがどのフェーズにあるのかといった情報を抽出して構造化しています。こうした情報を蓄積して構造化しておくことで、その後の分析や情報提供に活用することができます。出典[1]

構造化事例: 定義文抽出今回は構造化の一つとして、定義文抽出に取り組みました。ここでは、以下の図に示すようにニュース記事から単語の定義を説明している文（定義文）を抽出しています。出典[2][3][4]

定義文のニーズそもそも、なぜ定義文が必要になるのでしょうか？これまで、Astrategyを利用していただいているお客様がトレンドなどに分からない単語が出てきた際に、外部サービス（Google検索など）で調べなければならなかったり個別のニュース記事を見にいって中身を確認しなければいけなかったという課題がありました。定義文抽出によって予め用意された定義文をAstrategy内で提示することができれば、そういった課題を解決することができます。出典[2]

定義文抽出の流れここからは、実際の定義文抽出の流れについて説明します。以下の図のように、ニュース記事を定義文判定器と主語抽出器の2種類によって処理した後、抽出された定義文をデータベースに保存することによって構造化が行われます。そうして保存されたデータベースにアクセスすることによって、必要な時に定義文の情報を利用することができます。 2つの処理器についてもう少し詳しく解説すると、まず、定義文判定器ではニュース記事内の文章1つ1つを定義文であるか否かの2値に分類しています。こちらは、BERTという機械学習モデルを使用しています。BERTは大量のデータにより学習された大規模事前学習済みモデルであり、追加で用意したデータでfine-tuningすることにより様々なタスクを解くことのできる汎用モデルでもあります。今回は、社内で作成した定義文用のデータを用いて判別器を作成しました。出典[2]

また、主語抽出器では定義文判定器によって定義文と判定された文に対して、主語部分を特定し抽出しています。こちらは、形態素解析という技術を用いています。形態素解析とは、文を単語単位に分割しそれぞれの単語に対して品詞情報などを付与することのできる技術です。その情報を用いて「複合名詞＋は/とは」が出現する箇所を文中から検出し、複合名詞部分だけを抜き出すようなアルゴリズムによって主語抽出器を作成しました。出典[2][3][4]

抽出結果以下は定義文抽出によって獲得することのできた定義文の一例です。メタバースやNFTのような近年流行りの単語だけではなく、バスクチーズケーキやぴえん〇〇のようなマイナーそうなものまで幅広く抽出することができました。表示順は、検索している単語が文の主語と完全一致しているものを優先して表示しており、その中でも文の長さが長いものが上に来るようになっています。今後の製品上でのリリースに当たっては、お客様のニーズに合わせて優先して表示するべきメディアのソースなど、並べ替えに使用する情報を選定していく必要があります。出典[5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24]

今後の展望現在、抽出した定義文をAstrategy上のサービスに表示できるように開発を進めております。また、定義文の情報を活かした別の取り組み（文章要約やトレンド分析など）を進めることによって、新たな価値提供ができるのではないかと考えております。