情報抽出のコア技術『村田AIエンジン』について

『村田AIエンジン』は、鳥取大学自然言語処理研究室の村田真樹教授が開発しました※1
膨大な文書データを手早く把握できるように情報を整理し、見落としていた情報の発見を促します。

鳥取大学自然言語処理研究室へ<http://unicorn.ike.tottori-u.ac.jp/>

※1 岡﨑 健介, 村田 真樹, 馬 青
   複数文書からの重要情報の抽出と表の生成
   言語処理学会第24回年次大会発表論文集, pp.240-243, 2018.

このような問題はございませんか?

村田AIエンジンの原理

与えられたテキストデータを独自の方法で数値化

ここでAIが活躍します。文書に登場する単語を特徴ごとにAIにより数値化、さらにこれらの単語数値から文を数値化します。

数値化
数値化された「文」を3次元にプロットした図

数値化された文を分類

数値化された文を統計学の伝統的な手法であるクラスター分析にかけます。

AIによる特徴づけにより、文がグループに分類されます。

クラスタリング
クラスタリングの例

クラスターを文書ごとに表に整理

クラスターに分類した後、分類グループごとに情報の「重要度」を算出します。この値に従って表に整理します。

クラスターの「重要度」は、クラスターがどれだけ密にグループ化されているかを示す「密集度」と、クラスターがどれだけ多くの文書からメンバーを採用したかを示す「網羅度」で決定します。

そのあと、それぞれのクラスターにタイトルを付けます。ここでも文の数値を使い、クラスターの平均値に最も近い単語を選び出します。

重要度算出式

村田AIエンジンの活用についてのご相談

村田AIエンジンの活用や応用方法をご検討の際はダットジャパン株式会社プロダクト&サービス事業部までお気軽にお問い合わせください。
Webページからのお問い合わせは、 こちらのWEBフォーム をご利用ください。