概要

自然言語処理ソフトウェア Salience

◆概要
Salienceとは、Lexalytics社によって開発された自然言語処理ソフトウェアです。テキスト分析、感情分析、トピック分類等を行います。構文解析、形態素解析などのルールベースの手法と機械学習の推論の手法の両方を用いています。

◆Lexalytics社
Lexalytics社は世界中の企業にテキスト分析と自然言語処理のソリューションを提供するソフトウェア会社です。Lexalytics社は、ソーシャルメディアのコメント、カスタマーレビュー、従業員のフィードバック、アンケート、契約書、医療ファイルなどの文書を、自然言語処理、機械学習などの技術を駆使して、有用なデータに変換します。誰が何を話しているのか、どのように感じているのか、なぜそのように感じているのかを明らかにします。

 社名  Lexalytics
 代表者  Jeff Catlin
 本社  アメリカ マサチューセッツ州 アマースト
 設立  2003年
 URL https://www.lexalytics.com/
 主な顧客 Angoss, voziq, hootsuite, Oracle, Microsoft, Sage Therapeutics
Biogen, DataSift, Cision, evolve24

適用事例

◆SOCIAL MEDIA LISTENING & SOCIAL MEDIA MONITORING
ソーシャルメディアは、消費者の話や意見の宝庫です。Lexalytics社は、山のようにあるソーシャルコンテンツを構造化されたデータに変換し、ハッシュタグ、スラング、崩れた文法などすべてを分析します。ソーシャルデータから、ソーシャルセンチメントや会話、瞬間的なものや時間的な傾向など、ソーシャルデータからより多くの価値を得ることができます。

◆VOICE OF CUSTOMER & CUSTOMER EXPERIENCE MANAGEMENT
レビュー、コメント、ツイート、アンケート等、構造化されていない顧客フィードバックを有用な形に変換します。人々が企業ブランド、製品、サービスをどのように認識し、どのように相互作用しているかを、理解できるような形にします。

◆VOICE OF EMPLOYEE (WORKFORCE/PEOPLE ANALYTICS)
アンケート、レビュー、メッセージ、Eメール、チャット等、社員のフィードバックを分析、構造化することで、従業員の意見を理解し、共有できる形にします。従業員の懸念により効果的に対応することで、従業員のエンゲージメントと生産性を向上させます。従業員の意見に対応することで、従業員の生産性を向上させます。

機能

機能一覧

 機能  説明
 Document Details  文字単位のN-gramで出現頻度を出力
 Sentiment  文章がnegative or positiveを判定
 Summary  文章を指定された文の数で要約
 Themes  文章のテーマを生成
 Query-defined Topics  定義したクエリによるトピック分類
 Concept-defined Topics  定義したキーワードによるトピック分類
 Document Classes  機械学習モデルによる分類
 Named Entities  文章の固有表現抽出
 Part-of-Speech Markup  文章を品詞ごとに色分け
  Named Entity Markup  抽出された固有表現を色付け
 Sentiment Markup  文章のネガティブ、ポジティブによる色分け

動作例

厚生労働省「新型コロナウイルス感染症対策の基本方針」[1]の3ページまでの文章を入力として、具体的にどのようなことができるのかを説明します。

◆Sentiment
入力した文章がポジティブなものかネガティブなものかスコアを出力します。ポジティブなものは正、ネガティブなものは負の値になります。

◆Summary
入力した文章を指定した文の数で要約します。

政府は、新型コロナウイルス感染症への対策は危機管理上重大な課題であるとの認識の下、国民の生命を守るため、これまで水際での対策、まん延防止、医療の提供等について総力を挙げて講じてきた。その後、政府や地方公共団体、医療関係者、専門家、事業者を含む国民の一丸となった取組により、全国の実効再生産数は1を下回っており、新規報告数は、オーバーシュートを免れ、減少傾向に転じるという一定の成果が現れはじめている。

◆Query-defined Topics
予めトピックとそれに対応する検索クエリを登録しておき、テキストがどのトピックになるのかを検索します。クエリにはANDやORなどブール演算子を使うことができます。
予め登録する情報の例:

トピック   検索クエリ
天災 台風 OR 地震 OR 洪水 OR 大水 OR 竜巻 OR 津波 OR 飢饉
科学 技術的な進歩 OR 研究室 OR 科学者 OR 研究者 OR 科学的 OR 科学
政治 議会 OR 国会 OR 選挙 OR 参議院 OR 衆議院
大衆文化 有名人 OR パパラッチ OR 有名 OR ハリウッド OR アイドル OR 映画
健康 健康 OR ヘルスケア OR 医療制度 OR 養生 OR 医師 OR 病院 OR 病気 OR 薬 OR 麻薬 OR 予防接種 OR 免疫

◆Concept-defined Topics
予めトピックとそれに対応するキーワードを登録しておき、テキストがどのトピックになるのかを推測します。キーワードに登録されている単語が出現しない場合でもトピック分類できます。また、入力文章中で判断材料となった単語も出力できます。
予め登録する情報の例:

トピック   キーワード
健康 健康, 医療, 製薬, 保険, 衛生, 病院, 健康_管理, 栄養, 予防, 体調, 体調_管理, 運動, 食生活, 生活_改善
労働 ファッション, アパレル, 衣類, スタイル, 流行
法律 宇宙, 星, 太陽, 天文, 宇宙船, JAXA, 惑星
政治 政治, 政治家, 政府, 議会, 内閣, 参院議院, 自民党, 民主党, 野党, 与党
災害 災害, 天災, 台風, 地震, 竜巻, 火山, 噴火, 津波, 隕石, 爆発, 事故, 避難, 被災, 土砂_災害

◆Themes
入力した文章のテーマを自動で出力します。

◆Named Entities
人の名前、場所の名前、「」で囲まれている文など、固有表現を抽出します。




参考文献

  1. [1]厚生労働省「新型コロナウイルス感染症対策の基本方針」

情報抽出

Salienceを用いた情報抽出

ここでは、一般に公開されているデータセットに対して、Salienceを用いて、どのようなことができるのかを紹介していきます。

レビューデータからの情報抽出

◆対象とするデータセット
Opin-Rank Data[2]
Tripadvisorからホテルのレビュー、Edmundsから車のレビューの2組の英語のデータセットを入力文章としました。

◆抽出結果
ある会社の車のレビュー(169件)
Summaryの機能を用いて5文で要約させた結果が以下になります。

It's a great car and I have a lot of fun with it...
09/03/2009 phxbuck I'll give you the fact that the vehicle gets great gas mileage, but the savings in gas is offset by the cost to maintain...
Over the life of the car so far, I have averaged 36.6 MPG...
The man who went over the car's features explained that speeding up and coasting would be the best way to save fuel...
Love almost everything about it - only thing I would change is the seats and driving position...

要約文を見ていくと、"great gas mileage"とあるように燃費の良さについて述べられていることや、最後の文章の"only thing I would change is the seats and driving position"とあるように、座席に関して不満があることが分かります。

次にThemesの機能を使って、レビューのテーマを出力させました。

出力されたthemeそれぞれに対してsentimentのスコアが付けられるので、どのような話題があったかだけでなく、その話題についてポジティブなことが述べられていたのか、ネガティブなことが述べられていたのかが判断できます。 このようにレビューを入力文章とすると、どの点が良かったのか、どの点に不満があるのかを確認できます。



様々なトピックがある文章からの情報抽出

◆対象とするデータセット
Wikipedia「明治」[3]
表や脚注以外の文章を入力としました。

◆抽出結果
入力文章には、明治時代に関する様々な事柄が書かれています。この中から自分が欲しいデータを抽出するには、固有表現抽出が効果的です。固有表現抽出を行った結果を以下に示します。

固有表現抽出の結果(一部)

Salienceでは、さらに抽出した単語ごとにTheme, Sentiment, Topic分析が行われます。抽出された固有表現から1つ単語を選択すると、以下のようにその単語に関するデータを見ていくことができます。

さらにこの単語のThemeをみていくと、どんな話題があったのかが確認できます。

他の単語に関しても見てみます。

このように話題が様々な文章に対しても、抽出された固有表現のthemeを見ていくだけで、目的の人や場所などに関して、どのようなことが述べられていたのか確認できます。

参考文献

  1. [2]Ganesan, K. A., and C. X. Zhai, “Opinion-Based Entity Ranking“, Information Retrieval.
  2. [3]「明治」フリー百科事典『ウィキペディア(Wikipedia)』