長話も一目で確認できる!セマンティック解析とワードクラウド活用術

長い会議に参加していると、「この内容、簡単にまとめられそうだな」と感じることはないでしょうか。また、会議の録音を聞き返しながら議事録を作成していると、話題の方向性が徐々に逸れていき、最終的な結論をうまくまとめられないこともあると思います。

こうした場面で力を発揮するのが、ChatGPTをはじめとした生成AIによる「議事録作成」や「文章要約」の機能です。これらは「セマンティック解析(意味解析)」の仕組みを活用しています。

頻出単語をカウントする「セマンティック分析」とは

セマンティック解析の基本には、BoW(Bag-of-Words)アルゴリズムがあります。これは、文章を単語に分解し、語順を無視して「単語の出現頻度」をカウントするものです。
イメージとしては、袋(bag)にいろんな単語(words)が詰まっているような感じです。例えば、Wikipediaのページをもとに「袋」を作ると、袋の中にある単語はすべてページのテーマに関連しているはずで、頻出単語はテーマと強い関係があると予想されます。
しかし、文章中で最も頻出する単語が「てにをは」や「ですます」といった助詞であることもあります。このような頻出単語は情報としての価値が低いため、段落単位で「その段落で特によく使われる単語」に注目し、「文章全体での希少性」を加味して評価する必要があります。

生成AIはなぜ文脈を理解できるのか?

では、生成AIが文脈を理解できる理由は何でしょうか。それが今回のテーマです。
生成AIの原型は「語意分析」にあります。これは、自然言語処理というデータサイエンスの一分野で、人間が機械に会話に隠された本音や気持ちを理解させるために開発された技術です。長い年月をかけた発展を経て、今の語意分析は会話を分解して理解するだけでなく、意味的に近い単語をつなげて意味のあるフレーズや文章を作り出すことができるようになりました。これこそが生成AIチャットボットの本質です。

単語の重みづけを可能にする「TF-IDFアルゴリズム」

そこで、単語に別の重みを付ける方法として、TF-IDFアルゴリズムが登場します。

TF-IDFアルゴリズムは、その名の通り2つの要素から成ります。
具体的には、「ある単語がどれだけ頻繁に登場するか(TF)」と「他の文章にも登場しているかどうか(IDF)」の2つの指標を掛け合わせて単語の重要度を算出します。
これにより、フレーズごとに重みを見ていくと、重要度の高い単語、つまりキーワードを見つけることができます。

今回は、TF-IDFアルゴリズムの検証用に3つの文章を用意しました。
各文章を分解し、出現回数からTF値を計算、さらに文章全体におけるIDF値を算出しました。

そして、両者を掛け合わせて、TF-IDF値に基づいて各文章におけるキーワードを抽出しました。今回は単純に小数点以下2位までの数値を基準に決めましたが、分析対象を名詞だけにするなど、他の条件を加えればより精密に抽出することも可能です。

 

TF-IDFアルゴリズムの活用例

文章からキーワードが見つけ出せれば、活用の幅は広がります。例えば、チャットボットでは、検索モデルがユーザーからの質問のキーワードとデータベース内のキーワードを比較し、数学的な近似度が高いものを選んで回答を生成できます。
また、商品名のリストからキーワードを抽出すれば、独特なアピールポイントが見つかるかもしれませんし、売れ筋商品のリストから「売れる形容詞」を抽出することもできます。
さらに、抽出したキーワードをワードクラウドとして活用することもできます。簡単に言えば、キーワードを単なるリストではなく、クラウドのように密集して配置し、ランキングに応じて文字の大きさを変えるものです。視覚的にインパクトがあり、注目すべきポイントも明確に表現されます。先ほど抽出したキーワード(名詞のみ)を使ってワードクラウドを作成してみました。

まとめ

本記事では、長時間の会議や大量の文章を効率的に処理するための「セマンティック解析」と「キーワード抽出」の手法について紹介しました。
特に、TF-IDFアルゴリズムを用いることで、文章内の重要な単語を特定し、文章の要点を的確に把握することができます。
このようにして得られたキーワードは、議事録作成の効率化やチャットボットの応答精度向上、商品データの分析など、さまざまな場面で活用できます。
さらに、ワードクラウドとして視覚化すれば、情報の要点を一目で伝えられる強力なツールになります。セマンティック解析は、複雑な情報をシンプルにし、ビジネスに実践的な価値をもたらす有力なアプローチです。

お問い合わせフォームはこちら


執筆者紹介
洪 維均(こう いきん)
2024年中途入社。事業推進部企画開発第1チーム所属。
大学時代は衛星画像分析と統計学を専攻。
金融や卸売り業界を経験し、現在はデータコムでデータサイエンティストとAI開発を担当。
データ分析大好きです!よろしくお願いします!
関連記事
関連記事がありません。