マエカワの備忘録的な何か

思い立ったが吉日

メディア分析法 其の四 20170515

自然言語処理についてのお話

 コンピュータによる言語処理で、主に二種類のとらえ方ができる

  1. 言語理解・言語解析:言葉の意味をビット列に
  2. 言語生成:例えば、歌詞作成AIなど.適切に言語を表現


 今回は1についてのお話.
 言語理解には主に四つのスケールがある
  ①形態素解析形態素=単語.単語スケールで理解する.
  ②統語解析:単語のつながりを理解する
  ③意味解析
  ④談話解析:文章の塊で理解する.

形態素についてもうちょっと

 形態素意味のある最小単位=「語幹」+「接辞」
 この手のものは、区切りとしてスペースを使っている英語のようなものだと解析しやすい.しかし、日本語のように区切りがはっきりとわからない言語では、区切り方でいろいろな解釈ができる.例えば、「おきゃくさまようといれ」.「お客様用トイレ」なのか、「お客さまようトイレ」なのかが、字面からははっきり区別することができない.そして、このような言語は解析するのに一苦労する.

 形態素を解析することを「セグメンテーション」と呼び、セグメンテーションの基礎になるもの(辞書)には「見出し語」「読み情報」「品詞・連接情報」などを含んでいる.主な処理としては、この辞書との一致を見ていくことになる.
  cf)茶筅、JUMAN:これらは形態素解析用のプログラムで有名なもの.JUMANはあとから登録のし直しができるとかで使いやすいらしい.最も、用途に応じて区別したほうがいい.

研究について

 テーマ:TVに合ったCMの自動分析
 番組の情報をもとにそれぞれに類似したCMを自動的に挿入するために始められた(これまでは原始的な方法(すべて手作業)でCMを挿入していた).
 TVの視聴率が高いと広告料が高い.かといって、その広告がみられるかどうかはわからない(ザッピングや録画機能などによって、そもそもCMは見られないものになってきている).
 TVとCMの内容が似ていると、広告の効果は高くなる.さらに、CMの印象がTVに影響を与えるなどといったように、TVとCMは切っても切れない間柄.
  ⇒TVとCMが合わないと、商品のイメージ低下につながってしまうし、それによってTVの印象も悪くなってしまう.

 そこで、GRP(延べ視聴率)という考え方が出てくる.この考え方は、視聴率1%のTVに1本のCMを流すことを1GRPとみなしている(これが、テレビ局が視聴率を気にする原因.視聴率が低いとスポンサーがついてくれない.).CMがドラマ風だったり、タレントが起用されていたりすると、GRPは高くなる傾向にある(TVの視聴率に引っ張られているにもかかわらず、なぜCMの内容に相関があるのかはわからないが).

 TVとCMの類似性を解析するために、ベクトル空間モデルという手法をとっている.
 ベクトル空間モデル
  索引語 wコーパス(辞書) Dと質問 qを用いて行列的な方法で類似性を解析.

あとで分かりやすく追記します。

 LSA(潜在的意味解析)
  コーパスを変えることによって相関が出たりでなかったりする
   ⇒CMには文語的なコーパスではなく、もっとカジュアルなコーパスのほうが合う.このように、解析対象となるものに寄り添ってコーパスを決め、類似性を得る方法をLSAという.

  ベクトル空間モデルの次元圧縮をすることによって、解析を低コスト化.


 これを応用させて考えてみると、口語のソースを用いてAIを学習するとカジュアルに、逆に文語のソースを用いるとお堅いAIになるとのことだった.