メディア分析法 其の四 20170515
自然言語処理についてのお話
コンピュータによる言語処理で、主に二種類のとらえ方ができる
- 言語理解・言語解析:言葉の意味をビット列に
- 言語生成:例えば、歌詞作成AIなど.適切に言語を表現
今回は1についてのお話.
言語理解には主に四つのスケールがある
①形態素解析:形態素=単語.単語スケールで理解する.
②統語解析:単語のつながりを理解する
③意味解析
④談話解析:文章の塊で理解する.
形態素についてもうちょっと
形態素=意味のある最小単位=「語幹」+「接辞」
この手のものは、区切りとしてスペースを使っている英語のようなものだと解析しやすい.しかし、日本語のように区切りがはっきりとわからない言語では、区切り方でいろいろな解釈ができる.例えば、「おきゃくさまようといれ」.「お客様用トイレ」なのか、「お客さまようトイレ」なのかが、字面からははっきり区別することができない.そして、このような言語は解析するのに一苦労する.
形態素を解析することを「セグメンテーション」と呼び、セグメンテーションの基礎になるもの(辞書)には「見出し語」「読み情報」「品詞・連接情報」などを含んでいる.主な処理としては、この辞書との一致を見ていくことになる.
cf)茶筅、JUMAN:これらは形態素解析用のプログラムで有名なもの.JUMANはあとから登録のし直しができるとかで使いやすいらしい.最も、用途に応じて区別したほうがいい.
研究について
テーマ:TVに合ったCMの自動分析
番組の情報をもとにそれぞれに類似したCMを自動的に挿入するために始められた(これまでは原始的な方法(すべて手作業)でCMを挿入していた).
TVの視聴率が高いと広告料が高い.かといって、その広告がみられるかどうかはわからない(ザッピングや録画機能などによって、そもそもCMは見られないものになってきている).
TVとCMの内容が似ていると、広告の効果は高くなる.さらに、CMの印象がTVに影響を与えるなどといったように、TVとCMは切っても切れない間柄.
⇒TVとCMが合わないと、商品のイメージ低下につながってしまうし、それによってTVの印象も悪くなってしまう.
そこで、GRP(延べ視聴率)という考え方が出てくる.この考え方は、視聴率1%のTVに1本のCMを流すことを1GRPとみなしている(これが、テレビ局が視聴率を気にする原因.視聴率が低いとスポンサーがついてくれない.).CMがドラマ風だったり、タレントが起用されていたりすると、GRPは高くなる傾向にある(TVの視聴率に引っ張られているにもかかわらず、なぜCMの内容に相関があるのかはわからないが).
TVとCMの類似性を解析するために、ベクトル空間モデルという手法をとっている.
ベクトル空間モデル
索引語とコーパス(辞書)と質問を用いて行列的な方法で類似性を解析.
あとで分かりやすく追記します。
LSA(潜在的意味解析)
コーパスを変えることによって相関が出たりでなかったりする
⇒CMには文語的なコーパスではなく、もっとカジュアルなコーパスのほうが合う.このように、解析対象となるものに寄り添ってコーパスを決め、類似性を得る方法をLSAという.
ベクトル空間モデルの次元圧縮をすることによって、解析を低コスト化.
これを応用させて考えてみると、口語のソースを用いてAIを学習するとカジュアルに、逆に文語のソースを用いるとお堅いAIになるとのことだった.