メディア分析法　其の四　20170515 - マエカワの備忘録的な何か

自然言語処理についてのお話

　コンピュータによる言語処理で、主に二種類のとらえ方ができる

言語理解・言語解析：言葉の意味をビット列に
言語生成：例えば、歌詞作成AIなど．適切に言語を表現

　今回は1についてのお話．
　言語理解には主に四つのスケールがある
　　①形態素解析：形態素＝単語．単語スケールで理解する．
　　②統語解析：単語のつながりを理解する
　　③意味解析
　　④談話解析：文章の塊で理解する．

形態素についてもうちょっと

　形態素＝意味のある最小単位＝「語幹」＋「接辞」
　この手のものは、区切りとしてスペースを使っている英語のようなものだと解析しやすい．しかし、日本語のように区切りがはっきりとわからない言語では、区切り方でいろいろな解釈ができる．例えば、「おきゃくさまようといれ」．「お客様用トイレ」なのか、「お客さまようトイレ」なのかが、字面からははっきり区別することができない．そして、このような言語は解析するのに一苦労する．

　形態素を解析することを「セグメンテーション」と呼び、セグメンテーションの基礎になるもの(辞書)には「見出し語」「読み情報」「品詞・連接情報」などを含んでいる．主な処理としては、この辞書との一致を見ていくことになる．
　　cf)茶筅、JUMAN：これらは形態素解析用のプログラムで有名なもの．JUMANはあとから登録のし直しができるとかで使いやすいらしい．最も、用途に応じて区別したほうがいい．

研究について

　テーマ：TVに合ったCMの自動分析
　番組の情報をもとにそれぞれに類似したCMを自動的に挿入するために始められた(これまでは原始的な方法(すべて手作業)でCMを挿入していた)．
　TVの視聴率が高いと広告料が高い．かといって、その広告がみられるかどうかはわからない(ザッピングや録画機能などによって、そもそもCMは見られないものになってきている)．
　TVとCMの内容が似ていると、広告の効果は高くなる．さらに、CMの印象がTVに影響を与えるなどといったように、TVとCMは切っても切れない間柄．
　　⇒TVとCMが合わないと、商品のイメージ低下につながってしまうし、それによってTVの印象も悪くなってしまう．

　そこで、GRP(延べ視聴率)という考え方が出てくる．この考え方は、視聴率1%のTVに1本のCMを流すことを1GRPとみなしている(これが、テレビ局が視聴率を気にする原因．視聴率が低いとスポンサーがついてくれない．)．CMがドラマ風だったり、タレントが起用されていたりすると、GRPは高くなる傾向にある(TVの視聴率に引っ張られているにもかかわらず、なぜCMの内容に相関があるのかはわからないが)．

　TVとCMの類似性を解析するために、ベクトル空間モデルという手法をとっている．
　ベクトル空間モデル
　　索引語 $w$ とコーパス(辞書) $D$ と質問 $q$ を用いて行列的な方法で類似性を解析．