脚本の内容と構成要素に基づく映画印象推定

本研究室学部4年中野が卒業研究及び第11回「データ工学と情報マネジメントに関するシンポジウム(DEIM2019)」の投稿のために行った研究について紹介する。

ユーザが好みの映画を検索する(印象を推定する)手法としてジャンルはポピュラーな指標であるが、その定義は明確でなく、同様の映画であっても別の映画情報サイトでは異なるジャンルが与えられている場合がある。本研究では映画に一律な基準でジャンルを付与すべく、映画の脚本データを用いて映画にジャンルを付与する分類器を作成した。

分類器の作成にあたり、次の手続きを行った

  • データベースサイトから1007件の脚本データを取得し、328次元の特徴量に変換する
  • 脚本データが一定以上存在する10ジャンルについて、データベースサイトで設定されたジャンルラベルを正解データとする機械学習(SVM)を行い分類器を作成する。

脚本データを特徴量に変換する際には脚本の構造と内容の2つの要素を切りだすべく、脚本理論に基づく独自手法と、文書の分散表現を得る手法であるDoc2vecを利用した。

提案手法と対抗手法と比較実験を行った結果、対象のジャンルの分類性能をF値で評価した時、最多のジャンルで最高値を記録した。