第4回:動画タグの共起性でAV女優をクラスタリング~階層的クラスタリング~
当ブログについて
アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com
動画タグの共起性でAV女優をクラスタリング
今回は、ざっくり言うと「女優さんのクラスタリング(グループ分け)」をします。クラスタリングなので何らかの基準で「近い」あるいは「似ている」ものを集めるわけですが今回は「一緒に使われるタグが何か」ということを参考に女優さんの「近さ」「似ている具合」を測ります。詳しくは後述します。
階層的クラスタリング
階層的クラスタリングとは「Rによるデータサイエンス」(金明哲)によれば、「個体間の類似度あるいは非類似度(距離)にもとづいて、最も似ている個体から順次に集めてクラスターを作っていく方法」です。クラスター内での個体間の近さまで表現するので、非階層的クラスタリングに比べて、サンプルサイズがあまり大きくない場合に便利な方法です。
対象女優一覧
> classter_use_actress [1] "上原亜衣" "JULIA" "仁科百華" "波多野結衣" "明日花キララ" [6] "麻美ゆま" "鈴村あいり" "成瀬心美" "桜井あゆ" "Rio" [11] "大槻ひびき" "希志あいの" "北川瞳" "春菜はな" "あやみ旬果" [16] "西條るり" "里美ゆりあ" "佐山愛" "麻倉憂" "みづなれい" [21] "瑠川リナ"
実はこの対象女優を絞る作業が面倒でした。1000種類くらいあるタグの中から女優名を表すタグを抽出しなければならないからです。MeCabで形態素解析にかけ「人名」と判断されたタグのうちさらに出現頻度150(/124429)回以上のタグを使用しました。
一応有名というか聞いたことのある女優さんばかりになったので、この21人でクラスタリングを行います。
女優同士の「近さ」について
クラスタリングには個体間の距離(大きければ大きいほど似ていない)あるいは類似度(大きければ大きいほど似ている)が必要になります。持っているデータはますたべの各動画に対して再生数やタグなどか付いたものなので、なんらかの方法で女優同士の距離または類似度を定義しなければいけません。
そこで今回は、クラスタリング対象の各女優について、その女優名以外のタグ(「巨乳」「熟女」など)が同じ動画に使われる(共起する)確率を計算し、その確率をその女優のスコア(「巨乳」具合、「熟女」具合など)として使うことにしました。
例えば女優Aのタグが付いた動画のうち80%に「巨乳」タグも付いているならば女優Aの「巨乳」スコアは0.8となり、同様に女優Bの「巨乳」スコアが0.7、女優Cの「巨乳」スコアが0.4ならば「巨乳」(具合?)という指標については女優Aは女優Cよりも女優Bに近い(似ている)ということになります。これをクラスタリング対象の女優タグを除いた1148種類のタグについて求め、女優間の距離を求めます。
結果
結果は以下のようになりました。
距離の定義が一般的ではないので、結果を見て納得感があるかどうかが結構大事なのですがいかがでしょうか?
個人的よく知ってるところで言うと、「春菜はな」さんと「麻美ゆま」さんが近いというのが全然納得できない感じがします。
まとめ
今回はタグの共起具合から有名女優について階層的クラスタリングをしました。
結果はすっきりした感じではないですが(逆どうなってたら納得だったのかという話はある)、見る人が見れば面白いのかもしれません。
次回は対象女優を増やして非階層的クラスタリングを行いたいと思います。