第3回:アダルト動画のタグでアソシエーション分析
当ブログについて
アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com
アダルト動画のタグでアソシエーション分析
第3回の今回は各動画についているタグでアソシエーション分析をしてみたいと思います。
何が分かるかというと「実は(orやっぱり)タグAとタグBは一緒に出てくる」みたいなことが分かります。
アソシエーション分析については、存在や用途はなんとなく知っていたものの実際にやるのは初めてなので、以下の書籍を参考にしました。
- 作者: 金明哲
- 出版社/メーカー: 森北出版
- 発売日: 2007/10/01
- メディア: 単行本(ソフトカバー)
- 購入: 36人 クリック: 694回
- この商品を含むブログ (64件) を見る
アソシエーション分析について
アソシエーション分析の目的は「Rによるデータサイエンス」によると"トランザクションデータから、頻出するアイテムの組み合わせの規則を漏れなく抽出し、その中から興味深い結果を探し出すこと"だそうです。*1
頻出する組み合わせの規則の有名な例がスーパーの客の購入行動における「ビールとおむつ」ですね。一見関係なさそうに思える(というか人間の仮説ベースだとそもそも「ビールを買ってる人ってどれくらいおむつを買ってるんだろう?」という話にならない)組み合わせですが実は頻出していたりするそうです。
そういう意外な組み合わせから、やっぱりそうだなという組み合わせまで、数値ベースで列挙してみるというのがアソシエーション分析です(雑)*2。
今回は各動画に付けられたタグの組み合わせを1トランザクションとし、Aprioriというアルゴリズムを使って組み合わせの規則を抽出するアソシエーション分析を行います。
タグの使われ具合
アソシエーション分析の前にまずはタグの使われ方の全体像を見てみたいと思います。
下のグラフは縦軸にそのタグが使われた動画の割合を取り、使われる割合の上位20位を示したものです。
男性読者の方にとっては馴染み深いタグが並んでいるかと思います。
特徴としては前回記事でも触れた内容ですが、「巨乳」タグが3割近い動画で使われており2位以下を寄せ付けない感じになっています。
とは言っても上位20位なのでこいつらはかなり強い部類のタグです。タグは全部で1163種類あるのですが、平均被使用割合は0.22%と20位の「スレンダー」タグの1/10にも満たない数字です。第1回記事では動画自体が上位数%の強い動画とその他の弱い動画で構成されるという話をしましたが、動画についているタグも同様の構造をしているようです。
アソシエーション分析
では本題のアソシエーション分析に入っていきたいと思います。技術ブログではないので結果だけ紹介します。
結果の見方
lhs rhs 規則の出現頻度 規則の確からしさ 1 {ごっくん} => {フェラ} 0.010415578 0.8355899
例えば上の例だと、「ごっくん」タグが付いていたら「フェラ」タグも付いているという規則を表しています。
その規則が出現した動画の割合が全体の0.0104で、「ごっくん」タグが付いている動画のうち、「フェラ」タグも付いている動画の割合が0.8356となります。
結果
まずは0.5%(623件)以上の動画に出現するタグ1つ→タグ1つの規則を見てみます。
lhs rhs 規則の出現頻度 規則の確からしさ 1 {ごっくん} => {フェラ} 0.010415578 0.8355899 2 {ロリ系} => {美少女} 0.020099816 0.7752635 3 {ロングヘアー} => {フェラ} 0.007980455 0.7620875 4 {ロングヘアー} => {手コキ} 0.006742801 0.6438987 5 {手コキ} => {フェラ} 0.035803551 0.6385266 6 {ごっくん} => {美少女} 0.007626839 0.6118633 7 {個人撮影} => {素人} 0.010712937 0.6089539 8 {ごっくん} => {顔射} 0.007570582 0.6073501 9 {ごっくん} => {手コキ} 0.007546472 0.6054159 10 {ごっくん} => {ぶっかけ} 0.007450032 0.5976789 11 {ロリ系} => {フェラ} 0.015317972 0.5908246 12 {ごっくん} => {巨乳} 0.007265187 0.5828498 13 {ごっくん} => {素人} 0.007168747 0.5751128 14 {ごっくん} => {ロリ系} 0.007088380 0.5686654 15 {ごっくん} => {無修正(モロ)} 0.007008013 0.5622179 16 {個人撮影} => {ハメ撮り} 0.009684238 0.5504797 17 {ごっくん} => {ハメ撮り} 0.006766911 0.5428756 18 {ぶっかけ} => {フェラ} 0.011532681 0.5297158 19 {無修正(モロ)} => {素人} 0.026183607 0.5235417 20 {ロングヘアー} => {素人} 0.005328340 0.5088258
いかがでしょうか。表示する規則の数は目視で確認できるくらいになるように調整しています。
個人的には「ロングヘアー」タグの挙動が面白いなと思いました。例えば「ロングヘアー」タグが使われた動画の76%で「フェラ」タグも使われているという。
次に0.75%(934件)以上の動画に出現するタグ2つ→タグ1つの規則を見てみます。
lhs rhs 規則の出現頻度 規則の確からしさ 1 {顔射,手コキ} => {フェラ} 0.008076895 0.9644914 2 {ロリ系,手コキ} => {フェラ} 0.009861045 0.9631083 3 {ぶっかけ,手コキ} => {フェラ} 0.008382290 0.9621771 4 {ハメ撮り,手コキ} => {フェラ} 0.009258292 0.9616027 5 {手コキ,無修正(モロ)} => {フェラ} 0.012103288 0.9519595 6 {手コキ,中出し} => {フェラ} 0.009153815 0.9467997 7 {ぶっかけ,ロリ系} => {フェラ} 0.007642913 0.9462687 8 {手コキ,素人} => {フェラ} 0.015277789 0.9043768 9 {手コキ,美少女} => {フェラ} 0.015824285 0.9040404 10 {ロリ系,手コキ} => {美少女} 0.009153815 0.8940345 11 {ハメ撮り,手コキ} => {素人} 0.008591245 0.8923205 12 {ハメ撮り,ロリ系} => {美少女} 0.009836935 0.8875997 13 {ロリ系,中出し} => {美少女} 0.008157262 0.8795494 14 {ロリ系,無修正(モロ)} => {美少女} 0.010359321 0.8651007 15 {フェラ,ロリ系} => {美少女} 0.013204317 0.8620147 16 {ロリ系,素人} => {美少女} 0.011026368 0.8558952 17 {ロリ系,巨乳} => {美少女} 0.009917302 0.8486933 18 {ハメ撮り,無修正(モロ)} => {素人} 0.017511995 0.8472006 19 {巨乳,手コキ} => {フェラ} 0.014353567 0.8428504 20 {ごっくん} => {フェラ} 0.010415578 0.8355899 21 {ぶっかけ,美少女} => {フェラ} 0.008776089 0.8285281 22 {ハメ撮り,ロリ系} => {素人} 0.009161851 0.8266860 23 {ぶっかけ,顔射} => {フェラ} 0.007948308 0.8173554 24 {ぶっかけ,巨乳} => {フェラ} 0.008092969 0.8030303 25 {顔射,美少女} => {フェラ} 0.008189409 0.8017309 26 {ハメ撮り,フェラ} => {素人} 0.014747366 0.8016601 27 {ハメ撮り,手コキ} => {美少女} 0.007715243 0.8013356 28 {手コキ,中出し} => {無修正(モロ)} 0.007747390 0.8013300
こちらも興味深いですね。
タイトルにもしましたが、「手コキ」してたら「フェラ」もしてそうだと。これ実は上のタグ1つ→タグ1つの規則にも出ていて、
lhs rhs 規則の出現頻度 規則の確からしさ 5 {手コキ} => {フェラ} 0.035803551 0.6385266
となっています。「手コキ」タグが付いてると64%の確率で「フェラ」タグが付いているし、「ロリ系」「ハメ撮り」「美少女」「素人」あたりが付くとよりその確率が高まるようですね。
あと28番目の
lhs rhs 規則の出現頻度 規則の確からしさ 28 {手コキ,中出し} => {無修正(モロ)} 0.007747390 0.8013300
も面白いなと思いました。パッと見全然関係なさそうですもんね。
まとめ
いかがでしたでしょうか。
個人的にアソシエーション分析はこのデータ収集したときからやろうと思って楽しみにしていました。ゆえに裏ではまだまだいじくり回しているのでここに書いてないおもしろい結果もあったりしますが今回はここまでにします。
今回もとても有益でしたね。