AnalytiXVideos

アダルト動画サイトをデータから分析します

第3回:アダルト動画のタグでアソシエーション分析

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

アダルト動画のタグでアソシエーション分析

第3回の今回は各動画についているタグでアソシエーション分析をしてみたいと思います。
何が分かるかというと「実は(orやっぱり)タグAとタグBは一緒に出てくる」みたいなことが分かります。
アソシエーション分析については、存在や用途はなんとなく知っていたものの実際にやるのは初めてなので、以下の書籍を参考にしました。

Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

アソシエーション分析について

アソシエーション分析の目的は「Rによるデータサイエンス」によると"トランザクションデータから、頻出するアイテムの組み合わせの規則を漏れなく抽出し、その中から興味深い結果を探し出すこと"だそうです。*1
頻出する組み合わせの規則の有名な例がスーパーの客の購入行動における「ビールとおむつ」ですね。一見関係なさそうに思える(というか人間の仮説ベースだとそもそも「ビールを買ってる人ってどれくらいおむつを買ってるんだろう?」という話にならない)組み合わせですが実は頻出していたりするそうです。
そういう意外な組み合わせから、やっぱりそうだなという組み合わせまで、数値ベースで列挙してみるというのがアソシエーション分析です(雑)*2。 今回は各動画に付けられたタグの組み合わせを1トランザクションとし、Aprioriというアルゴリズムを使って組み合わせの規則を抽出するアソシエーション分析を行います。

タグの使われ具合

アソシエーション分析の前にまずはタグの使われ方の全体像を見てみたいと思います。
下のグラフは縦軸にそのタグが使われた動画の割合を取り、使われる割合の上位20位を示したものです。

f:id:shitofumei:20160508015640p:plain

男性読者の方にとっては馴染み深いタグが並んでいるかと思います。
特徴としては前回記事でも触れた内容ですが、「巨乳」タグが3割近い動画で使われており2位以下を寄せ付けない感じになっています。
とは言っても上位20位なのでこいつらはかなり強い部類のタグです。タグは全部で1163種類あるのですが、平均被使用割合は0.22%と20位の「スレンダー」タグの1/10にも満たない数字です。第1回記事では動画自体が上位数%の強い動画とその他の弱い動画で構成されるという話をしましたが、動画についているタグも同様の構造をしているようです。

アソシエーション分析

では本題のアソシエーション分析に入っていきたいと思います。技術ブログではないので結果だけ紹介します。

結果の見方
                lhs             rhs 規則の出現頻度 規則の確からしさ
1        {ごっくん} =>         {フェラ}    0.010415578        0.8355899

例えば上の例だと、「ごっくん」タグが付いていたら「フェラ」タグも付いているという規則を表しています。
その規則が出現した動画の割合が全体の0.0104で、「ごっくん」タグが付いている動画のうち、「フェラ」タグも付いている動画の割合が0.8356となります。

結果

まずは0.5%(623件)以上の動画に出現するタグ1つ→タグ1つの規則を見てみます。

                lhs                 rhs 規則の出現頻度 規則の確からしさ
1        {ごっくん} =>         {フェラ}    0.010415578        0.8355899
2          {ロリ系} =>         {美少女}    0.020099816        0.7752635
3    {ロングヘアー} =>         {フェラ}    0.007980455        0.7620875
4    {ロングヘアー} =>         {手コキ}    0.006742801        0.6438987
5          {手コキ} =>         {フェラ}    0.035803551        0.6385266
6        {ごっくん} =>         {美少女}    0.007626839        0.6118633
7        {個人撮影} =>           {素人}    0.010712937        0.6089539
8        {ごっくん} =>           {顔射}    0.007570582        0.6073501
9        {ごっくん} =>         {手コキ}    0.007546472        0.6054159
10       {ごっくん} =>       {ぶっかけ}    0.007450032        0.5976789
11         {ロリ系} =>         {フェラ}    0.015317972        0.5908246
12       {ごっくん} =>           {巨乳}    0.007265187        0.5828498
13       {ごっくん} =>           {素人}    0.007168747        0.5751128
14       {ごっくん} =>         {ロリ系}    0.007088380        0.5686654
15       {ごっくん} => {無修正(モロ)}    0.007008013        0.5622179
16       {個人撮影} =>       {ハメ撮り}    0.009684238        0.5504797
17       {ごっくん} =>       {ハメ撮り}    0.006766911        0.5428756
18       {ぶっかけ} =>         {フェラ}    0.011532681        0.5297158
19 {無修正(モロ)} =>           {素人}    0.026183607        0.5235417
20   {ロングヘアー} =>           {素人}    0.005328340        0.5088258

いかがでしょうか。表示する規則の数は目視で確認できるくらいになるように調整しています。
個人的には「ロングヘアー」タグの挙動が面白いなと思いました。例えば「ロングヘアー」タグが使われた動画の76%で「フェラ」タグも使われているという。

次に0.75%(934件)以上の動画に出現するタグ2つ→タグ1つの規則を見てみます。

                         lhs                 rhs 規則の出現頻度 規則の確からしさ
1              {顔射,手コキ} =>         {フェラ}    0.008076895        0.9644914
2            {ロリ系,手コキ} =>         {フェラ}    0.009861045        0.9631083
3          {ぶっかけ,手コキ} =>         {フェラ}    0.008382290        0.9621771
4          {ハメ撮り,手コキ} =>         {フェラ}    0.009258292        0.9616027
5    {手コキ,無修正(モロ)} =>         {フェラ}    0.012103288        0.9519595
6            {手コキ,中出し} =>         {フェラ}    0.009153815        0.9467997
7          {ぶっかけ,ロリ系} =>         {フェラ}    0.007642913        0.9462687
8              {手コキ,素人} =>         {フェラ}    0.015277789        0.9043768
9            {手コキ,美少女} =>         {フェラ}    0.015824285        0.9040404
10           {ロリ系,手コキ} =>         {美少女}    0.009153815        0.8940345
11         {ハメ撮り,手コキ} =>           {素人}    0.008591245        0.8923205
12         {ハメ撮り,ロリ系} =>         {美少女}    0.009836935        0.8875997
13           {ロリ系,中出し} =>         {美少女}    0.008157262        0.8795494
14   {ロリ系,無修正(モロ)} =>         {美少女}    0.010359321        0.8651007
15           {フェラ,ロリ系} =>         {美少女}    0.013204317        0.8620147
16             {ロリ系,素人} =>         {美少女}    0.011026368        0.8558952
17             {ロリ系,巨乳} =>         {美少女}    0.009917302        0.8486933
18 {ハメ撮り,無修正(モロ)} =>           {素人}    0.017511995        0.8472006
19             {巨乳,手コキ} =>         {フェラ}    0.014353567        0.8428504
20                {ごっくん} =>         {フェラ}    0.010415578        0.8355899
21         {ぶっかけ,美少女} =>         {フェラ}    0.008776089        0.8285281
22         {ハメ撮り,ロリ系} =>           {素人}    0.009161851        0.8266860
23           {ぶっかけ,顔射} =>         {フェラ}    0.007948308        0.8173554
24           {ぶっかけ,巨乳} =>         {フェラ}    0.008092969        0.8030303
25             {顔射,美少女} =>         {フェラ}    0.008189409        0.8017309
26         {ハメ撮り,フェラ} =>           {素人}    0.014747366        0.8016601
27         {ハメ撮り,手コキ} =>         {美少女}    0.007715243        0.8013356
28           {手コキ,中出し} => {無修正(モロ)}    0.007747390        0.8013300

こちらも興味深いですね。
タイトルにもしましたが、「手コキ」してたら「フェラ」もしてそうだと。これ実は上のタグ1つ→タグ1つの規則にも出ていて、

                   lhs              rhs      規則の出現頻度     規則の確からしさ
5          {手コキ} =>         {フェラ}    0.035803551        0.6385266

となっています。「手コキ」タグが付いてると64%の確率で「フェラ」タグが付いているし、「ロリ系」「ハメ撮り」「美少女」「素人」あたりが付くとよりその確率が高まるようですね。

あと28番目の

                   lhs              rhs      規則の出現頻度     規則の確からしさ
28           {手コキ,中出し} => {無修正(モロ)}    0.007747390        0.8013300

も面白いなと思いました。パッと見全然関係なさそうですもんね。

まとめ

いかがでしたでしょうか。
個人的にアソシエーション分析はこのデータ収集したときからやろうと思って楽しみにしていました。ゆえに裏ではまだまだいじくり回しているのでここに書いてないおもしろい結果もあったりしますが今回はここまでにします。
今回もとても有益でしたね。

*1:データ分析的な話をすると個人的にこの記述は好きです。アルゴリズムが"漏れ無く"列挙するプロセスによって人間が事前に仮説として持ち得ない知見が生まれる可能性が生まれ、人間が"興味深い"かどうかを判断するプロセスには結局は人間が必要というデータ分析の真髄が詰まっているように感じるので

*2:そこで見つかった組み合わせ(特に「ビールとおむつ」のような一見すると謎なもの)に対して「なぜそうなるんだろう」ということを考えるのは人間に仕事です。