読者です 読者をやめる 読者になる 読者になる

AnalytiXVideos

アダルト動画サイトをデータから分析します

第4回:動画タグの共起性でAV女優をクラスタリング~階層的クラスタリング~

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

動画タグの共起性でAV女優をクラスタリング

今回は、ざっくり言うと「女優さんのクラスタリング(グループ分け)」をします。クラスタリングなので何らかの基準で「近い」あるいは「似ている」ものを集めるわけですが今回は「一緒に使われるタグが何か」ということを参考に女優さんの「近さ」「似ている具合」を測ります。詳しくは後述します。

階層的クラスタリング

階層的クラスタリングとは「Rによるデータサイエンス」(金明哲)によれば、「個体間の類似度あるいは非類似度(距離)にもとづいて、最も似ている個体から順次に集めてクラスターを作っていく方法」です。クラスター内での個体間の近さまで表現するので、非階層的クラスタリングに比べて、サンプルサイズがあまり大きくない場合に便利な方法です。

対象女優一覧

> classter_use_actress
 [1] "上原亜衣"     "JULIA"        "仁科百華"     "波多野結衣"   "明日花キララ"
 [6] "麻美ゆま"     "鈴村あいり"   "成瀬心美"     "桜井あゆ"     "Rio"         
[11] "大槻ひびき"   "希志あいの"   "北川瞳"       "春菜はな"     "あやみ旬果"  
[16] "西條るり"     "里美ゆりあ"   "佐山愛"       "麻倉憂"       "みづなれい"  
[21] "瑠川リナ"    

実はこの対象女優を絞る作業が面倒でした。1000種類くらいあるタグの中から女優名を表すタグを抽出しなければならないからです。MeCab形態素解析にかけ「人名」と判断されたタグのうちさらに出現頻度150(/124429)回以上のタグを使用しました。
一応有名というか聞いたことのある女優さんばかりになったので、この21人でクラスタリングを行います。

女優同士の「近さ」について

クラスタリングには個体間の距離(大きければ大きいほど似ていない)あるいは類似度(大きければ大きいほど似ている)が必要になります。持っているデータはますたべの各動画に対して再生数やタグなどか付いたものなので、なんらかの方法で女優同士の距離または類似度を定義しなければいけません。
そこで今回は、クラスタリング対象の各女優について、その女優名以外のタグ(「巨乳」「熟女」など)が同じ動画に使われる(共起する)確率を計算し、その確率をその女優のスコア(「巨乳」具合、「熟女」具合など)として使うことにしました。 例えば女優Aのタグが付いた動画のうち80%に「巨乳」タグも付いているならば女優Aの「巨乳」スコアは0.8となり、同様に女優Bの「巨乳」スコアが0.7、女優Cの「巨乳」スコアが0.4ならば「巨乳」(具合?)という指標については女優Aは女優Cよりも女優Bに近い(似ている)ということになります。これをクラスタリング対象の女優タグを除いた1148種類のタグについて求め、女優間の距離を求めます。

結果

結果は以下のようになりました。

f:id:shitofumei:20160613161210p:plain

距離の定義が一般的ではないので、結果を見て納得感があるかどうかが結構大事なのですがいかがでしょうか?
個人的よく知ってるところで言うと、「春菜はな」さんと「麻美ゆま」さんが近いというのが全然納得できない感じがします。

まとめ

今回はタグの共起具合から有名女優について階層的クラスタリングをしました。 結果はすっきりした感じではないですが(逆どうなってたら納得だったのかという話はある)、見る人が見れば面白いのかもしれません。
次回は対象女優を増やして非階層的クラスタリングを行いたいと思います。

第3回:アダルト動画のタグでアソシエーション分析

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

アダルト動画のタグでアソシエーション分析

第3回の今回は各動画についているタグでアソシエーション分析をしてみたいと思います。
何が分かるかというと「実は(orやっぱり)タグAとタグBは一緒に出てくる」みたいなことが分かります。
アソシエーション分析については、存在や用途はなんとなく知っていたものの実際にやるのは初めてなので、以下の書籍を参考にしました。

Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

アソシエーション分析について

アソシエーション分析の目的は「Rによるデータサイエンス」によると"トランザクションデータから、頻出するアイテムの組み合わせの規則を漏れなく抽出し、その中から興味深い結果を探し出すこと"だそうです。*1
頻出する組み合わせの規則の有名な例がスーパーの客の購入行動における「ビールとおむつ」ですね。一見関係なさそうに思える(というか人間の仮説ベースだとそもそも「ビールを買ってる人ってどれくらいおむつを買ってるんだろう?」という話にならない)組み合わせですが実は頻出していたりするそうです。
そういう意外な組み合わせから、やっぱりそうだなという組み合わせまで、数値ベースで列挙してみるというのがアソシエーション分析です(雑)*2。 今回は各動画に付けられたタグの組み合わせを1トランザクションとし、Aprioriというアルゴリズムを使って組み合わせの規則を抽出するアソシエーション分析を行います。

タグの使われ具合

アソシエーション分析の前にまずはタグの使われ方の全体像を見てみたいと思います。
下のグラフは縦軸にそのタグが使われた動画の割合を取り、使われる割合の上位20位を示したものです。

f:id:shitofumei:20160508015640p:plain

男性読者の方にとっては馴染み深いタグが並んでいるかと思います。
特徴としては前回記事でも触れた内容ですが、「巨乳」タグが3割近い動画で使われており2位以下を寄せ付けない感じになっています。
とは言っても上位20位なのでこいつらはかなり強い部類のタグです。タグは全部で1163種類あるのですが、平均被使用割合は0.22%と20位の「スレンダー」タグの1/10にも満たない数字です。第1回記事では動画自体が上位数%の強い動画とその他の弱い動画で構成されるという話をしましたが、動画についているタグも同様の構造をしているようです。

アソシエーション分析

では本題のアソシエーション分析に入っていきたいと思います。技術ブログではないので結果だけ紹介します。

結果の見方
                lhs             rhs 規則の出現頻度 規則の確からしさ
1        {ごっくん} =>         {フェラ}    0.010415578        0.8355899

例えば上の例だと、「ごっくん」タグが付いていたら「フェラ」タグも付いているという規則を表しています。
その規則が出現した動画の割合が全体の0.0104で、「ごっくん」タグが付いている動画のうち、「フェラ」タグも付いている動画の割合が0.8356となります。

結果

まずは0.5%(623件)以上の動画に出現するタグ1つ→タグ1つの規則を見てみます。

                lhs                 rhs 規則の出現頻度 規則の確からしさ
1        {ごっくん} =>         {フェラ}    0.010415578        0.8355899
2          {ロリ系} =>         {美少女}    0.020099816        0.7752635
3    {ロングヘアー} =>         {フェラ}    0.007980455        0.7620875
4    {ロングヘアー} =>         {手コキ}    0.006742801        0.6438987
5          {手コキ} =>         {フェラ}    0.035803551        0.6385266
6        {ごっくん} =>         {美少女}    0.007626839        0.6118633
7        {個人撮影} =>           {素人}    0.010712937        0.6089539
8        {ごっくん} =>           {顔射}    0.007570582        0.6073501
9        {ごっくん} =>         {手コキ}    0.007546472        0.6054159
10       {ごっくん} =>       {ぶっかけ}    0.007450032        0.5976789
11         {ロリ系} =>         {フェラ}    0.015317972        0.5908246
12       {ごっくん} =>           {巨乳}    0.007265187        0.5828498
13       {ごっくん} =>           {素人}    0.007168747        0.5751128
14       {ごっくん} =>         {ロリ系}    0.007088380        0.5686654
15       {ごっくん} => {無修正(モロ)}    0.007008013        0.5622179
16       {個人撮影} =>       {ハメ撮り}    0.009684238        0.5504797
17       {ごっくん} =>       {ハメ撮り}    0.006766911        0.5428756
18       {ぶっかけ} =>         {フェラ}    0.011532681        0.5297158
19 {無修正(モロ)} =>           {素人}    0.026183607        0.5235417
20   {ロングヘアー} =>           {素人}    0.005328340        0.5088258

いかがでしょうか。表示する規則の数は目視で確認できるくらいになるように調整しています。
個人的には「ロングヘアー」タグの挙動が面白いなと思いました。例えば「ロングヘアー」タグが使われた動画の76%で「フェラ」タグも使われているという。

次に0.75%(934件)以上の動画に出現するタグ2つ→タグ1つの規則を見てみます。

                         lhs                 rhs 規則の出現頻度 規則の確からしさ
1              {顔射,手コキ} =>         {フェラ}    0.008076895        0.9644914
2            {ロリ系,手コキ} =>         {フェラ}    0.009861045        0.9631083
3          {ぶっかけ,手コキ} =>         {フェラ}    0.008382290        0.9621771
4          {ハメ撮り,手コキ} =>         {フェラ}    0.009258292        0.9616027
5    {手コキ,無修正(モロ)} =>         {フェラ}    0.012103288        0.9519595
6            {手コキ,中出し} =>         {フェラ}    0.009153815        0.9467997
7          {ぶっかけ,ロリ系} =>         {フェラ}    0.007642913        0.9462687
8              {手コキ,素人} =>         {フェラ}    0.015277789        0.9043768
9            {手コキ,美少女} =>         {フェラ}    0.015824285        0.9040404
10           {ロリ系,手コキ} =>         {美少女}    0.009153815        0.8940345
11         {ハメ撮り,手コキ} =>           {素人}    0.008591245        0.8923205
12         {ハメ撮り,ロリ系} =>         {美少女}    0.009836935        0.8875997
13           {ロリ系,中出し} =>         {美少女}    0.008157262        0.8795494
14   {ロリ系,無修正(モロ)} =>         {美少女}    0.010359321        0.8651007
15           {フェラ,ロリ系} =>         {美少女}    0.013204317        0.8620147
16             {ロリ系,素人} =>         {美少女}    0.011026368        0.8558952
17             {ロリ系,巨乳} =>         {美少女}    0.009917302        0.8486933
18 {ハメ撮り,無修正(モロ)} =>           {素人}    0.017511995        0.8472006
19             {巨乳,手コキ} =>         {フェラ}    0.014353567        0.8428504
20                {ごっくん} =>         {フェラ}    0.010415578        0.8355899
21         {ぶっかけ,美少女} =>         {フェラ}    0.008776089        0.8285281
22         {ハメ撮り,ロリ系} =>           {素人}    0.009161851        0.8266860
23           {ぶっかけ,顔射} =>         {フェラ}    0.007948308        0.8173554
24           {ぶっかけ,巨乳} =>         {フェラ}    0.008092969        0.8030303
25             {顔射,美少女} =>         {フェラ}    0.008189409        0.8017309
26         {ハメ撮り,フェラ} =>           {素人}    0.014747366        0.8016601
27         {ハメ撮り,手コキ} =>         {美少女}    0.007715243        0.8013356
28           {手コキ,中出し} => {無修正(モロ)}    0.007747390        0.8013300

こちらも興味深いですね。
タイトルにもしましたが、「手コキ」してたら「フェラ」もしてそうだと。これ実は上のタグ1つ→タグ1つの規則にも出ていて、

                   lhs              rhs      規則の出現頻度     規則の確からしさ
5          {手コキ} =>         {フェラ}    0.035803551        0.6385266

となっています。「手コキ」タグが付いてると64%の確率で「フェラ」タグが付いているし、「ロリ系」「ハメ撮り」「美少女」「素人」あたりが付くとよりその確率が高まるようですね。

あと28番目の

                   lhs              rhs      規則の出現頻度     規則の確からしさ
28           {手コキ,中出し} => {無修正(モロ)}    0.007747390        0.8013300

も面白いなと思いました。パッと見全然関係なさそうですもんね。

まとめ

いかがでしたでしょうか。
個人的にアソシエーション分析はこのデータ収集したときからやろうと思って楽しみにしていました。ゆえに裏ではまだまだいじくり回しているのでここに書いてないおもしろい結果もあったりしますが今回はここまでにします。
今回もとても有益でしたね。

*1:データ分析的な話をすると個人的にこの記述は好きです。アルゴリズムが"漏れ無く"列挙するプロセスによって人間が事前に仮説として持ち得ない知見が生まれる可能性が生まれ、人間が"興味深い"かどうかを判断するプロセスには結局は人間が必要というデータ分析の真髄が詰まっているように感じるので

*2:そこで見つかった組み合わせ(特に「ビールとおむつ」のような一見すると謎なもの)に対して「なぜそうなるんだろう」ということを考えるのは人間に仕事です。

第2回:アダルト動画人気タグランキング

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

アダルト動画人気タグランキング

今回は各動画についたタグのランキングを紹介します。

  • まずはタグの使われた回数のランキングTop50です。
          TagName UsedNum UsedRank(%)
1            巨乳   36611       29.42
2        お姉さん   17528       14.09
3          フェラ   17090       13.73
4          美少女   14706       11.82
5            素人   13925       11.19
6          ギャル   12464       10.02
7        ハメ撮り    9530        7.66
8            人妻    9401        7.56
9          中出し    8268        6.64
10           痴女    8257        6.64
11         手コキ    6977        5.61
12 無修正(モロ)    6223        5.00
13         レイプ    5977        4.80
14       女子校生    5809        4.67
15       オナニー    5632        4.53
16           熟女    4634        3.72
17         ナンパ    4189        3.37
18     マッサージ    3863        3.10
19             OL    3694        2.97
20     スレンダー    3682        2.96
21           制服    3265        2.62
22         ロリ系    3226        2.59
23       パイズリ    3049        2.45
24           黒髪    3026        2.43
25           顔射    2952        2.37
26         騎乗位    2768        2.22
27       ぶっかけ    2709        2.18
28           色白    2646        2.13
29           美乳    2579        2.07
30           レズ    2508        2.02
31       コスプレ    2345        1.88
32       個人撮影    2189        1.76
33       女子大生    2057        1.65
34       パイパン    1987        1.60
35           清楚    1977        1.59
36         アナル    1974        1.59
37   盗撮・のぞき    1895        1.52
38           電マ    1877        1.51
39           拘束    1768        1.42
40           企画    1662        1.34
41           乱交    1658        1.33
42       ごっくん    1551        1.25
43           水着    1541        1.24
44         クンニ    1496        1.20
45         バイブ    1495        1.20
46         女教師    1413        1.14
47     野外・露出    1358        1.09
48       パンスト    1329        1.07
49   ロングヘアー    1303        1.05
50           痴漢    1263        1.02

特筆すべきは「巨乳」タグの圧倒的な使用頻度でしょうか。約30%の動画に使われています。

  • 続いては各タグが付いた動画の平均再生回数のランキングTop50です。
              TagName AverageView UsedNum
1        ボディピアス    38886.00       9
2          青井いちご    37853.00       1
3          あいかりん    34246.00       1
4          北野のぞみ    33890.43       7
5          花嫁・若妻    30366.69      61
6            愛須心亜    29719.00       5
7        ミニ系・小柄    29389.58     170
8    ミディアムヘアー    29154.93     343
9              白咲碧    27383.82      11
10   アイドル・芸能人    27316.91      85
11         局部アップ    26616.82      76
12           ごっくん    26264.71    1551
13       お嬢様・令嬢    25759.81      69
14         催眠・洗脳    25556.50       8
15     ショートヘアー    25057.47     298
16           白人女優    24348.48      27
17       ロングヘアー    24205.16    1303
18         貧乳・微乳    23305.41     621
19             ロリ系    22590.68    3226
20             くびれ    22065.36     392
21     無修正(モロ)    21466.10    6223
22             学生服    20968.34     427
23               茶髪    20498.99     834
24           澁谷果歩    19974.00       2
25         和服・浴衣    19869.60      72
26   ドキュメンタリー    19835.65      63
27             3P・4P    19758.39     353
28           水野朝陽    19504.57       7
29             姉・妹    19343.29      98
30           ラブコメ    19201.64      11
31             無修正    19174.76      21
32     体操着・ブルマ    18998.45      62
33 競泳・スクール水着    18973.55      55
34           タトゥー    18830.56      16
35         乙葉ななせ    18722.89      18
36     淫乱・ハード系    18657.72      94
37         なつめ愛莉    18156.00       1
38           個人撮影    18023.37    2189
39           ぶっかけ    18003.14    2709
40         調教・奴隷    17612.58      83
41         さくらゆら    17091.90      10
42           脚フェチ    16861.32     164
43           学園もの    16859.17      95
44           異物挿入    16605.75      24
45           南梨央奈    16583.75       4
46           ドラッグ    16528.71      17
47       その他フェチ    16200.49      83
48           職業色々    15952.83      52
49           川菜美鈴    15928.20      10
50   キャバ嬢・風俗嬢    15906.71      78

個人的に4位の北野のぞみさんは納得です。
ただ使用回数の少ないタグはあまりピンと来ないので、使用回数でフィルターしてみます。

  • 100本(全動画124429本中)以上の動画に使われたタグだけのランキングTop50
            TagName AverageView UsedNum
1      ミニ系・小柄    29389.58     170
2  ミディアムヘアー    29154.93     343
3          ごっくん    26264.71    1551
4    ショートヘアー    25057.47     298
5      ロングヘアー    24205.16    1303
6        貧乳・微乳    23305.41     621
7            ロリ系    22590.68    3226
8            くびれ    22065.36     392
9    無修正(モロ)    21466.10    6223
10           学生服    20968.34     427
11             茶髪    20498.99     834
12           3P・4P    19758.39     353
13         個人撮影    18023.37    2189
14         ぶっかけ    18003.14    2709
15         脚フェチ    16861.32     164
16 寝取り・寝取られ    15810.41     198
17             顔射    15421.53    2952
18       巨乳フェチ    13909.85     255
19           外国人    13427.12     175
20             色黒    13030.39     147
21             企画    12876.61    1662
22           手コキ    12794.38    6977
23             美脚    12743.86     836
24         女子大生    12682.23    2057
25             素人    12485.23   13925
26           中出し    12437.30    8268
27             黒髪    11593.21    3026
28         ハメ撮り    11165.93    9530
29             処女    11129.92     344
30         おもちゃ    11100.64     228
31           巻き髪    10900.16     190
32           美少女    10416.91   14706
33             美乳    10384.76    2579
34           指マン    10296.40     253
35             色白    10180.83    2646
36             辱め     9794.40     106
37           フェラ     9148.72   17090
38           ドラマ     9120.08     223
39             清楚     9025.28    1977
40       スレンダー     8931.92    3682
41         女子校生     8539.84    5809
42             乱交     8112.62    1658
43           アニメ     7752.85     899
44         尻フェチ     7668.59     128
45             妄想     7564.46     314
46           麻倉憂     7528.11     190
47           ナンパ     7377.88    4189
48           めがね     7301.19     140
49         パイパン     7017.96    1987
50       野外・露出     6732.47    1358

少しクセが強めなタグの中でのランキングみたいな感じでしょうか。

  • 最後に1%(1245本)以上の動画に使われたメジャーなタグだけのランキングTop50を見てみます。
          TagName AverageView UsedNum
1        ごっくん    26264.71    1551
2    ロングヘアー    24205.16    1303
3          ロリ系    22590.68    3226
4  無修正(モロ)    21466.10    6223
5        個人撮影    18023.37    2189
6        ぶっかけ    18003.14    2709
7            顔射    15421.53    2952
8            企画    12876.61    1662
9          手コキ    12794.38    6977
10       女子大生    12682.23    2057
11           素人    12485.23   13925
12         中出し    12437.30    8268
13           黒髪    11593.21    3026
14       ハメ撮り    11165.93    9530
15         美少女    10416.91   14706
16           美乳    10384.76    2579
17           色白    10180.83    2646
18         フェラ     9148.72   17090
19           清楚     9025.28    1977
20     スレンダー     8931.92    3682
21       女子校生     8539.84    5809
22           乱交     8112.62    1658
23         ナンパ     7377.88    4189
24       パイパン     7017.96    1987
25     野外・露出     6732.47    1358
26           水着     5937.88    1541
27   盗撮・のぞき     5933.10    1895
28           痴女     5329.56    8257
29       お姉さん     5252.56   17528
30         レイプ     4139.90    5977
31           痴漢     4010.58    1263
32           巨乳     3723.02   36611
33     マッサージ     3605.71    3863
34           人妻     3484.36    9401
35         ギャル     3216.82   12464
36       パンスト     3037.22    1329
37             OL     2879.48    3694
38       パイズリ     2659.18    3049
39         騎乗位     2420.12    2768
40           制服     2243.92    3265
41         クンニ     2205.50    1496
42           電マ     2111.77    1877
43         女教師     2018.16    1413
44       コスプレ     1867.39    2345
45         アナル     1716.71    1974
46       オナニー     1653.65    5632
47         バイブ     1548.72    1495
48           熟女     1131.87    4634
49           拘束      945.87    1768
50           レズ      884.27    2508

いかがだったでしょうか。
今回も有益でしたね。
次回はタグを使ってのアソシエーション分析を予定しています。

第1回:アダルト動画の4割は100回も再生されず、上位数%の動画が再生回数の半分を稼いでいる

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

アダルト動画の4割は100回も再生されない

初回は再生回数の偏りについて見ていきます。

平均や最小値最大値についてはこんな感じです。

> summary(d$View)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      2      50     274    2755    1406  546200 

平均(Mean)と中央値(Median)の離れ具合から、再生回数の偏りが想像されます。

ちなみに最も再生回数の多い動画のタイトルはこちら

> d[d$View == max(d$View),"Title"]
[1] "【無修正】丸見え/高画質【上原亜衣】ちゃんのオマンコどころか膣内まで丸見え!"

納得感がありますね。

最も再生回数が少ない動画はこちら

> d[d$View == min(d$View),"Title"]
[1] "初めての感触に快感と不快感が入り混じり自分を見失う熟女"

自分を見失った熟女さんをフォローしておくと、この動画はデータ収集時点で投稿されたばかりでした。
最小再生回数は経過時間にもろに影響されるので仕方ないです。

次にヒストグラムを見てみます。

ちょっと見にくいですね。
範囲を絞ります。

  • 再生回数10000回までのグラフ
    f:id:shitofumei:20160424004628p:plain

ビンの幅は100なので、再生回数0~100回の動画がたくさんあることが分かります。

割合を確認すると、39.6%の動画が再生回数0~100回でした。
以外と厳しい世界ですね。

念のため投稿日時によって真ん中より古い動画のグループと新しい動画のグループに分けても、再生回数100回以下の動画の割合は前者38.1%、後者で41.0%とほとんど違いは見られず、例えば投稿間もない動画による影響に引っ張られているということではなさそうです。

ちなみに再生回数1000回以下の動画は全体の69.0%10000回以下の動画は全体の94.3%という結果になりました。

上位数%の動画が再生回数の半分を稼いでいる

意外と再生回数の少ない動画が多いということが分かりましたが、再生回数上位は数十万回というレベルで再生されており、そういった強い動画が総再生回数に占める割合が気になるところです。

累積頻度をグラフをにしてみると、このようになります。
f:id:shitofumei:20160425105532p:plain

赤い破線は再生回数3000(/124429)位を表しています。
つまり上位2.4%の動画が全再生回数の半分を稼いでいるということになります。

まとめ

100回も再生されない大量の動画と、数十万回レベルで再生される小数の動画がアダルト動画サイトを構成しているということが分かりました。
プロではないのでよく知りませんが、コンテンツビジネスって大概こういう構造になっているんでしょうね。詳しい人教えてください。

第0回:プロジェクトサマリー

当ブログについて

アダルト動画サイトますたべ(なんとXVideosじゃない)の動画のデータを集め、いい感じの知見を見つけていこうというブログです。データの詳細については第0回記事を参照してください。shitofumei.hatenablog.com

使用データ

アダルト動画サイト「マスタベ」さんから動画一つ一つに付随する情報をスクレイピングしました。
データ収集日は2016年4月17日です。 サンプルサイズ(動画の数)は124429です。

サマリー

> summary(d)
  VideoCode            Title           Deleted        View           AddList            Comment         
 Length:124429      Length:124429      0:75109   Min.   :     2   Min.   :   0.000   Min.   :  0.00000  
 Class :character   Class :character   1:49320   1st Qu.:    50   1st Qu.:   0.000   1st Qu.:  0.00000  
 Mode  :character   Mode  :character             Median :   274   Median :   1.000   Median :  0.00000  
                                                 Mean   :  2755   Mean   :   7.477   Mean   :  0.04188  
                                                 3rd Qu.:  1406   3rd Qu.:   4.000   3rd Qu.:  0.00000  
                                                 Max.   :546186   Max.   :1058.000   Max.   :127.00000  
 PostUserName       PostTimestamp                          VideoPlayer        Tag           
 Length:124429      Min.   :2014-04-29   deleted                 :49320   Length:124429     
 Class :character   1st Qu.:2015-06-25   embed.redtube.com       :   21   Class :character  
 Mode  :character   Median :2015-08-17   flashservice.xvideos.com:38080   Mode  :character  
                    Mean   :2015-08-25   javynow.com             :17950                     
                    3rd Qu.:2015-10-31   static.fc2.com          :18158                     
                    Max.   :2016-04-17   xhamster.com            :  900                     

変数説明

  • VideoCode
    各動画に付いているIDです。マスタベの動画ページは基本的に「masutabe.info/video/ID」というURLになっています。
    好きで何回も観てる動画とかはID覚えちゃったりしませんか?僕はしません。

  • Title
    文字通り動画のタイトルです。
    繊細なセンスが問われる部分ですね。

  • Deleted
    男性の皆さんはご存知かと思いますが、動画が観れないページというのがよくあります。
    削除されている場合1、削除されていない場合0になっています。

  • View
    再生回数です。主要な評価指標になるかと思います。

  • AddList
    ますたべにはユーザーがお気に入りの動画をブックマークしておくマイリストという機能があり、その動画がマイリストに追加された数を表しています。ちなみにマイリスト機能の使用にはユーザー登録(メールアドレス不要)が必要なようです。

  • Comment
    動画に対するコメント数です。パッと見た感じではあまり機能していないように見えます。
    女優名が明記されていない動画では、「この女優さん誰?」というような使い方をされていたりします。

  • PostUserName
    投稿ユーザーの名前です。
    アダルト動画まとめサイトにアダルト動画をアップする人たちってどういう人たちなんですかね.....
    分析関係ないですけど興味あります。

  • PostTimeStamp
    動画の投稿日時です。

  • VideoPlayer
    これまた男性の皆さんはなんとなく分かると思うんですけどネット上のアダルト動画って大体XVIDEOSかFC2かJavyNowで再生されますよね。これ僕もいまいち仕組み分かってないんですけど、YouTubeみたいなものなんですかね。XVIDEOSとか自体もアダルト動画サイトであり、APIかなんかでマスタベのようなサイトでも再生できるようになっていると。詳しい方いたら教えてください。

  • Tag
    アダルト動画にはサイトによってはジャンルを表すタグが付いています。このタグが分析には重要で、タグの付き方の的確さでマスタベを選んだみたいなところはあります。

  • ElapsedDays
    投稿からの経過日数です。

質問やアドバイス、お問い合わせなどがあれば

内容についての質問や分析手法に関するアドバイス等はコメントにてお願いいたします。特に分析手法に対するアドバイスをお待ちしています。