せっかくだから俺は衆院選挙のツイートを調べるぜ

Table of Content

ネット選挙が解禁されて早一年、選挙終わるたびに民主主義さんや日本ちゃんの残機をスペランカーのように減らし続ける言論空間な今日この頃、皆様いかがおすごしでしょうか。

さて、今回は開票前後のツイートの内容を調べてみます。

収集内容

2014/12/14 18:00 ~ 07:00 まで下記の情報を含むツイートを収集する

# 総選挙,#衆院選,選挙

PythonでStreaming APIを使用して特定のキーワードを含んだツイートを取得しつづける
http://qiita.com/mima_ita/items/ecdf7de2fe619378beee

収集、解析に使用したコード

https://github.com/mima3/stream_twitter

Windows7 Python2.7で動作確認済み

収集結果の解析

収集したデータは下記からダウンロードできます。
http://needtec.sakura.ne.jp/doc/shuin47twitter.zip

時間別のヒストグラム

まずは、ツイート数を時間別に見てみましょう。
先のコードを利用して2014/12/14 18:00 ~ 07:00までの1時間毎のデータをみてみます。

python twitter_db_hist.py "2014/12/14 9:00" "2014/12/14 22:00" 3600

※Twitter中の時刻がUTCで取得できるため日本時間だと9時間ずれています。

この結果は次のようになります。

figure_1.png

時刻(UTC) 日本時間 件数
12/14 09:00 12/14 18:00 3149
12/14 10:00 12/14 19:00 4047
12/14 11:00 12/14 20:00 11280
12/14 12:00 12/14 21:00 9755
12/14 13:00 12/14 22:00 7199
12/14 14:00 12/14 23:00 5207
12/14 15:00 12/14 00:00 3472
12/14 16:00 12/14 01:00 3801
12/14 17:00 12/14 02:00 1545
12/14 18:00 12/14 03:00 529
12/14 19:00 12/14 04:00 292
12/14 20:00 12/14 05:00 300
12/14 21:00 12/14 06:00 477

20:00の開票のタイミングが一番もりあがります。
そして、時間経過とともにツイート数は減っていきます。
しかし、1:00代に復活し、その後はツイート数は減り、目の覚める5:00頃から多少回復します。

深夜はツイート数が減り、朝増えるのは理解できます。
しかし、夜中1:00代にツイート数が増加した理由はなんでしょうか?

このため、1:00代を1分単位でみてみましょう。

python twitter_db_hist.py "2014/12/14 16:00" "2014/12/14 17:00" 60

figure_2.png

この結果をみると1:27分あたりで急速な盛り上がりを見せています。

このタイミングでなにが発生したのでしょうか?
ここで、民主党を愛してやまない海江田研究所の方々のスレを確認してみます。

【ふっかつのじゅもんがちがいます】海江田民主党研究第802弾【とうせんのしょはきえてしまいました】
http://anago.2ch.net/test/read.cgi/asia/1418565521/

811 :日出づる処の名無し:2014/12/15(月) 01:26:44.86 ID:tG+ZZ8gB
    【当落速報】民主党の海江田万里代表が比例東京ブロックで復活せず、落選確実となった(01:19)(c)2ch.net
    http://daily.2ch.net/test/read.cgi/newsplus/1418574054/

812 :日出づる処の名無し:2014/12/15(月) 01:26:49.76 ID:4Us97nfn
    落選決定w

813 :日出づる処の名無し:2014/12/15(月) 01:26:51.11 ID:pW7uplw3
    さよなら、万里

814 :日出づる処の名無し:2014/12/15(月) 01:27:01.20 ID:yIjazH47
    うわああああNHKでも落選きたw

815 :日出づる処の名無し:2014/12/15(月) 01:27:02.02 ID:NOhUWn58
    NHKでマリ完全落選

    いやここからフェニックスするから!絶対にふぇにっくすだから____

816 :日出づる処の名無し:2014/12/15(月) 01:27:08.70 ID:4zmUGrZE
    >>802
    ㌧。何もつまみ買ってきてないから鯖缶開けるわw

どうも当時の状況をみると1:19に朝日が号外として海江田代表の比例落選を報道し、NHKも1:27に同ニュースを報道したようです。

さすが、野党第一党の党首の進退は深夜のツイッタラーの眠気眼をもふきとばすインパクトがあったとうかがい知れます。また、この結果より、新聞の号外よりテレビの方が拡散力がつよいことがわかります。

頻出単語の抽出

次は頻出単語を見てみましょう。
Mecabを用いることで、形態素解析を行い、その単語を集計しました。

これは以下のスクリプトで行うことができます。

python twitter_db_mecab.py "2014/12/14 9:00" "2014/12/14 22:00" > mecab.txt

以下にそのベスト100を表示します。

単語 出現数
選挙 70626
33315
27196
衆院 27152
投票 13740
11698
当確 8386
自民党 7403
速報 7120
7074
東京 6864
開票 6484
当選 6456
6443
NHK 6222
5866
 # 5519
落選 5504
official 5488
kyodo 5487
確実 5384
5352
5236
番外 5229
議席 5025
行く 4811
4796
BqAAr 4633
vlhS 4606
4460
比例 4419
自民 4302
ブロック 4208
4196
てる 4035
3912
候補 3811
衆議院 3782
seiji 3773
3745
3726
日本 3611
jimin 3607
koho 3603
代表 3599
民主 3592
3589
3548
nicohou 3490
JNSC 3203
blogos 3170
ld 3125
名前 3098
安倍 3068
民主党 3039
言う 3011
特番 2959
次世代 2889
2881
2844
ニコ 2817
られる 2750
出演 2727
ビートたけし 2723
れる 2721
神奈川 2690
政治 2532
2511
海江田 2504
できる 2488
2424
2371
2315
視聴 2315
沖縄 2231
復活 2176
2092
1997
獲得 1977
1954
ない 1953
現在 1926
維新 1905
首相 1898
報道 1888
報じる 1882
1831
取る 1775
共産党 1773
1769
必要 1766
nMDR 1761
YidT 1761
若者 1750
1727
用紙 1712
万里 1666
senkyost 1645
情報 1628
是非 1618

やはり党名でもっとも抽出されたのは過半数を取った「自民党」でした。次に「民主党」、つづいて「次世代」で、あとは「維新」、「共産党」になります。
次世代の党は実際の議席数とネットでの注目度にかなりの乖離があるようです。

地名で抽出されたのは「東京」と「沖縄」でした。東京に関しては「東京新聞」の記事のリツイートもあったので、多く抽出され、沖縄に関しては自民党が小選挙区全滅という形になっていたので他の地域より注目があつまったと考えられます。

人名で注目されたのは「安倍」、「ビートたけし」、「海江田」でした。首相と野党第一党党首は当然としても、「ビートたけし」が注目されたの意外でした。どうもこれはニコ生で「ビートたけし」が出演していたためのようです。

文節の係受けの関係を探る

最後に文節の係受けの関係をCabochaを用いて集計してみます。
WindowsにCabochaを入れる方法は下記を参照してください。

WindowsにCabochaをいれてPythonで係り受けを解析してみる
http://qiita.com/mima_ita/items/161cd869648edb30627b

なお、今回は0.66で解析しました。最新でも似たような結果になると思います。

これは以下のスクリプトで行うことができます。

python twitter_db_cabocha.py "2014/12/14 9:00" "2014/12/14 22:00"  > cabocha.txt

以下にそのベスト100を表示します。

文節1 文節2 出現数
落選 確実 1762
co/ 4nMDR4YidT#総選挙http://t 1557
投票率 0% 1538
【選挙】衆院選、 10代 1534
10代 投票率 1534
若者 行く 1504
名前 書く 1504
RT@whsaito:投票用紙 記入する 1502
名前 記入する 1502
是非候補者 名前 1502
方式 取る 1502
高い 日本 1502
書く 行く 1502
取る 日本 1502
記入する 方式 1502
14日 行く 1502
教育水準 高い 1502
RT@kyoho_times: 10代 1460
復活 確実 1288
当選する 1208
こういう 1208
行く-否定 当選する 1186
当確 報じる 1172
3700kei:#総選挙選挙 行く-否定 1141
RT@keisei 3700kei:#総選挙選挙 1107
比例東京ブロック 復活 1075
RT@kyodo_official:民主党 海江田万里代表 964
片山哲委員長 落選する 928
落選する 落選する 928
海江田万里代表 復活 928
野党 落選する 928
社会党 片山哲委員長 928
1949年衆院選 落選する 928
敗北 確実 914
みんな 政治http://t 885
当選 確実 815
衆院選特集ページ http://t 761
感じる #選挙 755
投票所 聞く 755
1票 格差 755
格差 感じる 754
聞く 感じる 754
女子高校 聞く 754
RT@kurosia:知り合い 投票所 752
戦後最低 前回 742
RT@ld_blogos: 【速報】 663
次世代 633
【速報】 当確 561
下回る http://t 551
RT@kyodo_official:次世代 546
衆院選 投票率 535
述べる 514
大阪10区民主・辻元清美氏 当確 475
候補者情報 衆議院選挙 2014-Yahoo 433
午後 6時現在 424
投票率 34 424
79ポイント 下回る 420
全国平均 34 420
6時現在 34 420
98% 前回 420
よる 34 420
RT@senkyost: 【獲得議席___ 386
投票 行く 379
集団的自衛権 行使容認 377
敗北 報じる 370
当確 破る 367
こと 知る 363
日本 知る 360
Jリーグ復帰 知る 359
こんなんなるなら 出馬する 359
そろそろ Jリーグ復帰 359
俺様 出馬する 359
必要 言う 357
人当選#拡散希望___#RT 人全員フォロー 356
【悲報】アニメに 必要 356
規制 必要 356
人当選 必要 356
言う #選挙http://t 355
人全員フォロー #選挙http://t 355
8bu_: 必要 352
RT@K 8bu_: 352
#選挙#NHK#衆議院選挙#池上 選挙#開票 344
石原氏 明言する 341
石原慎太郎最高顧問 341
今回衆院選 政界引退 341
石原慎太郎最高顧問 落選 341
政界引退 明言する 341
co/ 7LGbX1z 322
RT@mainichijpedit:総務省 よる 309
理解 得る 304
___http ://t 303
国民 理解 303
RT@jimin_koho: /する 301
こと 確実 278
RT@jimin_koho: / 270
行使容認 表明する 268
自民党 表明する 268
表明する 村上誠一郎氏 268
反対 表明する 268
2区 表明する 268

落選→確実が一位になっているあたり、ツイッターの関心は誰が受かるかより誰を落とすかへの注目が高いようです。

あと若者の投票率に関する言及が多いように見えます。ただ、「10代の投票率0%」というネタツイートが多いのも事実です。

「高い」→「日本」っていうのは「投票用紙に名前を記入する方式を取っているのは教育水準の高い日本だけ」というツイートが大量にリツイートされた結果のようです。

また、最初に述べたように、選挙の度に残機を減らされる民主主義と日本について調べてみました。
民主主義が死ぬといっているツイートが2件あったうち、民主主義は死なないと言っているツイートが11件なので多分、民主主義君の残機は思ったより減ってないようです。

ただし、以下のような残機を減らす言葉は数件抽出されました。

文節1 文節2 出現数
民主主義 死ぬ 2
民主主義 終わる 2
民主主義 終了 2
民主主義 崩壊 2
・・・民主主義 崩壊 1

どうように日本ちゃんの残機の減少は以下の通りです。

文節1 文節2 出現数
RT@inosan08260:日本終了確定 178kakapo:日本 7
自民 日本崩壊 4
もう 日本崩壊 4
笑える 日本崩壊 4
日本 潰す 2
日本 終わる 2

この結果より今回の選挙では民主主義の残機は9機へり、日本ちゃんの残機23機ほど減ったようです。

データから読み取れる事のまとめ

・海江田さんが無職になると夜中なのに盛り上がったり、落選→確実という文節の係受けが頻出されるのをみると、誰が受かるかより誰が落ちるかの方が注目されます。

・次世代という単語の出現数と現実の結果をみると、ネットで注目されたからって議席はとれないといえます。

・選挙のたびに残機がゴリゴリ減っているイメージのあった民主主義と日本ですが、今回はそんなこともなかったようです。

本当のまとめ

・・・ってな感じのインチキな解析が、それっぽく行えます。
時間ごとのツイートに関しては、この例のように、データの増減をみて、変化のあったところを詳細に調べていけばいいと思います。

単語の頻出については、たしかに注目を集めている事は簡単にわかります。しかしながら、この例の用に抽出数が多いことが即ポジティブな反応とは限らないことに注意する必要があります。

係受け解析ついては、単語のみの頻出を調べる弱点を克服できる可能性はあります。しかし、正直今回については、その可能性を十分に実践できていなかったでしょう。これは今後の課題になります。

ちなみに鍵垢のツイートについては、StreamingAPIのfilterでは取得できませんでした。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です