データ分析系プログラマーのブログ

主にPythonを使ったデータ分析や機械学習をやっています。

六本木・麻布・広尾と目黒・白金・五反田では、どちらの方面がカレー屋さんの充実度が高いのか?

港区にはカレー店が多いのをご存知でしょうか?この記事では、食べログで紹介している六本木・麻布・広尾エリアと、目黒・白金・五反田エリアの二つのエリアにおけるカレー店の充実度に関して、ジャンル、評価ポイント、コメント数、価格帯の4つの観点から分析しています。

ジャンルで比較

この画像は、各エリアにおけるカレーのジャンルを可視化したものです。回数の多いジャンルが大きな文字として表示されています。この画像を見ると、どちらもカレーライス、インドカレー、インド料理、ネパール料理、エスニック料理、タイカレーなどが多く見受けられます。このことから、ジャンルに関しては大きな違いは特にないことがわかります。

f:id:hira03:20190823161931p:plain

目黒・白金・五反田のジャンルをワードクラウドで可視化

f:id:hira03:20190823161957p:plain

六本木・麻布・広尾のジャンルをワードクラウドで可視化

評価ポイントで比較

次のグラフは、食べログの評価ポイントを集計したものです。各エリアともに、3.0以上、3.8以下の範囲に評価ポイントは収まっています。目黒・白金・五反田エリアは、六本木・麻布・広尾エリアよりも、3.0から3.1と3.2から3.3ポイントが多くなっています。一方で、六本木・麻布・広尾エリアは、3.4から3.5の範囲の評価ポイントの店が多くあります。評価ポイントの平均値はどちらのエリアも同じくらいになっています。

f:id:hira03:20190823162039p:plain

評価ポイント

コメント数で比較

このグラフは、コメント数ごとに集計したものです。コメント数の多い店のうち、300コメント以上なのが、それぞれ2件づつありました。目黒・白金・五反田エリアには、ホットスプーンとカレーの店うどんの2店舗が、それぞれ、410コメント、334コメントとなっています。一方の、六本木・麻布・広尾エリアには、ニルヴァーナ ニューヨーク 東京ミッドタウンとニルワナム 神谷町店の2店舗が、それぞれ、345コメント、578コメントとなっています。

f:id:hira03:20190823162128p:plain

コメント数

f:id:hira03:20190823162208p:plain

300コメント以上の店舗

価格帯で比較

目黒・白金・五反田エリアは、999円以内の店が多く、六本木・麻布・広尾エリアは、1000から1999円、2000から2999円と言った価格帯が多くなっています。

f:id:hira03:20190823162250p:plain

価格帯(ランチ)

結論

価格帯で評価すると、目黒・白金・五反田エリアの方は999円以内の店が多く、充実度が高いと言えます。一方で、コメント数から評価すると、六本木・麻布・広尾エリアには、コメント数が他店を圧倒している店があり、評価ポイント数も六本木・麻布・広尾エリアの方が高くなっています。以上のことから、コストパフォーマンスを求めるなら、目黒・白金・五反田エリアで、話題性、評価ポイントを求める場合は、六本木・麻布・広尾エリアということが言えます。

マルコフ連鎖を使用したTextGeneratorというプログラムについて

ツイッターでよく見かける自動的にツイートするボットは、どのようにつ作られているのでしょうか?この記事では、マルコフ連鎖というアルゴリズムを使用したText Generatorというプログラムを使った文章生成の実例を紹介しています。

 マルコフ連鎖とは?

マルコフ連鎖とは、統計学における理論もしくは概念のひとつです。

ウィキペディアによると、

確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的(有限または可算)なものをいう。また特に、時間が離散的なものを指すことが多い。マルコフ連鎖は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である。各時刻において起こる状態変化に関して、マルコフ連鎖は遷移確率が過去の状態によらず、現在の状態のみによる系列である。

とあります。

Googleが発案したPage Rankという検索結果のランキング手法もマルコフ連鎖の性質を利用したものとして知られています。

TextGeneratorについて

Text Generatorとは、マルコフ連鎖を使用した文章生成プログラムで、Githubで公開されています。文章生成の元となるテキストデータを用意して、プログラムを実行するだけで文章を自動生成するモデルを作ります。このText Generatorを使用して、エヴァンゲリオンに登場するキャラクターの綾波レイのセリフっぽいツイートをするボットを作成してみました。元となるテキストデータは、EVA@wikiというウェブサイトのセリフ保管庫からスクレイピングすることで取得しています。このボットは、10分おきにText Generatorで生成したモデルを実行することで、綾波レイっぽい文章がその都度生成されます。その生成したテキストをツイッターに自動で投稿するというプログラムになっています。

f:id:hira03:20190822162855p:plain

ayanami_bot

綾波ボット (@ayanami_bot) | Twitter

 

新宿におけるツイッターの利用状況について

ツイッターには、ツイートした時に位置情報を紐付けする機能があることをご存知でしょうか?これはスマートフォンからツイッターを利用する時に紐付けされる機能ですが、この機能をオンにした状態で投稿すると、ツイートした時の位置情報が紐付けされます。この記事では、ある場所から取得したツイートの位置情報を地図にプロットすることで、実際にどのような場所でツイートされているのかについて時間ごとに分析しています。

昼間(7時から14時)の利用状況

この画像は、ある期間の昼間(7時から14時)における新宿でのツイートから位置情報を取得して実際の地図にプロットしたものです。これを見ると、新宿駅を中心にまんべんなくツイートされていることがわかります。特に東口方面からのツイートが多くなっているのがこの画像からわかります。一方で、南口方面や都庁方面も数は少ないもののツイートされていることがわかります。これは、ツイッターの位置情報をオンにしている利用者の多くが、foursquareというアプリと連携して利用していることが挙げられます。foursquareの利用者の多くは、有名スポットやカフェやショップなどで投稿することが多くなります。そのため、新宿においてはそうした場所が多く密集する東口エリアからの投稿が多くなるという傾向が見られるのだと考えられます。

f:id:hira03:20190815113053p:plain

昼間(7時から14時)の利用状況

夜間(18時から1時)の利用状況

次の、同じ期間の夜間(18時から1時)におけるツイッターの利用状況を見てみると、先ほどの昼間の時間帯と比べると、全体的に東口方面に人が移動していることがわかります。特に、昼間の時間帯には、南口方面や都庁方面でもツイートがされていましたが、夜間になるとツイートが減少していることがわかります。これも先ほどの理由と同じで、位置情報をオンにしているユーザーの大半はfoursquareの利用者なので、夜間になると飲食店が多く集まっている東口方面からのツイートが多くなるということだと考えられます。

f:id:hira03:20190815113215p:plain

夜間(18時から1時)の利用状況

まとめ

今回は、新宿におけるツイッターの利用状況を分析してみました。結論としては、昼間と比べると夜間の方が東口方面からのツイッター利用者が多くなる傾向があることがわかりました。この分析は他の場所においてもできるので、様々な街におけるツイッターの利用状況を時間帯ごとに分析してみるとその街の利用状況がわかってくると考えられます。

ツイッターにおける「いいね」と「リツイート」の関係について

ツイッターにおける「いいね」と「リツイート」にはどのような相関性があるのでしょうか?この記事では、TwitterAPIから、あるアカウントにおけるツイートの「いいね」と「リツイート」の回数を取得することで相関性についで分析しています。

 指原莉乃さんの「いいね」と「リツイート

分析対象のデータについて

ここでは、フォロワー数の多いことで知られている指原莉乃さんのアカウントにおけるツイートに対する「いいね」と「リツイート」の相関性について分析しています。相関性の分析に際して、外れ値もしくは、いわゆるバズったツイートは、この場合は除外して分析しています。今回のデータで外れ値としたツイートは以下のようなものがあります。周辺の値よりもっとも大きく外れた値は、「いいね」が247101回、「リツイート」が32760回となったツイートなどがあります。今回は、「いいね」が50000回以下、「リツイート」が5000回以下のデータを分析対象としています。

f:id:hira03:20190814121012p:plain

指原莉乃さんのツイートのうち「いいね」が50000回より大きかったもの

相関性の分析

次のグラフは、指原莉乃さんの直近500のツイートデータのうち、「いいね」が50000回以下、「リツイート」が5000回以下の条件における散布図となっています。この散布図を見ると、かなり高い相関性にあることがわかります。この場合の相関係数は、0.9548となっていて、かなり強い相関性があると判断できます。このことから、「いいね」が増えると「リツイート」も増えるという相関性があると言えます。

f:id:hira03:20190814121139p:plain

指原莉乃さんのツイートの「いいね」と「リツイート」の散布図

東京ディズニーリゾートPR【公式】の「いいね」と「リツイート

分析対象のデータについて

次のデータは、やはりフォロワー数の多い、東京ディズニーリゾートのアカウントにおける「いいね」と「リツイート」の回数の相関性について分析しています。東京ディズニーリーゾートの場合、「いいね」の回数が最も多かったのは、88047回、「リツイート」は、33865回となっています。今回は、「いいね」が30000回以下、「リツイート」が5000回以下のデータを分析対象としています。

f:id:hira03:20190814121254p:plain

東京ディズニーランドのツイートのうち「いいね」が60000回より大きかったもの

相関性の分析

次のグラフは、東京ディズニーランドの直近500のツイートデータのうち、「いいね」が30000回以下、「リツイート」が5000回以下の条件における散布図となっています。この散布図を見ると、かなり高い相関性にあることがわかります。この場合の相関係数は、0.9021となっていて、かなり強い相関性があると判断できます。このことから、「いいね」が増えると「リツイート」も増えるという相関性があると言えます。

f:id:hira03:20190814121430p:plain

東京ディズニーランドの「いいね」と「リツイート」の散布図

まとめ

今回は、ツイッターにおける「いいね」と「リツイート」の相関性について分析してみました。分析対象としたのは、個人のアカウント(指原莉乃さん)と企業のアカウント(東京ディズニーランド)の二つのケースで行ってみましたが、どちらもかなり強い相関性があることがわかりました。一方で、個人のアカウントである指原莉乃さんのデータの傾向としては、外れ値(バズる)が東京ディズニーランドの最大値よりもかなり大きくなっていることがあります。一方で、東京ディズニーランドのデータの傾向としては、「いいね」の回数が5000回から10000回に集中していることがグラフからわかります。指原莉乃さんの「いいね」は0回から10000回に集中していることから見ると、東京ディズニーランドのツイートは「いいね」がつきやすい傾向にあることがわかります。以上のことから、個人のアカウントでは、外れ値が大きくなる傾向があり、企業のアカウントでは、コンスタントに「いいね」がつきやすいツイートが多くなる傾向があることが考えられます。

ドル円為替レートと日経平均はどのような相関性にあるのか?

ドル円為替レートと日経平均の関係は円高になると株安になり、円安になると株高になるという相関性があるということで理解されていますが、実際のところはどうなのでしょうか?この記事では、2000年頃からのドル円為替レートの推移と日経平均の推移を比較してみることで、ドル円為替レートと日経平均の相関性について分析しています。

2001年からのドル円為替レートの推移

まず、2001年頃から現在までのドル円為替レートの推移を見てみると、これまでの最安値(円安)は、2002年2月11日の134.95円となっています。一方で、この期間に最高値(円高)となったのは、2011年10月31日の75.75円となっています。これはリーマンショックによって、日経平均が下がったことと、世界的株安によって円買いが進み、これだけの円高となったと言われています。その後、2013年4月4日の「量的・質的金融緩和」の導入決定により、再び円安傾向になっています。現在(2019年6月28日時点)の為替レートは、107.74円となっていて、やや円高傾向と言えます。

f:id:hira03:20190810121047p:plain

ドル円為替レートの推移

ドル円為替レートと日経平均の比較

このグラフは、ドル円レートと日経平均を標準化して同じグラフにプロットしたものです。それぞれのデータ値は標準化しているので、具体的な数値はわかりませんが、こうして標準化した状態で並べてみると、2004年から2016年くらいまでの期間を見ると、株高の時は円安、株安の時は円高という傾向であることが見て取れます。一方で、2001年から2002年、2017年から現在までの期間を見ると、必ずしも先ほどのような相関性にあるとは限らないこともわかります。

f:id:hira03:20190810121133p:plain

ドル円為替レートと日経平均の比較

ドル円為替レートと日経平均の相関性

このグラフは、先ほどの標準化したドル円為替レートと日経平均のデータを散布図でプロットしたものです。また、それぞれのデータを使用して、相関係数と決定係数を求めてみました。これを見ると、相関係数は0.4462となっており、この数値は一般的にやや総関係性がありと判断できる数値となっています。散布図自体を見てみても、バラツキは多いものの、全体的に右上方向に相関性がみられることがわかります。

f:id:hira03:20190810121231p:plain

ドル円為替レートと日経平均の散布図

 

日経平均は今後どこまで上昇傾向が続くのか?

経済指標の中でも景気の動向を知る上で重要な指標としても知られている日経平均は、今後どこまで上昇傾向にあるのでしょうか?この記事では、これまでの日経平均の推移と、アメリカの株価の指標であるダウ平均との比較から今後の日経平均の動向を探ってみたいと思います。

日経平均の推移

以下は日経平均の推移をグラフ化したものです。1965年からある株価のデータを見ると1989年12月29日に最高値の38915円を記録して以降、バブルが崩壊して急速に株価が下落してからは株価が上昇したり下落したりを繰り返しています。一方で2008年9月に起きたリーマンショック後の2009年3月10日に最安値の7054円を記録してからは、現在まで上昇傾向にあることがわかります。

f:id:hira03:20190726124605p:plain

日経平均の推移

ダウ平均の推移

ダウ平均のデータは1985年からになり、リーマンショックによる急落以外は現在までほぼ上昇傾向にあります。特に2009年3月9日にリーマンショック後の最安値6547ドルを記録してからは株価が上昇するまでの期間も日本と比べると早く進んでいます。また、2017年1月20日トランプ大統領が就任してからは急速に株価が上昇して歴代最高値を更新し続ける現在に至ります。

f:id:hira03:20190726124647p:plain

ダウ平均の推移

日経平均とダウ平均の推移の比較

以下のグラフは日経平均とダウ平均の株価の動きを比較したものです。為替レートが違うので、単純に比較はできませんが、日経平均が過去最高値を記録した19891229日の日経平均とダウ平均の価格と、201971日現在の日経平均とダウ平均の価格を比べると、ダウ平均がいかに大きく値上がりしているかがわかります。日本の株価が38915円になった時のダウ平均は2753ドル程度でしたが、現在(2019年7月1日時点)の価格は日経平均が21729円に対してダウ平均は26717ドルとなっています。つまり、1989年12月29日と2019年7月1日の株価の比率を比較すると日経平均が0.56倍なのに対して、ダウ平均は約9.7倍にも株価が上がっていることになります。

f:id:hira03:20190726124739p:plain

日経平均とダウ平均の推移の比較

まとめ

日経平均とダウ平均の推移を比較してみましたが、ダウ平均のこれまでの推移を見るとリーマンショック以外はほぼ上昇傾向にあるのに対して、日経平均バブル崩壊以降の株価の乱高下やリーマンショックから株価が上昇するまでの期間が長かったことなどから見ても、アメリカのダウ平均の動きに追従できていない印象があります。ただ、日本の場合、バブル期に38915円という過去最高値を記録して以来、現在までその価格を更新できていないことを考えるとアメリカの株価の動向にもよりますがもう少し上昇傾向が続くのではないかと考えられます。

AKB48の世代交代はどれだけ進んでいるのか?

次のセンターに若手メンバーの矢作萌香さんが選ばれたことで話題となっているAKB48ですが、シングルごとに選抜メンバーが選ばれるというシステムによって、AKB48グループはどのくらい世代交代が進んでいるのでしょうか?この記事では、2015年と2018年に行われた選抜総選挙と直近の48グループ全体、また各グループ(AKB48SKE48NMB48HKT48STU48)の生年月日を集計して世代ごとの比較を行ってみました。

 2015年と2018年の選抜総選挙における世代の比較

以下のヒストグラムは、2015年に行われた選抜総選挙と2018年に行われた選抜総選挙の当選圏内のメンバーを年代ごとに集計したものです。このグラフを見てみると、2015年に行われた選抜総選挙では1994年から1998年の世代に当選メンバーが集中していることがわかります。一方で、2018年に行われた選抜総選挙では、1996年から2002年の世代に当選メンバーが集中しています。特に2018年の選抜総選挙では、2015年のグラフと比較すると1999年から2002年代の増加が目立っています。このことからも2015年から2018年の間にも世代交代が進んでいることがわかります。

f:id:hira03:20190725084223p:plain

2015年と2018年の選抜総選挙による世代の比較

48グループの全メンバーの世代分布(2019年7月時点)

次に、直近の48グループ全体の世代ごとの分布をグラフ化してみました。48グループ(AKB48SKE48NMB48HKT48STU48の合計)のメンバー総数は2019年7月時点で、317人となっています。年代ごとのバラツキをあらわす標準偏差は3程度となっていますが、以下のヒストグラムを見ると概ね正規分布に従った分布となっています。最頻値は1999年代、中央値は2000年代、最年長は1991年代、最年少は2006年代となっていますので、現在20歳前後のメンバーが最も多く、最年長と最年少の歳の差は15歳程度の範囲で世代が分布していることがわかります。世代的には、1997年代から2003年代に集中していることがこのグラフからわかります。

f:id:hira03:20190725084331p:plain

48グループの全メンバーの世代分布

各グループにおける世代の比較

ここでは先ほどの48グループ全体の集計結果と比較するかたちで各グループ(AKB48SKE48NMB48HKT48STU48)の世代の分布を見てみたいと思います。48グループ全体では、317人となっていますが、一番多いグループはAKB48で、SKE48NMB48HKT48は同じくらい(60人前後)のメンバー数となっています。最近新しく結成されたSTU48は30人と各グループの中で最もメンバー数が少なくなっています。

AKB48の世代分布

AKB48のメンバー数は102人です。年代平均は全体とほぼ同じくらいで、バラツキは普通です。最頻値は2001年代で、1997年代から2003年代に集中しています。48グループの約3割がAKB48のメンバーであるということもあるので、48グループ全体と同じような分布傾向となっています。

f:id:hira03:20190725084449p:plain

AKB48の世代分布

SKE48の世代分布

SKE48のメンバーは67人です。年代平均は全体とほぼ同じで、バラツキは大きいです。最頻値は2000年代と2002年代で、1999年代から2003年代に集中しています。SKE48は最年長が1991年代で最年少が2006年代となっていて、各年代ごとの範囲が最も大きいグループとなっています。最も多い世代は2001年代前後に集中していますが、その他の年代の世代もバラツキが大きいこともあり、幅広く満遍なく分布しています。

f:id:hira03:20190725084541p:plain

SKE48の世代分布

NMB48の世代分布

NMB48のメンバーは61人です。年代平均は全体とほぼ同じで、バラツキは普通です。最頻値が2001年代で、1995年代から2005年代と満遍なく分布しています。中心世代は1998年から2003年代くらいですが、2005年代が多いというのも他のグループと異なる特徴です。

f:id:hira03:20190725084623p:plain

NMB48の世代分布

HKT48の世代分布

HKT48のメンバーは57人です。年代平均は全体より若く、バラツキが小さいという特徴があります。最頻値は2000年代ですが2003年代も多く、全体の分布の傾向からみると2001年代と2002年代が少ないことがわかります。

f:id:hira03:20190725084708p:plain

HKT48の世代分布

STU48の年代分布

STU48のメンバーは30人です。年代平均は全体より若く、バラツキが小さいという特徴があります。最頻値は1999年代ですが2003年代と2004年代も多く、結成間もないのと人数も少ないため年代の分布幅が小さいということがこのグラフからわかります。

f:id:hira03:20190725084751p:plain

STU48の世代分布

まとめ

以上のように、2015年と2018年の選抜総選挙の世代比較と、現在の48グループと各グループごとの世代比較をしてみましたが、現在の現役メンバーの中心的世代は1999年から2004年くらいに集中していうことがわかりました。これは年齢でいうと、20歳から15歳くらいということになります。また、AKB48における世代交代は現在の48グループの集計結果からもわかります。選抜総選挙の比較から見ても、2015年と2018年の当選圏内メンバーの中心世代に変化があることがわかりました。このように年代ごとに活躍する中心世代が位相するというシステムを持っているというのがAKB48が長く注目を浴びるグループとなっている要因だと考えられます。