データ分析系プログラマーのブログ

主にPythonを使ったデータ分析や機械学習をやっています。

データ分析

matplotlibの基本的な使い方その6

matplotlibで使えるグラフとして、円グラフがあります。円グラフはデータの割合を見たい時などに使用します。円グラフを使用すると、データ全体のうち、ある項目が全体のうちどのくらいの割合であるのかを視覚的に確認できます。この記事では、matplotlibに…

matplotlibの基本的な使い方その5

matplotlibで使えるグラフとして、ヒストグラムがあります。ヒストグラムはデータの分布具合を見たい時などに使用します。ヒストグラムを使用すると、データ全体のうち、その階級にデータが多くあるのかなどを視覚的に確認できます。この記事では、matplotli…

matplotlibの基本的な使い方その4

matplotlibで使えるグラフとして、棒グラフがあります。棒グラフは、折れ線グラフ同様に、データの推移をみたりする場合に使用する以外にも、データを比較したりする場合にも使用します。この記事では、matplotlibによる棒グラフの描き方について紹介してい…

matplotlibの基本的な使い方その3

matplotlibでは、様々はグラフを描画することができます。そのうちよく使うグラフとして散布図があります。散布図は、xとyの相関性を見るときなどに使用します。例えば、体重と身長、湿度と気圧、タクシーの乗車料金と移動距離と言った、相関性がありそうな…

matplotlibの基本的な使い方その2

matplotlibでは、様々はグラフを描画することができます。そのうちよく使うグラフとして折れ線グラフがあります。折れ線グラフは株価や人口増加の推移など、主に時系列のデータを扱うときに使用します。この記事では、株価のデータを使って折れ線グラフの基…

matplotlibの基本的な使い方その1

Pythonには、データ分析を行う上で便利なツールがあります。そのうちのひとつとしてmatplotlibがあります。matplotlibはグラフ描画ライブラリです。このmatplotlibを使用することで、様々なグラフを描画することができます。この記事では、このmatplotlibに…

pandasの基本的な使い方その8

pandasを使ったデータ分析の便利な機能として、データフレームのデータに関数を適用することができるということがあります。これはデータ追加の時にも少し紹介しましたが、pandasのデータフレームに関数を適用することによって、データごとの計算結果を新た…

pandasの基本的な使い方その7

pandasの便利な機能として、データフレーム同士を結合する機能があります。結合機能は、例えばKaggleなどのデータセットを使って機械学習などを行うときに、トレーニングデータとテストデータそれぞれに同じ前処理を行う必要があるときに、トレーニングデー…

pandasの基本的な使い方その6

pandasでデータ分析をする場合に、男性、女性やAグループ、Bグループなどカテゴリカルなデータを扱うことが多くあります。このようなカテゴリカルなデータを扱う場合は、カテゴリーがいくつあるのかや、カテゴリーごとにまとめて集計するなどの操作が必要に…

pandasの基本的な使い方その5

pandasを使ってデータ分析を行う場合は、Kaggleのようなデータセットとは違い、実際のデータは綺麗な状態であることのほうが少ないです。この時にデータ分析や機械学習を行う前の作業として、前処理という段階があります。前処理には、欠損値の処理や、カテ…

pandasの基本的な使い方その4

pandasを使っていく中で、ある列とある列の計算結果を別の新しい列に追加して表示したり、必要のない列や行を削除すると言った操作をすることがよくあります。pandasでは、このような列や行の追加や削除といった操作を簡単に行うことができます。この記事で…

pandasの基本的な使い方その3

pandasを使って実際にデータ分析を行っていく場合には、ある特定のデータを選んだり、ある条件にあったデータを取り出したりすることがあります。pandasで生成したデータフレームはこのような特定のデータや条件にあったデータの選択を容易にします。この記…

pandasの基本的な使い方その2

データ分析や機械学習を行う場合に、データの内容を確認することを探索的データ解析、英語ではExplanatory Data Analysis(略してEDA)と言います。pandasでは、この探索的データ解析を行うのに便利な機能が用意されています。この記事では、pandasの基本的…

pandasの基本的な使い方その1

Pythonには、データ分析を行う上で便利なツールがあります。そのうちのひとつとしてpandasがあります。pandasはデータフレームと呼ばれる列(columns)と行(index)からなる格子状のデータを扱うことができるライブラリーです。このpandasを使用することで…

numpyの基本的な使い方その10

numpyの機能のひとつとして、ブロードキャストがあります。ブロードキャストは、異なる形状の配列同士でも計算することができます。このブロードキャストの機能は、ディープラーニングで使用するニューラルネットワークを実装するときなどに使用します。この…

numpyの基本的な使い方その9

numpyでは、int型、float型、object型など幾つかのデータ型を扱えます。一般的にはnumpy配列を生成した時点で自動的にデータ型は定義されますが、numpy配列を生成する時点でデータ型を指定することもできます。この記事では、numpyにおけるデータ型の確認方…

numpyの基本的な使い方その8

numpyでは、各種統計量を求めるユニバーサル関数も用意されています。なので、numpy配列のデータだと、簡単に平均や標準偏差を求めることができます。この記事では、numpyで使用できる主な統計量について紹介しています。 データを生成する 合計・平均・中央…

numpyの基本的な使い方その 7

numpyには、ユーニバーサル関数と言って、多次元配列などの配列同士を演算することができる関数があります。また、このユーニバーサル関数には、四則演算、比較演算、ブール演算などがあります。これらの演算については、+、-などの演算子を使っても計算する…

numpyの基本的な使い方その6

numpyでは、乱数を生成することができます。numpyで生成できる乱数には、幾つかの種類があります。この記事では、numpyにおける乱数の生成について紹介しています。 乱数の生成 rand: 0から1までの範囲で乱数を生成 randn: 標準正規分布(平均0、分散1)に…

numpyの基本的な使い方その5

numpyの便利な機能の一つとして、配列の生成があります。numpyで配列を生成する場合は、範囲を指定して生成するarangeやlinspace、形状を指定して生成するzeros、ones、eyeなどがあります。この記事では、これらの配列の生成方法について紹介しています。 ar…

numpyの基本的な使い方その4

numpyでデータを扱うときによく使用する機能として、配列の連結や分割などがあります。配列を連結するときは、concatenateもしくはvstack、hstackを使用します。また、配列を分割したいときは、splitもしは、vsplit、hsplitを使用します。この記事では、nump…

numpyの基本的な使い方その3

numpyでデータ分析をする場合に、条件をつけてデータを選択することも重要となってきます。numpyでは、<や>、==などの比較演算子が使用できますので、それで条件をつけてデータを選択することができます。また、whereメソッドを使うことで条件選択した値を別…

numpyの基本的な使い方その2

numpyは、配列データを扱うライブラリです。そのため、必要なデータにアクセスするための機能も備わっています。一般的なPythonで使用できるlist同様に、インデックス指定することでデータにアクセスしたり、スライスを使用することができます。この記事では…

numpyの基本的な使い方その1

Pythonにはデータ分析を行う上で、便利なツールが多くあります。そのうちの一つとしてnumpyが挙げられます。numpyは、配列のデータの扱いを強力にするライブラーですので、配列同士の計算が容易にできたります。この記事では、numpyの基本的な使い方として、…

六本木・麻布・広尾と目黒・白金・五反田では、どちらの方面がカレー屋さんの充実度が高いのか?

港区にはカレー店が多いのをご存知でしょうか?この記事では、食べログで紹介している六本木・麻布・広尾エリアと、目黒・白金・五反田エリアの二つのエリアにおけるカレー店の充実度に関して、ジャンル、評価ポイント、コメント数、価格帯の4つの観点から…

新宿におけるツイッターの利用状況について

ツイッターには、ツイートした時に位置情報を紐付けする機能があることをご存知でしょうか?これはスマートフォンからツイッターを利用する時に紐付けされる機能ですが、この機能をオンにした状態で投稿すると、ツイートした時の位置情報が紐付けされます。…

ツイッターにおける「いいね」と「リツイート」の関係について

ツイッターにおける「いいね」と「リツイート」にはどのような相関性があるのでしょうか?この記事では、TwitterAPIから、あるアカウントにおけるツイートの「いいね」と「リツイート」の回数を取得することで相関性についで分析しています。 指原莉乃さんの…

ドル円為替レートと日経平均はどのような相関性にあるのか?

ドル円為替レートと日経平均の関係は円高になると株安になり、円安になると株高になるという相関性があるということで理解されていますが、実際のところはどうなのでしょうか?この記事では、2000年頃からのドル円為替レートの推移と日経平均の推移を比較し…

日経平均は今後どこまで上昇傾向が続くのか?

経済指標の中でも景気の動向を知る上で重要な指標としても知られている日経平均は、今後どこまで上昇傾向にあるのでしょうか?この記事では、これまでの日経平均の推移と、アメリカの株価の指標であるダウ平均との比較から今後の日経平均の動向を探ってみた…

AKB48の世代交代はどれだけ進んでいるのか?

次のセンターに若手メンバーの矢作萌香さんが選ばれたことで話題となっているAKB48ですが、シングルごとに選抜メンバーが選ばれるというシステムによって、AKB48グループはどのくらい世代交代が進んでいるのでしょうか?この記事では、2015年と2018年に行わ…