データ分析系プログラマーのブログ

主にPythonを使ったデータ分析や機械学習をやっています。

matplotlibの基本的な使い方その6

matplotlibで使えるグラフとして、円グラフがあります。円グラフはデータの割合を見たい時などに使用します。円グラフを使用すると、データ全体のうち、ある項目が全体のうちどのくらいの割合であるのかを視覚的に確認できます。この記事では、matplotlibに…

matplotlibの基本的な使い方その5

matplotlibで使えるグラフとして、ヒストグラムがあります。ヒストグラムはデータの分布具合を見たい時などに使用します。ヒストグラムを使用すると、データ全体のうち、その階級にデータが多くあるのかなどを視覚的に確認できます。この記事では、matplotli…

matplotlibの基本的な使い方その4

matplotlibで使えるグラフとして、棒グラフがあります。棒グラフは、折れ線グラフ同様に、データの推移をみたりする場合に使用する以外にも、データを比較したりする場合にも使用します。この記事では、matplotlibによる棒グラフの描き方について紹介してい…

matplotlibの基本的な使い方その3

matplotlibでは、様々はグラフを描画することができます。そのうちよく使うグラフとして散布図があります。散布図は、xとyの相関性を見るときなどに使用します。例えば、体重と身長、湿度と気圧、タクシーの乗車料金と移動距離と言った、相関性がありそうな…

matplotlibの基本的な使い方その2

matplotlibでは、様々はグラフを描画することができます。そのうちよく使うグラフとして折れ線グラフがあります。折れ線グラフは株価や人口増加の推移など、主に時系列のデータを扱うときに使用します。この記事では、株価のデータを使って折れ線グラフの基…

matplotlibの基本的な使い方その1

Pythonには、データ分析を行う上で便利なツールがあります。そのうちのひとつとしてmatplotlibがあります。matplotlibはグラフ描画ライブラリです。このmatplotlibを使用することで、様々なグラフを描画することができます。この記事では、このmatplotlibに…

pandasの基本的な使い方その8

pandasを使ったデータ分析の便利な機能として、データフレームのデータに関数を適用することができるということがあります。これはデータ追加の時にも少し紹介しましたが、pandasのデータフレームに関数を適用することによって、データごとの計算結果を新た…

pandasの基本的な使い方その7

pandasの便利な機能として、データフレーム同士を結合する機能があります。結合機能は、例えばKaggleなどのデータセットを使って機械学習などを行うときに、トレーニングデータとテストデータそれぞれに同じ前処理を行う必要があるときに、トレーニングデー…

アメリカの現金給付システムを実現したソーシャル・セキュリティー・ナンバーとはどのような制度なのか?

先日、高市総務相は、9日の閣議後の記者会見で、マイナンバーと預貯金口座の紐付けについて、国民1人について1口座の登録義務化を目指す考えを明らかにしました1。これは、災害時などに国民に給付金を直接かつ迅速に支給するシステムを構築するために必要な…

pandasの基本的な使い方その6

pandasでデータ分析をする場合に、男性、女性やAグループ、Bグループなどカテゴリカルなデータを扱うことが多くあります。このようなカテゴリカルなデータを扱う場合は、カテゴリーがいくつあるのかや、カテゴリーごとにまとめて集計するなどの操作が必要に…

pandasの基本的な使い方その5

pandasを使ってデータ分析を行う場合は、Kaggleのようなデータセットとは違い、実際のデータは綺麗な状態であることのほうが少ないです。この時にデータ分析や機械学習を行う前の作業として、前処理という段階があります。前処理には、欠損値の処理や、カテ…

pandasの基本的な使い方その4

pandasを使っていく中で、ある列とある列の計算結果を別の新しい列に追加して表示したり、必要のない列や行を削除すると言った操作をすることがよくあります。pandasでは、このような列や行の追加や削除といった操作を簡単に行うことができます。この記事で…

ベーシックインカムはどのように給付・利用されるべきなのか?

新型コロナの感染拡大の影響で緊急事態宣言となり、生活の維持に必要な場合を除き、外出を自粛し、人と人との接触を最大限削減する必要となりました。その経済対策として、日本政府は、新型コロナウイルス感染症緊急経済対策を閣議決定し、特別定額給付金い…

pandasの基本的な使い方その3

pandasを使って実際にデータ分析を行っていく場合には、ある特定のデータを選んだり、ある条件にあったデータを取り出したりすることがあります。pandasで生成したデータフレームはこのような特定のデータや条件にあったデータの選択を容易にします。この記…

pandasの基本的な使い方その2

データ分析や機械学習を行う場合に、データの内容を確認することを探索的データ解析、英語ではExplanatory Data Analysis(略してEDA)と言います。pandasでは、この探索的データ解析を行うのに便利な機能が用意されています。この記事では、pandasの基本的…

pandasの基本的な使い方その1

Pythonには、データ分析を行う上で便利なツールがあります。そのうちのひとつとしてpandasがあります。pandasはデータフレームと呼ばれる列(columns)と行(index)からなる格子状のデータを扱うことができるライブラリーです。このpandasを使用することで…

Don't repeat yourselfとless is moreに共通する哲学とは?

コンピューティングの領域においてよく知られている哲学として、Don't repeat yourself(DRY原則)という考え方があります。一方で建築の領域では、less is moreという哲学が広く知られています。この二つの哲学には、どこか似ている部分があるように思いま…

numpyの基本的な使い方その10

numpyの機能のひとつとして、ブロードキャストがあります。ブロードキャストは、異なる形状の配列同士でも計算することができます。このブロードキャストの機能は、ディープラーニングで使用するニューラルネットワークを実装するときなどに使用します。この…

numpyの基本的な使い方その9

numpyでは、int型、float型、object型など幾つかのデータ型を扱えます。一般的にはnumpy配列を生成した時点で自動的にデータ型は定義されますが、numpy配列を生成する時点でデータ型を指定することもできます。この記事では、numpyにおけるデータ型の確認方…

numpyの基本的な使い方その8

numpyでは、各種統計量を求めるユニバーサル関数も用意されています。なので、numpy配列のデータだと、簡単に平均や標準偏差を求めることができます。この記事では、numpyで使用できる主な統計量について紹介しています。 データを生成する 合計・平均・中央…

numpyの基本的な使い方その 7

numpyには、ユーニバーサル関数と言って、多次元配列などの配列同士を演算することができる関数があります。また、このユーニバーサル関数には、四則演算、比較演算、ブール演算などがあります。これらの演算については、+、-などの演算子を使っても計算する…

numpyの基本的な使い方その6

numpyでは、乱数を生成することができます。numpyで生成できる乱数には、幾つかの種類があります。この記事では、numpyにおける乱数の生成について紹介しています。 乱数の生成 rand: 0から1までの範囲で乱数を生成 randn: 標準正規分布(平均0、分散1)に…

numpyの基本的な使い方その5

numpyの便利な機能の一つとして、配列の生成があります。numpyで配列を生成する場合は、範囲を指定して生成するarangeやlinspace、形状を指定して生成するzeros、ones、eyeなどがあります。この記事では、これらの配列の生成方法について紹介しています。 ar…

numpyの基本的な使い方その4

numpyでデータを扱うときによく使用する機能として、配列の連結や分割などがあります。配列を連結するときは、concatenateもしくはvstack、hstackを使用します。また、配列を分割したいときは、splitもしは、vsplit、hsplitを使用します。この記事では、nump…

numpyの基本的な使い方その3

numpyでデータ分析をする場合に、条件をつけてデータを選択することも重要となってきます。numpyでは、<や>、==などの比較演算子が使用できますので、それで条件をつけてデータを選択することができます。また、whereメソッドを使うことで条件選択した値を別…

numpyの基本的な使い方その2

numpyは、配列データを扱うライブラリです。そのため、必要なデータにアクセスするための機能も備わっています。一般的なPythonで使用できるlist同様に、インデックス指定することでデータにアクセスしたり、スライスを使用することができます。この記事では…

numpyの基本的な使い方その1

Pythonにはデータ分析を行う上で、便利なツールが多くあります。そのうちの一つとしてnumpyが挙げられます。numpyは、配列のデータの扱いを強力にするライブラーですので、配列同士の計算が容易にできたります。この記事では、numpyの基本的な使い方として、…

Pythonにおけるクラスとは?

Pythonでは、クラスを使ったプログラミングがでできます。クラスとは、データ(変数、プロパティ)とコード(関数、メソッド)を一つとして扱うオブジェクト(インスタンス)を生成する雛形であり、オブジェクト指向プログラミング言語で提供される機能です…

AppleとGoogleが共同開発するContact Tracingとはどのような技術なのか?

2020年4月10日(米国時間)にAppleとGoogleは、新型コロナ感染症(COVID-19)の感染拡大を防ぐ活動を支援するために、Contact TracingというBluetoothテクノロジーを利用した共同プロジェクトの立ち上げを発表しました。Contact Tracingは、オプトイン形式の…

Pythonを使った二元配置分散分析について

分散分析には、1つの因子からなるデータを分析し、水準間の平均値の差を見る、一元配置分散分析と、2つの因子からなるデータを分析し、各因子における水準間の平均値の差を見る、二元配置分散分析、3つ以上からなるデータを分析する多元配置分散分析がありま…