データ分析系プログラマーのブログ

主にPythonを使ったデータ分析や機械学習をやっています。

統計

Pythonを使った二元配置分散分析について

分散分析には、1つの因子からなるデータを分析し、水準間の平均値の差を見る、一元配置分散分析と、2つの因子からなるデータを分析し、各因子における水準間の平均値の差を見る、二元配置分散分析、3つ以上からなるデータを分析する多元配置分散分析がありま…

Pythonを使った一元配置分散分析について

分散分析には、1つの因子からなるデータを分析し、水準間の平均値の差を見る、一元配置分散分析と、2つの因子からなるデータを分析し、各因子における水準間の平均値の差を見る、二元配置分散分析、3つ以上からなるデータを分析する多元配置分散分析がありま…

Pythonを使った回帰分析における決定係数について

回帰分析によって求められた回帰式は、予測値を求めることができますが、その回帰式の評価については、決定係数で行うことができます。回帰式の評価方法には、他にも平均絶対誤差 (MAE)や平均二乗誤差 (MSE)、二乗平均平方根誤差 (RMSE)と言った方法もありま…

Pythonを使った回帰分析における予測値と残差について

回帰分析の最終的な目的は、回帰式を求めて予測値を計算することにあります。また、回帰分析によって求めた回帰式を評価する方法として決定係数と残差分析という方法があります。この記事では、Pythonを使った予測値の求め方と残差の計算方法について紹介し…

Pythonを使った重回帰分析について

回帰分析とは、目的変数yが説明変数xによって計算される回帰式を求めることを言います。この回帰分析には一つの説明変数から求める単回帰分析と、複数の説明変数から求める重回帰分析があります。この記事では、Pythonを使った重回帰分析について紹介してい…

Pythonを使った単回帰分析について

回帰とは、目的変数について、説明変数xを使った式で表すことを言います。この目的変数yを説明変数xで求める式のことを回帰式と呼び、この回帰式を求めることを回帰分析と言います。この回帰分析のうち、説明変数xが一つの場合を単回帰分析と呼び、説明変数x…

Pythonを使った層別解析について

散布図や相関係数を求めるときに、全てのデータから分析するのではなく、あるまとまりを持ったデータに分けて分析する手法を層別解析と言います。この記事では、都道府県の年平均気温、日照時間、雪日数の三つのデータを用いて、雪の多い都道府県、雪の少な…

Pythonを使った偏相関係数の求め方

偏相関係数とは、XとYという二つの変数の相関が別のZという第3の変数によって高められたり、低くなったりする場合に、第3の変数の影響を取り除いた相関係数となります。この偏相関係数は、X、Y、Zという変数があった時、Zの影響を除去する偏相関係数は、X…

Pythonを使った相関係数の求め方

相関係数とは、二つの要素、同じ個数のデータについての相関関係の強さを表す指標です。この相関係数は、二つの要素それぞれの標準偏差の積を分母にして、共分散を分子にすることで求めることができます。この記事では、Pythonを使った相関係数の求め方につ…

Pythonを使った独立性のカイ二乗検定統計量の求め方

検定には、母平均、母比率、母分散を用いた検定の他に、二項分布、ポアソン分布、適合度、独立性の検定があります。このうち、カイ二乗統計量を用いた独立性の検定は、2つ以上の分類基準を持つクロス集計表において、分類基準間に関連があるかどうかを検定…

Pythonを使った適合度のカイ二乗検定統計量の求め方

検定には、母平均、母比率、母分散を用いた検定の他に、二項分布、ポアソン分布、適合度、独立性の検定があります。このうち、カイ二乗統計量を用いた適合度の検定は、ある調査によって得られたクロス集計表がある場合、実測度数がある特定の分布に適合(一…

Pythonを使ったポアソン分布の検定統計量の求め方

検定には、母平均、母比率、母分散を用いた検定の他に、二項分布、ポアソン分布、適合度、独立性の検定があります。このうち、ポアソン分布を用いた検定は、事故や地震などのようにサンプル数が非常に大きく、確率が非常に小さい場合にサンプル数×確率を一定…

Pythonを使った二項分布の検定統計量の求め方

検定には、母平均、母比率、母分散を用いた検定の他に、二項分布、ポアソン分布、適合度、独立性の検定があります。このうち、二項分布を用いた検定は、コインやサイコロなどのようにある値が出るか出ないかと言った二項分布からコインやサイコロなどの確率…

Pythonを使った等分散の検定統計量の求め方

母分散の検定には2標本を使った等分散の検定があります。この2つの標本のた母分散を使っ等分散の検定は、2つの標本から得た標本分散を使って2つの分散が等しいかをF分布を使って検定する方法となります。この記事では、Pythonを使った、等分散の統計検定…

Pythonを使った母分散の検定統計量の求め方(母平均未知)

検定には、母平均、母比率、母分散を用いた検定がそれぞれあります。このうち、母分散を用いた検定は、母平均が既知の場合は、標本平均の分布は、自由度nのカイ二乗分布に従い、母平均が未知の場合は、自由度n-1のカイ二乗分布に従います。この記事では、Pyt…

Pythonを使った母比率の差の検定統計量の求め方(大標本)

母比率の検定には2標本を使った検定があります。この2つの標本を使った母比率の差の検定は、2つの標本から得た標本比率を使って母比率が等しいかを検定する方法となります。この記事では、Pythonを使って、母比率の差の統計検定量の求め方と検定の行い方に…

Pythonを使った母比率の検定統計量の求め方(大標本)

検定には、母平均、母比率、母分散を用いた検定がそれぞれあります。このうち、母比率を用いた検定は、標本が十分に大きい場合には標本平均の分布は正規分布に従うことから、標準正規分布を用いて検定を行うことができます。この記事では、Pythonを使って、…

Pythonを使った母平均の差の検定統計量の求め方(母分散未知)

母平均の検定には2標本を使った検定があります。このうち、サンプル数が同じ場合(対応のある)とサンプル数が異なる場合(対応のない)とで求め方が違います。この記事では、Pythonを使った母平均の差の検定統計量の求め方について、対応がある場合、対応…

Pythonを使った母平均の検定統計量の求め方(母分散未知)

統計学には、確率を元に仮説を立てて、検証して、結論を導くという手順で行う検定があります。検定には、母平均、母比率、母分散を用いた検定がそれぞれあります。この記事では、Pythonを使って、母分散が未知である場合の母平均の統計検定量の求め方と検定…

Pythonを使った母平均の検定統計量の求め方(母分散既知)

統計学には、確率を元に仮説を立てて、検証して、結論を導くという手順で行う検定があります。検定には、母平均、母比率、母分散を用いた検定がそれぞれあります。この記事では、Pythoを使って、母分散が既知である場合の母平均の統計検定量の求め方と検定の…

Pythonを使った母分散の95%信頼区間の求め方

区間推定には、母平均の信頼区間の他に、母比率や母分散の信頼区間も求めることができます。この記事では、Pythonを使った母分散の95%信頼区間の求め方について紹介しています。 母分散の信頼区間とは Pythonを使った母分散の95%信頼区間 参考 母分散の信頼…

Pythonを使った母比率の差の95%信頼区間の求め方

母比率の信頼区間は、2つの異なる母集団の比率の差の信頼区間を算出することもできます。この記事では、Pythonを使った母比率の95%信頼区間の求め方について紹介しています。 母比率の差の95%信頼区間 Pythonを使った母比率の差の95%信頼区間その1 Pythonを…

Pythonを使った母比率の95%信頼区間の求め方

区間推定には、母平均の信頼区間の他に、母比率や母分散の信頼区間も求めることができます。この記事では、Pythonを使った母比率の95%信頼区間の求め方について紹介しています。 母比率の95%信頼区間とは サンプルサイズの算出 Pythonを使った母比率の95%信…

母平均の差の信頼区間について

母平均の信頼区間は、2つの異なる母集団の平均の差の信頼区間を算出することもできます。2つのデータが対応のあるデータの場合は、それぞれのデータの差を求めることで信頼区間を求めることができます。一方で、対応のないデータの場合では、母分散が既知、…

Pythonを使った母平均の95%信頼区間(母分散未知)の求め方

母集団から標本を抽出して母集団のパラメータを推定する場合には、点推定と区間推定の2種類があります。このうち、区間推定にも、母集団の分散がわかっている場合(母分散既知)と母集団の分散がわからない場合(母分散未知)に分けられます。この記事では…

Pythonを使った母平均の95%信頼区間(母分散既知)の求め方

母集団から標本を抽出して母集団のパラメータを推定する場合には、点推定と区間推定の2種類があります。このうち、区間推定にも、母集団の分散がわかっている場合(母分散既知)と母集団の分散がわからない場合(母分散未知)に分けられます。この記事では…

標準誤差について

母集団から標本と抽出して、母集団のパラメータを求めるような推定を行う場合、母集団の統計量と標本から求める推定量には誤差が生じます。このような誤差を標準誤差と言います。この記事では、pythonを用いた標準誤差の求め方とサンプル数を増やした時の標…

不偏分散について

母集団の標本を用いて、母集団を特徴づけるパラメータ(母数)の推定値を求めるような点推定のうち、標本から求める分散のことを不偏分散といい、分散(標本分散)と区別しています。この記事では、Pythonを使った不偏分散の求め方について紹介しています。 …

点推定について

統計学は、データを整理し、表やグラフを使ってわかりやすく表すような記述統計学と、母集団の標本を使って、母集団の情報を推測するような推測統計学の2種類に分けられます。そのうち、推測統計学は推定と検定があります。そして、推定には平均値などを1つ…

連続一様分布について

確率密度関数が常に一定の値をとる分布のことを一様分布と言います。一様分布には、離散型確率分布と連続型確率分布があります。この記事では、連続一様分布について紹介しています。 連続一様分とは 連続一様分布に従う確率密度関数と期待値と分散 連続一様…