データ分析系プログラマーのブログ

主にPythonを使ったデータ分析や機械学習をやっています。

機械学習

スクレイピングしたデータを使用したクラスタリングの例

機械学習には教師あり学習と教師なし学習があります。このうち教師なし学習は主成分分析やクラスタリングなどがあります。この記事では、NBPの投手データからスクレイピングしたデータを使ったクラスタリングの例を紹介しています。 NBPの投手データからスク…

Kaggleのデータセットを使用した主成分分析の例その2

機械学習には教師あり学習と教師なし学習があります。このうち教師なし学習は主成分分析やクラスタリングなどがあります。この記事では、Kaggleのデータセットを使用した主成分分析のデータを使って学習データとして使用する例を紹介しています。 House Pric…

Kaggleのデータセットを使用した主成分分析の例

機械学習には教師あり学習と教師なし学習があります。このうち教師なし学習は主成分分析やクラスタリングなどがあります。この記事では、Kaggleのデータセットを使用した主成分分析について紹介しています。 pokemon | Kaggleのデータを使用する Legendaryを…

Kaggleのデータセットを使用した分類手法の例

機械学習には教師あり学習と教師なし学習があります。このうち教師あり学習は回帰と分類の2種類があります。この記事では、Kaggleのデータセットを使用した分類手法について前処理やアンサンブル学習を含めた例を紹介しています。 Kickstarter Projects | K…

Kaggleのデータセットを使用した回帰分析の例

機械学習には教師あり学習と教師なし学習があります。このうち教師あり学習は回帰と分類の2種類があります。この記事では、Kaggleのデータセットを使用した回帰分析について前処理やパラメーターチューニングを含めた例を紹介しています。 New York City Ta…

位置情報型データにおける可視化と前処理の例

機械学習には、緯度・経度といった位置情報を使った学習データを扱う場合があります。この場合は、位置情報から距離や方角、方位といった特徴量を生成することができます。この記事では、位置情報から距離・方角・方位への生成方法と可視化について紹介して…

時間型データにおける可視化と前処理の例

機械学習を行う場合の学習データには前処理が必要となることがあります。この記事では、時間型データにおける可視化や前処理の例を紹介しています。 New York City Taxi Fare Prediction | Kaggleのデータを使用する 時間型データのみを使用する 欠損値を確…

カテゴリ型データにおける可視化と前処理の例

機械学習を行う場合には、学習データを学習に適した状態にする前処理が必要です。この記事では、カテゴリ型データに関する前処理やデータの状態の確認や可視化の方法について紹介しています。 Kickstarter Projects | Kaggleのデータを使用する 学習に必要な…

数値型データにおける可視化と前処理の例

機械学習を行う場合には、学習データを使って行いますが、そのままの状態では正しく学習されないことがあります。そこで、学習データがどのようになっているのかを可視化して確認したり、学習データにふさわしい状態にする前処理が必要があります。この記事…

クラスタリング(KMeansとdendrogram)を使った機械学習の例

機械学習の教師なし学習として、似ているデータ同士をグループ化するクラスタリングがあります。このクラスタリングには、階層的クラスタリングと非階層的クラスタリングがあります。この記事では、k-meansクラスタリングとデンドログラムについて紹介してい…

主成分分析(PCA)による機械学習の例

機械学習には、教師あり学習と教師なし学習があります。このうち教師なし学習に分類されるのが主成分分析です。この記事では、主成分分析について紹介しています。 主成分分析とは titanicのデータセットを使用する 欠損値を平均値や最頻値で埋める 必要な学…

グリッドサーチ(GridSearchCV)を使用した機械学習の例

機械学習では、学習モデルを行うときにモデルの精度を上げるためにパラメーターチューニングを行います。この際に、テストデータを使ってパラーメーターチューニグを行うことはできないので、グリッドサーチを用いてパラメーターチューニングを行います。こ…

機械学習におけるモデル評価の例(交差検証、混同行列、適合率・再現率・F1値、MSE・RMSE・決定係数)

機械学習で学習モデルを生成する場合に、生成したモデルが他のモデルよりも良いのかどうかということをどのように評価したら良いのかという問題が起きます。この記事では、機械学習におけるモデル評価の例を紹介しています。 交差検証とは make_moonsのデー…

勾配ブースティング(xgboost)を使用した機械学習の例

機械学習の教師あり学習のアンサンブル学習には、前回の記事で行ったような複数の学習器からより良い結果を出そうとするランダムフォレストの他に、逐次的に学習する勾配ブースティングという手法があります。この記事では、勾配ブースティングに関して紹介…

ランダムフォレスト(RandomForestClassifier)を使用した機械学習の例その2

前回の記事では、簡単なデータセットを使った学習モデルの生成を紹介しましたが、ここではkaggleのtitanicのデータセットを使ってより実際的な学習モデルの生成の例を紹介しています。 ランダムフォレストとは titanicのデータセットを使用する 欠損値を平均…

ランダムフォレスト(RandomForestClassifier)を使用した機械学習の例

機械学習の教師あり学習には、複数の学習器を組み合わせてより良い結果を出そうとするアンサブル学習というものがあります。ランダムフォレストもこのアンサンブル学習の一つです。この記事では、ランダムフォレストについて紹介しています。 ランダムフォレ…

決定木(DecisionTreeClassifierとDecisionTreeRegressor)を使用した機械学習の例

機械学習の教師あり学習の中で、分析結果がわかりやすいアルゴリズムとして決定木があります。この記事では、決定木の分類木と回帰木の2つについて紹介しています。 決定木とは make_moonsのデータセットを使用する DecisionTreeClassifierで学習モデルを生…

サポートベクトルマシン(LinearSVCとSVC)を使用した機械学習の例

サポートベクトルマシンは、機械学習の教師あり学習の中でも、認識性能が優れているモデルの一つです。また、カーネル法を使用することで、非線形データも分類することができるようになります。この記事では、主に非線形データのサポートベクトルマシンの学…

サポートベクトルマシン(LinearSVC)を使用した機械学習の例

機械学習の教師あり学習モデルの中でも認識性能が優れているモデルの一つにサポートベクトルマシンがあります。この記事では、サポートベクトルマシンについて紹介しています。 サポートベクトルマシンとは load_irisのデータセットを使用する petal length…

多項ロジスティック回帰(LogisticRegression)を使用した機械学習の例

前回の記事では、YES or NOのようないわゆる2値分類に関するロジスティック回帰の例を紹介しました。一方で、3つ以上のクラスに分類する場合は、多項ロジスティック回帰と言います。この記事では、この多項ロジスティクについて紹介しています。 多項ロジ…

ロジスティック回帰(LogisticRegression)を使用した機械学習の例

機械学習の教師あり学習の一つにロジスティック回帰があります。ロジスティック回帰は、幾つかの特徴量から確率を計算して、主に分類に使用されるアルゴリズムとして知られています。この記事では、ロジスティック回帰に関して紹介しています。 ロジスティッ…

線形回帰(linear_modelのRidgeとLasso)を使用した機械学習の例

線形回帰には、前回の記事で行ったように、特徴量が増えると過学習が起きてしまうことがあります。この問題を解決するためには正則化というテクニックを使用しますが、この正則化には、Ridge回帰やLasso回帰といった方法があります。この記事では、これらのR…

線形回帰(LinearRegressionの重回帰分析)を使用した機械学習の例

線形回帰には、前回紹介したような1つのデータである値を予測しようとする単回帰分析と2つ以上のデータからある値を予測する重回帰分析があります。この記事では、LinearRegressionを使って重回帰分析の一種である多項式回帰の例を紹介します。 重回帰分析…

線形回帰(LinearRegressionとSGDRegressor)を使用した機械学習の例

scikit-learnで使用出来る線形回帰には、正規方程式という解析的な解法によるLinearRegressionと、勾配降下法という数値的な解法によるSGDRegressorがあります。この記事では、このLinearRegressionとSGDRegressorについて紹介しています。 線形回帰とは ran…

k最近傍法(KNeighborsRegressor)を使用した機械学習の例

k最近傍方は、教師ありの中でも最も単純なアルゴリズムとして知られています。このk最近傍法には分類と回帰があります。この記事では、k最近傍方の回帰について紹介しています。 k最近傍法における回帰とは k最近傍法には、分類と回帰があります。このうち分…

k最近傍法(KNeighborsClassifier)を使用した機械学習の例

いわゆる機械学習というのは教師あり学習と教師なし学習に分けられます。このうち、教師あり学習の中でも最も単純なアルゴリズムとして知られているのが、k最近傍法です。この記事では、k最近傍法を使用した分類について紹介しています。 k最近傍法とは make…