アクセスカウンター

  • 18本記事閲覧者数   👀💡:
  • 59今日の足あと    🦶💮:
  • 37515サイト訪問者数(累計)🦶💡:

機械学習 プログラミング

【機械学習】【R】Rでのデータ分析(3)決定木 ー銀行の顧客ターゲティング【SIGNATE】ー

2020-04-29

 

どうも、solobochiのbochiです。

 

昨年、データサイエンティスト協会主催のデータサイエンティスト養成講座を受講し、その中でRを使ったデータ分析手法を学んだのでその復習兼ねてまとめておきます。

 

データサイエンティスト養成講座 2019年9月開講決定

 



 

 

 

目次

    1. 概要(※前回記事参照)
    2. データセット(※前回記事参照)
    3. データ分析(※前回記事参照)
    4. 前処理(※前回記事参照)
    5. モデル構築
    6. 改善
    7. 評価



5.モデル構築

前回記事↓まででデータ分析で最も手間のかかる前処理工程は終わったので、サクッと機械学習アルゴリズムを用いてのモデル構築を行う。

 

【機械学習】【R】Rでのデータ分析(2) ー銀行の顧客ターゲティング【SIGNATE】ー

 

アルゴリズムはいくつかありますが、ここでは、決定木、ランダムフォレスト、XGBoostについて実装していきます。

 

決定木

👉決定木では、情報利得(親ノードと子ノードの不純度の差)を最大にしたい
👉不純度:異なるデータの含まれる割合
👉情報利得:不純度をより減らせると大きな利得が得られる

 

使ったコマンド

rpart
使用目的:決定木モデル構築
使用方法:rpart(目的変数 ~説明変数(.は目的変数以外のすべての変数) , data=dataframe , maxdepth=n , method="class"/"anova")
maxdepth:木の深さ

summary
使用目的:決定木モデルでの分析結果を確認
使用方法:summary(tree)

rpart.plot
使用目的:決定木モデルの可視化
使用方法:rpart.plot(tree)

 

👉duration(接触時間)、poutcome(前回実績)が効いている模様
👉cp:complexity parameter(複雑性パラメータ)が小さいほど木が深くなる。枝刈り、木の剪定。

 

 

 

 

👉rpart.plotによる可視化

 

👉partykitライブラリパッケージのplot(as.party)による可視化

 



 

 

続けてホールドアウト法で訓練データとテストデータを分割してモデルの評価を実施する。

まずは訓練データとテストデータの作成。

 

続いて訓練データでのモデル構築(学習)。

👉Variable Importance(変数重要度)は、duration > poutcome2 となった。

 

 

 

モデルは構築できたので、これを先ほど作成したテストデータにて検証する。

 

使ったコマンド

as.factor
使用目的:因子型変数に変換
使用方法:as.factor(xxx)

predict
使用目的:モデルにより予測
使用方法:predict(model, dataframe)

roc
使用目的:ROC曲線の取得、AUCの算出
使用方法:roc(正解ラベル、予測値)

 

👉決定木だと約74.4%の精度

👉ROC曲線

 

 

キリがいいので一旦ここまで。

ランダムフォレストとXGBoostは別記事で。

 

 

 

以上

続く

 

 

 

 

⬇️他にもよく見られている記事⬇️

最も訪問者が多かった記事 10 件 (過去 7 日間)
  • この記事を書いた人
  • 最新記事
solobochi

solobochi

(名前):solobochi

(説明)
都内在住の独身アラサー男子
新卒で大手IT企業へ就職して気付けば10年。
このままではマズいという強烈な危機感から会社を休職。


🔸使命に生きたい
🔸好きなひとと好きなことで生きていきたい
これを人生懸けて実現すべく、人生模索中の日々


(Like)
🔹最適化することが好き
🔹PDCAを回すのが好き


(当サイト)
日々思うことを徒然と発信
└(例)
・学びのアウトプット
・投資・資産運用
・プログラミング
・資格試験の対策
・セミナーのレビュー
・書評
etc...

詳しくは自己紹介記事にて。
自己紹介①
自己紹介②
自己紹介③
自己紹介④

おすすめ記事

1

  どうも、solobochiです。     先日、PMP試験に無事合格しました。 振り返り記事のPart2です。     目次 前日・当日の流れ 勉 ...

2

  どうも、solobochiです。   2014年からなのでもうかれこれ6年弱、株や投資信託への投資をしています。 株を始めた頃は社会人5年目、ようやく仕事にも余裕が出てきた頃。 ...

3

  どうも、solobochiです。     昔から読書は好きで、ルーツを辿ると小学生の頃電車通学で、地下鉄丸ノ内線の終点からほぼ終点まで通っていたためその時間にいつも本 ...

4

    どうも、solobochiです。   2019年に入ってからというもの、休日は割とpython触ってます。といってもまだ簡単なサンプルコードをなぞるだけですが。 ...

-機械学習, プログラミング
-, , , ,

Copyright© そろボチ , 2020 All Rights Reserved Powered by AFFINGER5.