アクセスカウンター

pv数

現在の記事

総閲覧数

4,920

166,573

よく読まれている記事

【筋トレ】増量期・減量期のPFCバランスと食事メニュー〜その①〜 - 60,797 ビュー
【筋トレ】PFCバランスと食事メニュー〜その②〜 - 39,973 ビュー
PMP無事合格！（その２） - 35,961 ビュー
１ヶ月でG検定無事合格したので勉強法まとめました - 32,378 ビュー
PMP無事合格！（その３〜勉強方法〜） - 27,717 ビュー

学びのアウトプット機械学習プログラミング

【機械学習】【R】Rでのデータ分析（１）　ー銀行の顧客ターゲティング【SIGNATE】ー

2020-04-16 2024-01-21

昨年、データサイエンティスト協会主催のデータサイエンティスト養成講座を受講し、その中でRを使ったデータ分析手法を学んだのでその復習兼ねてまとめておきます。

（参考：データサイエンティスト養成講座）
https://www.datascientist.or.jp/news/ds-training-program201909/

１．概要

データ分析コンテストで有名なKaggleの日本版とも呼ばれるSIGNATEのデータ分析問題を扱います。

銀行の定期預金申込キャンペーンについてキャンペーンデータから結果（定期預金のために口座開設したか）を予測する。

<背景と目的>

銀行の定期預金申込キャンペーンについて、その効果を測定したい。

具体的には、どのような顧客にどのようなアプローチでキャンペーンを打つとより効果的に定期預金申込に繋がるのかを分析したい。

そのためにキャンペーンデータから実際に定期預金申込に至るかどうかを予測するモデルを構築する。

２．データセット

使用するデータは、27,128名の顧客データとキャンペーンの結果（定期預金申込の有無）データ。

最終的にコンペで予測するのは、18,083名のキャンペーンに対する反応（結果）。

カラム	型	説明
id	int	id
age	varchar	年齢
job	varchar	職種
martial	varchar	未婚/既婚(divorced / married / single)
education	varchar	教育水準(primary / secondary / tertiary)
default	varchar	債務不履行の有無(yes / no)
balance	int	保有資産
housing	varchar	住宅ローン(yes / no)
loan	varchar	個人ローン(yes / no)
contact	varchar	連絡方法(cellular / telephone)
day	int	最終接触日
month	char	最終接触月
duration	int	最終接触時間（秒）
campaign	int	現在のキャンペーン中の接触回数
pdays	int	前回のキャンペーン接触日からの経過日数
previous	int	前回のキャンペーンまでの接触実績
poutcome	varchar	前回のキャンペーンの実績(success / failure / other)
y	boolean	定期預金の申込結果(１：成約、０：非成約)

使ったコマンド

nrow
使用目的：行数カウント
使用方法：nrow(dataframe)

nrow(train_data))

[1] 27128

３．データ分析

まず、学習データ全体での成約率（陽性率）を確認する。

train_data &lt;- dplyr::group_by(train_data,y)
dplyr::summarise(train_data,n=n())
dplyr::ungroup(train_data)

27128件中、成約に至った（y：１）のは3174件で、全体の１１.７％

次に説明変数の確認のため、離散変数についてその値ごとに成約率（陽性率）を確認する。

・job( 職種)ごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,job)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉成約率(mean)が高いのは、student（学生）、retired（退職者）、management（経営者）、admin（管理職）で、学生、高齢者、失業者、富裕者となった。
👉成約率が低いのは、blue-color（肉体労働者）、services（サービス業）、entrepreneur（企業家）、housemaid（家政婦）で低所得層となった。

並び替えると以下の通り。

使ったコマンド

group_by
使用目的：データフレームを指定した変数でグループ化する
使用方法：dplyr::group_by(dataframe,column)

summarise
使用目的：表の集計
使用方法：dplyr::summarise(dataframe,任意の集計処理)

同様にして、

・matiral(未婚/既婚)ごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,marital)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉大きな差は見られないが、single（独身）がやや高めの傾向。

・education(教育水準)ごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,education)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉primary（初等教育）ほど成約率は低く、secondary（中等教育）、teritary（三次教育、高等教育）と高度になるほど成約率が高くなる傾向。
👉unknownは欠損値のため削除するか補充するか処理が必要となる。

・defaulごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,default)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉no（債務不履行なし）の方が、yes（債務不履行あり）よりも成約率は高い

・housing（住宅ローン）ごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,housing)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉no（住宅ローンなし）の方が、yes（住宅ローンあり）よりも成約率が高い傾向

・loanごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,loan)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉no（個人ローンなし）の方が、yes（個人ローンあり）よりも成約率が高い傾向

・contactごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,contact)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉cellular（携帯）の方が絶対数が多いが、成約率とはあまり相関はなさそう

・poutcome（前回実績）ごとの成約率

train_g1 &lt;- train_data
train_g1 &lt;- dplyr::group_by(train_g1,poutcome)
dplyr::summarise(train_g1,n=n(),mean=mean(y))

👉圧倒的にsuccess（前回実績も成功）の場合に成約率が高いが、unknownのデータが多いのでそのままでは利用し難い

さらに、変数間の相関を確認する。

cor(train_data)

使ったコマンド

cor
使用目的：相関係数の確認
使用方法：cor(dataframe) ※表全体、cor（x,y,z）※変数指定

👉ただし、今のままだと文字型の変数が含まれているためエラーになるのでいったん数値型変数に絞って実施してみる

👉まず数値型の変数のみ抽出した別のデータフレームを作成してから相関行列を作成する

str(train_data)
list &lt;- c("age","balance","day","duration","campaign","pdays","previous","y")
train_1 &lt;- train_data[,list]
train_1
cor1 &lt;- cor(train_1)
cor1

👉balance（資産）とage、campaign（接触回数）とday（最終接触日）、previous（接触実績）とpdays（接触日からの経過日数）、y（成約に至ったか）とduration（接触時間）には正の相関が見られる

👉pdays（接触日からの経過日数）とday（最終接触日）には弱い負の相関が見られる

この後、前処理（変数加工）してアルゴリズム構築して実際の分析と評価になりますが、少し長くなったので別記事で。

以上

続きは以下

【機械学習】【R】Rでのデータ分析（２）　ー銀行の顧客ターゲティング【SIGNATE】ー

solobochi

国内大手IT企業中堅社員。
プログラミングやセミナーのアウトプットがしたいと思い2018年にブログを開設。

プロジェクトマネジメント関連の資格やAWS、ディープラーニング、機械学習系の資格取得ノウハウについても発信。

激務により体調を崩して３年間の休職を経験。闘病を経て復職。

（Like）
・最適化することが好き
・PDCAを回すのが好き

（当サイト）
日々思うことを徒然と発信
└（例）
・学びのアウトプット
・投資・資産運用
・プログラミング
・資格試験の対策
・セミナーのレビュー
・書評
etc...

詳しくは自己紹介記事にて。
自己紹介①
自己紹介②
自己紹介③
自己紹介④

2024/03/01

【資産運用】2020年〜2023年の投資成績を総まとめ

2024/02/27

盲腸（虫垂炎）の手術で入院した話

2024/02/04

４年間の休職を振り返る（４）〜休養後期・調整期〜

solobochiの記事をもっと見る

-学びのアウトプット, 機械学習, プログラミング
-機械学習, R, データ分析

コメントを残すコメントをキャンセル

オススメの関連記事

python 機械学習プログラミング

2019/3/24

[機械学習](python)アヤメの分類(TensorFlow)

だいぶ前にお試し的にやってみたTensorFlowアヤメの学習について、（主に自分の覚え書きのために）まとめます。目次方針手順１　ライブラリ＆データセットのインポート手順２　モデルの作成手順３　学習の実行手順４　予測＆評価実行結果ソース【概要】アヤメの種類を機械学習によって分類する。・アヤメの種類とは？ →1．Setosa（檜扇菖蒲）２．Versicolour（ブルーフラッグ）３．Verginica（バージニカ）の３種類。違いは、、よく分からない。 ...

python 機械学習プログラミング

2019/3/28

[機械学習][python]アヤメの分類(TensorFlow)Part②-(RandomForest)

TensorFlowアヤメの学習について、前回はsequentialモデルで分析をしましたが、今回は学習モデルをRandom Forestに変更して分析をしてみました。目次手順１ライブラリ＆データセットのインポート＆データ確認手順２モデルの作成手順３学習の実行手順４予測＆評価実行結果ソース【概要】アヤメの種類を機械学習（Random Forest）によって分類する。 ⚠️Random Forestとは？ 👉機械学習アルゴリズムの１つ。決定木をいくつ ...

機械学習プログラミング

2020/5/3

【機械学習】【R】Rでのデータ分析（４）Randomforest,XGboost、アンサンブル学習　ー銀行の顧客ターゲティング【SIGNATE】ー

昨年、データサイエンティスト協会主催のデータサイエンティスト養成講座を受講し、その中でRを使ったデータ分析手法を学んだのでその復習兼ねてまとめておきます。（参考：データサイエンティスト養成講座） https://www.datascientist.or.jp/news/ds-training-program201909/ 目次概要（※前回記事参照）データセット（※前回記事参照）データ分析（※前回記事参照）前処理（※前回記事参照）モデル構築予測評価５．モデル構築前回記事 ...

python 機械学習プログラミング

2020/5/8

【機械学習】【python】pythonでのデータ分析(LightGBM)　ー銀行の顧客ターゲティング（１）【SIGNATE】ー

SIGNATEの銀行顧客マーケティングデータ分析について、前回Rでの分析についてまとめたので、同様にpythonでのデータ分析（今回はLightGBM）についてまとめておきます。【機械学習】【R】Rでのデータ分析（１）　ー銀行の顧客ターゲティング【SIGNATE】ー目次概要データセット前処理モデル構築予測評価１．概要データ分析コンテストで有名なKaggleの日本版とも呼ばれるSIGNATEのデータ分析問題を扱います。銀行の定期預金申込キャンペ ...

ツールプログラミング

2019/4/15

【GitHub】5分でわかるGitHubの使い方（SSH設定、レポジトリ作成、コミット）

前回の記事では、Gitの使い方についてまとめました。【Git】5分でわかるGit入門〜初期設定、環境設定、コミット〜長くなってしまったので、GitHubの使い方に関しての記事を別記事にしましたので本記事にてまとめていきます。目次 GitHubとは？ GitHubののSSH設定 GitHubの環境 GitHubでよく使う重要コマンド GitHubとは？私GitとGitHubって違うの？ 👉Gitは、ローカル環境（ex.自分のPC環 ...

PREV: 【思うこと】好きな人と好きな事して生きていきたいということ〜その③〜
NEXT: 【機械学習】【R】Rでのデータ分析（２）　ー銀行の顧客ターゲティング【SIGNATE】ー

【機械学習】【R】Rでのデータ分析（１） ー銀行の顧客ターゲティング【SIGNATE】ー

目次

１．概要

２．データセット

３．データ分析

【機械学習】【R】Rでのデータ分析（１）　ー銀行の顧客ターゲティング【SIGNATE】ー