変数選択(Feature Selection)手法のまとめ
説明変数がめちゃくちゃ多いデータを扱うことになったので変数選択が重要なんじゃないかと思って調べたところまとまっている記事を見つけました。要約して翻訳してここに置いておきます。
追記:更に踏み込んだ話を記事にしました。
こちらの記事の翻訳です: www.analyticsvidhya.com
- はじめに
- 変数選択(Feature Selection)の重要性
- Filter Method
- Pearson's Correlation
- LDA
- ANOVA
- カイ二乗(Chi-Square)
- Wrapper Method
- Forward Selection
- Backward Elimination
- Recursive Feature Elimination
- Embedded Method
- Filter MethodとWrapper Methodの違い
- 最後に
はじめに
高価な優れた計算機など用いずにMacBookAirで、機械学習コンペに優勝した人もいる。優勝者に共通する特徴として、特徴製作(Feature Creation)と、変数選択(Feature Selection)をしっかりと行っていることに気づいた。
有用な特徴製作をするには膨大な経験を積む必要があり、センスも問われるので難しい。
なので変数選択に焦点を当てて、手法を紹介する。
続きを読む画像(スクショ)からTexの数式を出力する便利ソフト Mathpix snipping tool
はじめに
こんにちは、皆さんTex使ってますか?私は使うたびに打ちたい数式が打てなくて不便してます。数式に関してはWordの方がもはや製作しやくなりました。ただ、式番号が振れない致命点がありますが。
もっと楽に数式が打ちたい!!!!
世の中にはマウスで書いた数式をTexに変換してくれるツールも存在するらしいですが、それすらめんどくさい
そんなズボラなあなたと私に
Mathpix snipping tool
なんと無料です。
続きを読むインバランスデータにおけるPR曲線とROC曲線の振る舞いの違い
- 注意
- PR曲線について
- PR曲線とは
- どんなときにPR曲線を使うのか
- 前提知識
- ROC曲線
- Confusion Matrix
- PrecisionとRecall
- PR曲線の書き方
- インバランスデータにおけるPR曲線とROC曲線の違い
- 面積の比較
- ちょっと悪い場合
- もっと悪い場合
- 軌跡の比較(アニメーション)
- 面積の比較
- まとめ
- 参考
注意
本記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 本記事を読むにあたっては、以下のことに注目して読んでいただきたい。
- ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。
- PR曲線との振る舞いの違いを確かめた記事として読んでほしい。
- 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と本文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価なはず)である。
Jupyter notebookでPlotlyを使うときに一設定必要だった話
- はじめに
- エラーを解決する
- どんなエラー表示が出たか
- どうしたら良いか
- Plotlyをオフラインで使う
- さいごに注意
はじめに
可視化が大事なのは言わずもがな。調べていた所Plotlyというものに出会いました。ただ、早速使おうとしたらJupyter notebookにグラフが表示されなかったりエラーがでたりしました。エラーで検索したところ、日本語の記事がヒットしなかったので、ここに記録を残しておきます。
エラーを解決する
どんなエラー表示が出たか
IOPub data rate exceeded.
The notebook server will temporarily stop sending output
実行しようとすると、上述の文からはじまるエラーが表示されていつまで経っても図が表示されませんでした。(データ点の個数にもよるのかな?検証してません)
続きを読む