imbalanced-learnの機能の紹介
変数選択(Feature Selection)の実装と改善の確認
- はじめに
- 実験設定
- 目的
- 用いるデータ
- 用いる変数選択手法
- 用いる判別器
- 評価指標
- 行わないこと
- 実験設定
- データを少し見てみる
- すべての特徴を用いた場合
- Filter Method
- 目視により選択
- sklearn.feature_selection.SelectKBestによる選択
- Wrapper Method
- sklearn.feature_selection.RFECVによる選択
- Borutaによる変数選択
- 実験結果
- まとめ
変数選択(Feature Selection)手法のまとめ
説明変数がめちゃくちゃ多いデータを扱うことになったので変数選択が重要なんじゃないかと思って調べたところまとまっている記事を見つけました。要約して翻訳してここに置いておきます。
追記:更に踏み込んだ話を記事にしました。
こちらの記事の翻訳です: www.analyticsvidhya.com
- はじめに
- 変数選択(Feature Selection)の重要性
- Filter Method
- Pearson's Correlation
- LDA
- ANOVA
- カイ二乗(Chi-Square)
- Wrapper Method
- Forward Selection
- Backward Elimination
- Recursive Feature Elimination
- Embedded Method
- Filter MethodとWrapper Methodの違い
- 最後に
はじめに
高価な優れた計算機など用いずにMacBookAirで、機械学習コンペに優勝した人もいる。優勝者に共通する特徴として、特徴製作(Feature Creation)と、変数選択(Feature Selection)をしっかりと行っていることに気づいた。
有用な特徴製作をするには膨大な経験を積む必要があり、センスも問われるので難しい。
なので変数選択に焦点を当てて、手法を紹介する。
続きを読む画像(スクショ)からTexの数式を出力する便利ソフト Mathpix snipping tool
はじめに
こんにちは、皆さんTex使ってますか?私は使うたびに打ちたい数式が打てなくて不便してます。数式に関してはWordの方がもはや製作しやくなりました。ただ、式番号が振れない致命点がありますが。
もっと楽に数式が打ちたい!!!!
世の中にはマウスで書いた数式をTexに変換してくれるツールも存在するらしいですが、それすらめんどくさい
そんなズボラなあなたと私に
Mathpix snipping tool
なんと無料です。
続きを読むインバランスデータにおけるPR曲線とROC曲線の振る舞いの違い
- 注意
- PR曲線について
- PR曲線とは
- どんなときにPR曲線を使うのか
- 前提知識
- ROC曲線
- Confusion Matrix
- PrecisionとRecall
- PR曲線の書き方
- インバランスデータにおけるPR曲線とROC曲線の違い
- 面積の比較
- ちょっと悪い場合
- もっと悪い場合
- 軌跡の比較(アニメーション)
- 面積の比較
- まとめ
- 参考
注意
本記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 本記事を読むにあたっては、以下のことに注目して読んでいただきたい。
- ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。
- PR曲線との振る舞いの違いを確かめた記事として読んでほしい。
- 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と本文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価なはず)である。