学習する天然ニューラルネット

主に機械学習に関する覚書や情報の整理。競プロ水色→Kaggle Master→?

変数選択(Feature Selection)手法のまとめ

説明変数がめちゃくちゃ多いデータを扱うことになったので変数選択が重要なんじゃないかと思って調べたところまとまっている記事を見つけました。要約して翻訳してここに置いておきます。

追記:更に踏み込んだ話を記事にしました。

aotamasaki.hatenablog.com

こちらの記事の翻訳です: www.analyticsvidhya.com

  • はじめに
  • 変数選択(Feature Selection)の重要性
  • Filter Method
    • Pearson's Correlation
    • LDA
    • ANOVA
    • カイ二乗(Chi-Square)
  • Wrapper Method
    • Forward Selection
    • Backward Elimination
    • Recursive Feature Elimination
  • Embedded Method
  • Filter MethodとWrapper Methodの違い
  • 最後に

はじめに

高価な優れた計算機など用いずにMacBookAirで、機械学習コンペに優勝した人もいる。優勝者に共通する特徴として、特徴製作(Feature Creation)と、変数選択(Feature Selection)をしっかりと行っていることに気づいた。

有用な特徴製作をするには膨大な経験を積む必要があり、センスも問われるので難しい。

なので変数選択に焦点を当てて、手法を紹介する。

続きを読む

画像(スクショ)からTexの数式を出力する便利ソフト Mathpix snipping tool

はじめに

こんにちは、皆さんTex使ってますか?私は使うたびに打ちたい数式が打てなくて不便してます。数式に関してはWordの方がもはや製作しやくなりました。ただ、式番号が振れない致命点がありますが。

もっと楽に数式が打ちたい!!!!

世の中にはマウスで書いた数式をTexに変換してくれるツールも存在するらしいですが、それすらめんどくさい

そんなズボラなあなたと私に

Mathpix snipping tool

なんと無料です。

Mathpix Snipping Tool

Mathpix Snipping Tool

  • Mathpix
  • 仕事効率化
  • 無料

続きを読む

論文読み Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

読んだので自分の整理のためにまとめます。

[1703.05921] Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

  • 導入
    • 扱う問題
    • 問題意識
    • メインアイデア
  • 理論
  • 実験
  • 結論
続きを読む

インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い

  • 注意
  • PR曲線について
    • PR曲線とは
    • どんなときにPR曲線を使うのか
  • 前提知識
    • ROC曲線
    • Confusion Matrix
    • PrecisionとRecall
  • PR曲線の書き方
  • インバランスデータにおけるPR曲線とROC曲線の違い
    • 面積の比較
      • ちょっと悪い場合
      • もっと悪い場合
    • 軌跡の比較(アニメーション)
  • まとめ
  • 参考

注意

本記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 本記事を読むにあたっては、以下のことに注目して読んでいただきたい。

  • ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。
  • PR曲線との振る舞いの違いを確かめた記事として読んでほしい。
  • 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と本文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価なはず)である。
続きを読む

Jupyter notebookでPlotlyを使うときに一設定必要だった話

  • はじめに
  • エラーを解決する
    • どんなエラー表示が出たか
    • どうしたら良いか
  • Plotlyをオフラインで使う
  • さいごに注意

はじめに

可視化が大事なのは言わずもがな。調べていた所Plotlyというものに出会いました。ただ、早速使おうとしたらJupyter notebookにグラフが表示されなかったりエラーがでたりしました。エラーで検索したところ、日本語の記事がヒットしなかったので、ここに記録を残しておきます。

エラーを解決する

どんなエラー表示が出たか

IOPub data rate exceeded.
The notebook server will temporarily stop sending output

実行しようとすると、上述の文からはじまるエラーが表示されていつまで経っても図が表示されませんでした。(データ点の個数にもよるのかな?検証してません)

続きを読む

ROC曲線の書き方を整理する。

  • はじめに
  • 前提知識
  • 一瞬でわかりたい人向け
  • ROC曲線を手で書くには?
    • メインアイデア
    • 具体例
    • 別の具体例1
    • 別の具体例2
    • 注意すべき例
  • まとめ
    • 追記
続きを読む