学習する天然ニューラルネット

主に機械学習に関する覚書や情報の整理。競プロ水色→Kaggle Master→?

imbalanced-learnの機能の紹介

  • はじめに
    • imbalanced-learnとは
    • 動機
    • やること
    • 参考
  • 機能の紹介
    • インストール
    • 2.2.1 サンプルのでっち上げ(オーバーサンプリング)
      • 普通のSMOTE
      • ボーダーラインSMOTE
      • SVM SMOTE
      • ADASYN
    • 3.2.2 クリーニングアンダーサンプリングテクニック(データの削除)
      • 3.2.2.1 Tomek's link
      • 3.2.2.2. 近傍を用いたデータの編集
    • 4. オーバーサンプリングとアンダーサンプリングの組み合わせ
    • 5.2. サンプラーと推定器のアンサンブル
  • さいごに

はじめに

imbalanced-learnとは

scikit-learnと共同で利用できるPythonモジュールの一つである。不均衡データに対処する様々なテクニックが実装されている。不均衡データについてはこの記事にたどり着いた方に説明するまでもないでしょう。

続きを読む

変数選択(Feature Selection)の実装と改善の確認

  • はじめに
    • 実験設定
      • 目的
      • 用いるデータ
      • 用いる変数選択手法
      • 用いる判別器
      • 評価指標
      • 行わないこと
  • データを少し見てみる
  • すべての特徴を用いた場合
  • Filter Method
    • 目視により選択
    • sklearn.feature_selection.SelectKBestによる選択
  • Wrapper Method
    • sklearn.feature_selection.RFECVによる選択
    • Borutaによる変数選択
  • 実験結果
  • まとめ
続きを読む

目的地に案内してくれる魔法の帽子 Gogoal cap

  • 要約
  • はじめに
  • 問題意識
  • 完成品
  • システムの概要
    • 入力&音声認識
    • 目的地検索&センサーデータ取得
    • 出力
  • 実際につかってみる

要約

  • 振動で目的地の方向を教えてくれる帽子を作ったよ
  • 音声認識で場所を検索するよ
  • GPS地磁気センサーで場所と向いている方向を取得したよ
  • 実際に使ったよ
  • 機械学習は全く関係ないよ
続きを読む

変数選択(Feature Selection)手法のまとめ

説明変数がめちゃくちゃ多いデータを扱うことになったので変数選択が重要なんじゃないかと思って調べたところまとまっている記事を見つけました。要約して翻訳してここに置いておきます。

追記:更に踏み込んだ話を記事にしました。

aotamasaki.hatenablog.com

こちらの記事の翻訳です: www.analyticsvidhya.com

  • はじめに
  • 変数選択(Feature Selection)の重要性
  • Filter Method
    • Pearson's Correlation
    • LDA
    • ANOVA
    • カイ二乗(Chi-Square)
  • Wrapper Method
    • Forward Selection
    • Backward Elimination
    • Recursive Feature Elimination
  • Embedded Method
  • Filter MethodとWrapper Methodの違い
  • 最後に

はじめに

高価な優れた計算機など用いずにMacBookAirで、機械学習コンペに優勝した人もいる。優勝者に共通する特徴として、特徴製作(Feature Creation)と、変数選択(Feature Selection)をしっかりと行っていることに気づいた。

有用な特徴製作をするには膨大な経験を積む必要があり、センスも問われるので難しい。

なので変数選択に焦点を当てて、手法を紹介する。

続きを読む

画像(スクショ)からTexの数式を出力する便利ソフト Mathpix snipping tool

はじめに

こんにちは、皆さんTex使ってますか?私は使うたびに打ちたい数式が打てなくて不便してます。数式に関してはWordの方がもはや製作しやくなりました。ただ、式番号が振れない致命点がありますが。

もっと楽に数式が打ちたい!!!!

世の中にはマウスで書いた数式をTexに変換してくれるツールも存在するらしいですが、それすらめんどくさい

そんなズボラなあなたと私に

Mathpix snipping tool

なんと無料です。

Mathpix Snipping Tool

Mathpix Snipping Tool

  • Mathpix
  • 仕事効率化
  • 無料

続きを読む

論文読み Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

読んだので自分の整理のためにまとめます。

[1703.05921] Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

  • 導入
    • 扱う問題
    • 問題意識
    • メインアイデア
  • 理論
  • 実験
  • 結論
続きを読む

インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い

  • 注意
  • PR曲線について
    • PR曲線とは
    • どんなときにPR曲線を使うのか
  • 前提知識
    • ROC曲線
    • Confusion Matrix
    • PrecisionとRecall
  • PR曲線の書き方
  • インバランスデータにおけるPR曲線とROC曲線の違い
    • 面積の比較
      • ちょっと悪い場合
      • もっと悪い場合
    • 軌跡の比較(アニメーション)
  • まとめ
  • 参考

注意

本記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 本記事を読むにあたっては、以下のことに注目して読んでいただきたい。

  • ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。
  • PR曲線との振る舞いの違いを確かめた記事として読んでほしい。
  • 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と本文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価なはず)である。
続きを読む