学習する天然ニューラルネット

主に機械学習に関する覚書や情報の整理。競プロ水色→Kaggle Master→?

人気記事

【それを言ってはいけない!を言う】「データ分析失敗事例集」 を読んで

はじめに 2023/08/03発売の「データ分析失敗事例集 ―失敗から学び、成功を手にする―」を知り合いのご厚意により頂いたので、読んでみたところ非常に面白かったので、感想をブログにまとめようと思います。 www.kyoritsu-pub.co.jp 全編通していい意味で社会…

【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説

機械学習系のデモアプリを作成することがしばしばありStreamlitを使用していたが、パラメーターなどをいじるたびに処理が最初から走るなどといった挙動に悩まされていた。 同僚がGradioというのを使っていたのでサーベイがてらメモしていたらブログが出来上…

Visual Studio Code 等のアプリで command + [ (open bracket) がmacOSに吸われるニッチなバグの解決

状況 直し方 先人たちの記録と解決しない事象 推測される原因 ついでに発見したバグ 状況 Macを初期化して再セットアップしたら、VSCodeで command + [ (open bracket, left bracketとも) が効かなくなった。 プログラミングしているときにこのショートカッ…

AtCoderでCythonの力を開放する魔術詠唱

概要 以下のformatをPythonで提出すればいい mycode = r''' # distutils: language=c++ # cython: language_level=3, boundscheck=False, wraparound=False, cdivision=True {ここにcythonのコードを書く} ''' import sys import os if sys.argv[-1] == 'ONL…

githubやnoteでもTeXの数式を書くぜ

この記事は何? 使い方 作成のモチベーション 関連するツール まとめ この記事は何? これを作った↓ https://tex-image-link-generator.herokuapp.com/ これを使えば、githubのreadmeやissuesに数式を埋め込むことができる。 例えばこんなふうに。 noteやhat…

Confident Learningは誤った教師から学習するか? ~ tf-idfのデータセットでノイズ生成から評価まで ~

概要 現実の判別問題において教師が完璧であることは珍しい。ラベリング作業において、知識不足や勘違いなどで引き起こされるヒューマンエラーはデータセットを汚染する。 このような間違った教師のことを、noisy label (corrupted label や polluted label…

特徴量重要度にバイアスが生じる状況ご存知ですか?

なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるな…

【具体例つき】scikit-learnを改変しよう ~改変版のinstall方法と改変に必要な知識のリンク集~

はじめに この記事を読むことで、scikit-learnの中身のコードに改変を加えることができるようになることを期待している。改変に必要な知識も学習できるようリンクを用意してある。そして改変を加えたコードをpipで管理する方法も示した。 最後には具体例とし…

特徴量選択の今とこれから

特徴量選択とは 特徴量選択の難しさ 特徴量選択の手法の大別 教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる 関係性を上げて冗長性を下げる 関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Eliminati…

ランダムフォレストと検定を用いた特徴量選択手法 Boruta

特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。 Kaggle等のコンペティションではひたすら判別の精度を重要視するが、実務上どうしてそのような判別をしたのかという理由のほうが大事である. このBorutaという手…

pickleより楽にpythonオブジェクトを保存する方法

この記事で言いたいこと import pickleしてwith openをいちいち書くのめんどくさくない?。pandas.to_pickleやpandas.read_pickleを使えば楽。DataFrame以外のものも保存できる。 この記事で言いたいこと はじめに データの用意 pickleをimportしてwith open…

Hyper+xonshで超モダンな環境づくり

はじめに ばんくしさんをフォローしたらすっかりxonshに洗脳された。 また、巷でうわさのHyperなるターミナルアプリを試してみたら使いやすかったので、組み合わせて使ったら最強では?と安直な発想で記事を書きはじめた。 適当に操作してみたのがこちら。 …

時系列データでVariational AutoEncoder keras

はじめに 前回の記事で時系列入力に対するオートエンコーダーを組んだ。 aotamasaki.hatenablog.com 今回は潜在変数を正規分布に押し込むというVariational AutoEncoderを組んでみた。CNNとVAEを組み合わせる記事は割と見つかるのに、RNNとなったとたん見つ…

Jupyter notebookでPlotlyを使うときに一設定必要だった話

はじめに エラーを解決する どんなエラー表示が出たか どうしたら良いか Plotlyをオフラインで使う さいごに注意 はじめに 可視化が大事なのは言わずもがな。調べていた所Plotlyというものに出会いました。ただ、早速使おうとしたらJupyter notebookにグラフ…