python

Word Rotator’s Distance

Word Rotator’s Distance とは 2つの自然言語文あるいは文書が与えられたとき,それらの(非)類似度を測る尺度として Word Mover’s Distance (WMD)*1と呼ばれる手法が提案されている。 これは文を構成する単語ベクトルのアラインメントを最適輸送コストに基…

All-but-the-top: 単語分散表現の上位主成分がノイズな件

Skip-gramやGloVeで学習した単語分散表現に簡単な後処理を施すことで後段タスクの性能を向上させる手法が提案されている。 この論文。論文タイトルが提案手法を一言で表現していて洒落ている。 All-but-the-Top: Simple and Effective Postprocessing for Wo…

ポアソン混合モデルのギブスサンプリング

以下の本の4章を実装していく。 機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る ま…

非負値行列分解で画像圧縮

非負値行列因子分解というものがある。 Non-negative matrix factorization、NMFとよばれる。 Lee and Seung, nature 1999 http://www.columbia.edu/~jwp2128/Teaching/E4903/papers/nmf_nature.pdf そもそも行列分解というのは、任意の行列に対して しばし…

gibo で .gitignore を生成

しらなかった。 GitHub - simonwhitaker/gibo: Easy access to gitignore boilerplates インストール方法 $ brew install gibo 使い方 例えば、Python と Mac だと $ gibo dump python macOS >>.gitignore みたいなかんじ。 ほとんど関係ないものなので、不…

numpy ndarray の行方向正規化

行列の行(列)方向の正規化は機械学習のアルゴリズムでよく使う操作である。 実装方法はいろいろあると思うが、私が良く使うやり方は以下。以下は行方向について。 numpy だけでやる方法 import numpy as np A = np.random.rand(N, N).astype('float64') # …

Pytorch の Dataloader でもともとの Dataset の index を取得したい

Dataset クラスを継承し__getitem__()メソッドを index を returnするようにオーバーライドする。 class SubClass(Dataset): 略 def __getitem__(self, idx): data, target = seld.data[idx] return data, target, idx みたいにして、 dataset = SubClass(..…

Python の仮想環境メモ

pyenvでPythonのバージョンを管理して、それより上位はpyenv-virtualenvでわける。 Python のインストール $ pyenv install --list $ pyenv install バージョン 仮想環境作成 $ pyenv virtualenv バージョン 仮想環境名 $ pyenv shell|local 仮想環境名 仮想…