機械学習

Word Rotator’s Distance

Word Rotator’s Distance とは 2つの自然言語文あるいは文書が与えられたとき,それらの(非)類似度を測る尺度として Word Mover’s Distance (WMD)*1と呼ばれる手法が提案されている。 これは文を構成する単語ベクトルのアラインメントを最適輸送コストに基…

All-but-the-top: 単語分散表現の上位主成分がノイズな件

Skip-gramやGloVeで学習した単語分散表現に簡単な後処理を施すことで後段タスクの性能を向上させる手法が提案されている。 この論文。論文タイトルが提案手法を一言で表現していて洒落ている。 All-but-the-Top: Simple and Effective Postprocessing for Wo…

ポアソン混合モデルのギブスサンプリング

以下の本の4章を実装していく。 機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を見る ま…

非負値行列分解で画像圧縮

非負値行列因子分解というものがある。 Non-negative matrix factorization、NMFとよばれる。 Lee and Seung, nature 1999 http://www.columbia.edu/~jwp2128/Teaching/E4903/papers/nmf_nature.pdf そもそも行列分解というのは、任意の行列に対して しばし…

ガウス過程と機械学習を読む1

講談社の機械学習プロフェッショナルシリーズにガウス過程と機械学習が追加される。 ガウス過程の専門家によるガウス過程に特化した日本語書籍ってこれが初なんじゃないだろうか。 現在(2018/12/02)、著者の一人である統数研の持橋さんによるサポートサイ…

numpy ndarray の行方向正規化

行列の行(列)方向の正規化は機械学習のアルゴリズムでよく使う操作である。 実装方法はいろいろあると思うが、私が良く使うやり方は以下。以下は行方向について。 numpy だけでやる方法 import numpy as np A = np.random.rand(N, N).astype('float64') # …

ベイズ推論による機械学習入門の式(5.139)までのメモ

引き続き、須山さんのベイズ本を読む。 機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) を…

ベイズ推論による機械学習入門の式(4.25)の導出

須山さんのベイズ推論の本を読んでいる。 機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)作者: 須山敦志,杉山将出版社/メーカー: 講談社発売日: 2017/10/21メディア: 単行本(ソフトカバー)この商品を含むブログ (1件) …

続・高次元空間に出現するハブという現象がおもしろい

前提 先日のこちらの記事のハブの件であるが、実は簡単な前処理でキャンセルすることができるということが知られている。 mytache.hatenablog.com センタリング こちらの論文で提案されている。理論解析もある。簡単明快な手法で美しい。 Ikumi Suzuki, et a…

高次元空間に出現するハブという現象がおもしろい

高次元では球面集中現象などと呼ばれる面白い現象が知られている。 この帰結のひとつとして、高次元空間においてデータ間の距離分布の分散が小さくなるという現象が次元の呪いとして知られている。 で、比較的最近、次元の呪いの一種として新しい現象が示さ…