続・高次元空間に出現するハブという現象がおもしろい

前提

先日のこちらの記事のハブの件であるが、実は簡単な前処理でキャンセルすることができるということが知られている。

mytache.hatenablog.com

センタリング

こちらの論文で提案されている。理論解析もある。簡単明快な手法で美しい。

Ikumi Suzuki, et al., ACL2013

http://www.aclweb.org/anthology/D13-1058

やっていることはすごく単純で、全データの重心を原点に平行移動するとハブをキャンセルできるというもの。

データの座標重心近傍にハブがいるので、そいつとのコサイン距離をゼロにすればキャンセルできるというのが直感的な理解でいいのかな?

この前と同じデータに対してセンタリングの前処理を施したN_{10}がコレ。

ハブが消えている。

私からは以上です。