続・高次元空間に出現するハブという現象がおもしろい
前提
先日のこちらの記事のハブの件であるが、実は簡単な前処理でキャンセルすることができるということが知られている。
センタリング
こちらの論文で提案されている。理論解析もある。簡単明快な手法で美しい。
Ikumi Suzuki, et al., ACL2013
http://www.aclweb.org/anthology/D13-1058
やっていることはすごく単純で、全データの重心を原点に平行移動するとハブをキャンセルできるというもの。
データの座標重心近傍にハブがいるので、そいつとのコサイン距離をゼロにすればキャンセルできるというのが直感的な理解でいいのかな?
この前と同じデータに対してセンタリングの前処理を施したがコレ。
ハブが消えている。
私からは以上です。