one-hot vectorial representations
独热编码,即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
例如对六个状态进行编码:
自然顺序码为 000,001,010,011,100,101
独热编码则是 000001,000010,000100,001000,010000,100000
Sparse Vector versus Dense Vector
Vector(1.0,0.0,1.0,3.0)
Dense Vector[1.0,0.0,1.0,3.0]
Sparse Vector(4,[0,2,3],[1.0,1.0,3.0])
第一个4表示向量的长度(元素个数),[0,2,3]就是indices数组;[1.0,1.0,3.0]是values数组,表示向量0的位置的值是1.0,2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0。
稀疏向量在面对很多数据是零的情况下能节省很多的存储空间