One hot Encoding and Sparse Vector


one-hot vectorial representations

独热编码,即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

例如对六个状态进行编码:

自然顺序码为 000,001,010,011,100,101

独热编码则是 000001,000010,000100,001000,010000,100000

Sparse Vector versus Dense Vector

Vector(1.0,0.0,1.0,3.0)

Dense Vector[1.0,0.0,1.0,3.0]

Sparse Vector(4,[0,2,3],[1.0,1.0,3.0])

第一个4表示向量的长度(元素个数),[0,2,3]就是indices数组;[1.0,1.0,3.0]是values数组,表示向量0的位置的值是1.0,2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0。

稀疏向量在面对很多数据是零的情况下能节省很多的存储空间


Author: cipher
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source cipher !
  TOC