码本奔溃
在向量量化(Vector Quantization)模型中, "码本崩溃"(codebook collapse)指的是在训练过程中, 可供选择的离散向量(也叫"码本向量"或"嵌入向量")大部分失去作用, 只有极少数几个向量不断被选中, 其余向量几乎不再被使用或更新, 从而导致码本的多样性和表达能力急剧下降. 具体表现包括:
-
码本利用率极低 在每次量化时, 模型只会选择与输入最接近的那一个或少数几个嵌入向量作为输出. 随着训练推进, 某些嵌入向量因为一开始被频繁选中而不断被强化, 而那些没有被选中的向量则永远得不到更新, 久而久之它们的值会"塌陷"到几乎相同甚至接近零的状态, 无法区分不同的输入.
-
信息表达受限 由于可用的嵌入向量变得稀少且相似, 模型在表示输入特征时失去了原本应有的离散化多样性. 这会导致重构质量下降, 生成模型样本单一, 对细节捕捉能力降低等问题.
-
训练不稳定与梯度问题 在确定性量化(如VQ-VAE中直接取最近嵌入)的设置下, 量化过程对梯度不可导, 需要借助"直通估计器"(straight-through estimator)等技巧来回传梯度. 这种近似方法在码本利用不均衡时更容易放大某些嵌入的梯度, 进一步加剧崩溃.