KL散度
KL散度又称为相对熵,信息散度,信息增益。KL散度是俩个概率分布P和Q之间差别的非对称性之间的度量,KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的为的位元数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
定义如下:
KL散度主要的俩个性质:
(1)不对称性:
尽管KL散度从直观上是个度量或距离函数,但他并不是一个真正的度量或者距离,因为他不具有对称性,即D(PllQ)!=D(QllP)。
(2)非负性:
相对熵的值是非负的,因为对数函数是凸函数,所以非负即D(PllQ)>0。
JS散度
JS散度度量俩个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题,一般地,JS散度是对称的,其取值是0到1之间。
KL散度和JS散度度量时候的一个问题:
如果俩个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有任何意义的,而JS散度值是一个常数值。这在学习算法中是比较致命的,这就意味着这一点的梯度值为0,。梯度消失了。
Wasserstein距离
Wasserstein距离度量是俩个概率分布之间的距离,
Wessertein距离相比KL散度和JS散度的优势在于:即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近。而JS散度在此情况下是常量,KL散度可能无意义。
总结:
三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。