本文介绍概率论中的基础知识

  • 表A,五个小球的颜色和大小
质量 颜色

概率

事件A发生的概率记为$P(A)$,也称为A的先验概率,例如对于表A中的小球大小这个属性来说$P(s)=3/5$(大球为b,小球为s,红色为r,黄色为y,质量M,颜色C)

条件概率

有两个事件A和B,则条件概率$P(A|B)$表示在条件B发生后A发生的概率,也叫做A的后验概率,例如对于表A,已知球的颜色为红色的条件下求小球的概率,$P(s|r)=2/3=P(s\cap r)/P(r)$

信息熵

表示一个属性的混乱程度,如果这个属性只取一个分类,那么熵为零,定义式为$H(X)=-\sum_i{p_i\log p_i}$,例如表A中颜色的熵为
$$
\begin{aligned}
H(C)&=-P(r)\log P(r)-P(y)\log P(y)\\
&=-0.6\log 0.6-0.4\log 0.4\\
&=0.97
\end{aligned}
$$

条件熵

条件熵$H(Y|X)$表示给定随机变量X的条件下,随机变量Y的混乱程度,其定义为给定X的情况下Y的分布的熵对X的期望值,下面计算条件熵$H(C|M)$
$$\begin{aligned}
H(C|M)&=\sum_i{P(M_i)H(C|M_i)}\\
&=-\sum_i{P(M_i)\sum_j{P(C_j|M_i)\log P(C_j|M_i)}}\\
&=\sum_{i,j}P(C_j\cap M_i)\log\frac{P(M_i)}{P(C_j\cap M_i)}
\end{aligned}$$

$M_i$ $H(C)$
s 0.918
b 1

所以$H(C|M)=0.6*0.918+0.4*1=0.9508$

1
2
from scipy.stats import entropy
print entropy([1,1],base=2)