ML 概率论基础
- 表A,五个小球的颜色和大小
质量 | 颜色 |
---|---|
小 | 红 |
大 | 红 |
大 | 黄 |
小 | 黄 |
小 | 红 |
概率
事件A发生的概率记为$P(A)$,也称为A的先验概率,例如对于表A中的小球大小这个属性来说$P(s)=3/5$(大球为b,小球为s,红色为r,黄色为y,质量M,颜色C)
条件概率
有两个事件A和B,则条件概率$P(A|B)$表示在条件B发生后A发生的概率,也叫做A的后验概率,例如对于表A,已知球的颜色为红色的条件下求小球的概率,$P(s|r)=2/3=P(s\cap r)/P(r)$
信息熵
表示一个属性的混乱程度,如果这个属性只取一个分类,那么熵为零,定义式为$H(X)=-\sum_i{p_i\log p_i}$,例如表A中颜色的熵为
$$
\begin{aligned}
H(C)&=-P(r)\log P(r)-P(y)\log P(y)\\
&=-0.6\log 0.6-0.4\log 0.4\\
&=0.97
\end{aligned}
$$
条件熵
条件熵$H(Y|X)$表示给定随机变量X的条件下,随机变量Y的混乱程度,其定义为给定X的情况下Y的分布的熵对X的期望值,下面计算条件熵$H(C|M)$
$$\begin{aligned}
H(C|M)&=\sum_i{P(M_i)H(C|M_i)}\\
&=-\sum_i{P(M_i)\sum_j{P(C_j|M_i)\log P(C_j|M_i)}}\\
&=\sum_{i,j}P(C_j\cap M_i)\log\frac{P(M_i)}{P(C_j\cap M_i)}
\end{aligned}$$
$M_i$ | $H(C)$ |
---|---|
s | 0.918 |
b | 1 |
所以$H(C|M)=0.6*0.918+0.4*1=0.9508$
|
|