视频封面:一个统一视角下的概率论+统计学+信息论
原视频:1. 从头开始,把概率、统计、信息论中零散的知识统一起来-王木头学科学
概率论最基础的问题:用数学的方式描述"不确定性"(或"可能性")
把所有事件及其发生的可能性写到一个表 f 里,每次通过查表就能知道可能性是多少: f(S) = K。
| idx | S | K |
|---|---|---|
| 1 | 事件a | 数值1 |
| 2 | 事件b | 数值2 |
| 3 | 事件c | 数值3 |
| … | ….. | ….. |
这里的“可能性” 满足一些限制:
- 数值要满足事件可能性的相对关系。比如,如果事件 a 的可能性 > 事件 b 的可能性,则 数值1 > 数值2
- 数值需要满足事件的包含关系。比如,事件 c = {事件a,事件b}(a,b中任意一个发生),则 数值3 = 数值1 + 数值2
- 注意,这里并未要求所有数值归一化,所以还不是概率值
这种方式只是把“可能性”做了数学符号化,并不是“数学化”。除了要保证定义出来的这个体系自洽之外,还要尽可能简约。 比如上面的事件 c 并不需要单独定义,它的数值可以从事件 a 和 b 推导出来。 所以表格中并不需要列举所有的事件,只需要包含不可再分的原子事件及其可能性。
V 2.0
表1:
| idx | S | K |
|---|---|---|
| 1 | 原子事件a | 数值1 |
| 2 | 原子事件b | 数值2 |
| 3 | 原子事件c | 数值3 |
| 4 | 原子事件d | 数值4 |
| … | ….. | ….. |
它可以定义出:f(S) = K。只留下原子事件后,就可以确定“可能性”的最大值为所有原子事件“合”在一起组成的事件发生的可能性(只要有1个原子事件发生,这件事就算发生): max(∑K) = ∑_{s∈all} f(s)
有了最大可能性之后,可以定义归一化的数值 K = K/(∑_{s∈all} f(s)) ∈ [0,1]
从上面的原子事件可推导出以下表2:
| P(S) | ∑K |
|---|---|
| {1,2} | 数值1+数值2 |
| {1,2,3} | 数值1+数值2+数值3 |
| {3,4} | 数值3+数值4 |
| {2,4} | 数值2+数值4 |
| ……. | ….. |
P(S) 表示集合 S 的幂集。
但是原子事件对于不同的问题,不好确定。对于离散问题(掷骰子),原子事件就是点数。 但对于连续的变量(温度),原子事件可以取一个小区间。因为可以无限细分,当区间趋近于无穷小时,它发生的可能性就趋于0。 如果所有原子事件的可能性都是0,就无法从表 1 推导出表 2。
可以从表 2 建立数学体系。
V 3.0
对于连续的情况,原子事件就是一个个点,如表 3,它们对应的数值并不代表发生的可能性,而是有其他意义,因为我们要用表 4 建立定义,所以表 3 的数值是由表 4 推导出来的。
表 3:
| ℝ | S | K |
|---|---|---|
| 0.0 | 点a | 数值1 |
| … | 点b | 数值2 |
| … | 点c | 数值3 |
| … | 点d | 数值4 |
| … | …. | ….. |
表 4:
| P(ℝ) | K | |
|---|---|---|
| 0.0 | [1,2] | f[数值1,数值2] |
| … | [1,3] | f[数值1,数值3] |
| … | [3,4] | f[数值3,数值4] |
| … | [1,2]∪[3,4] | f[数值1,数值2]+f[数值3,数值4] |
| … | …. | ….. |