watch: DL - 王木头 22 | Overview of Probability theory, Statistics, Information theory

视频封面:一个统一视角下的概率论+统计学+信息论

原视频:1. 从头开始,把概率、统计、信息论中零散的知识统一起来-王木头学科学

概率论最基础的问题:用数学的方式描述"不确定性"(或"可能性")

把所有事件及其发生的可能性写到一个表 f 里,每次通过查表就能知道可能性是多少: f(S) = K。

idx S K
1 事件a 数值1
2 事件b 数值2
3 事件c 数值3
….. …..

这里的“可能性” 满足一些限制:

  1. 数值要满足事件可能性的相对关系。比如,如果事件 a 的可能性 > 事件 b 的可能性,则 数值1 > 数值2
  2. 数值需要满足事件的包含关系。比如,事件 c = {事件a,事件b}(a,b中任意一个发生),则 数值3 = 数值1 + 数值2
  3. 注意,这里并未要求所有数值归一化,所以还不是概率值

这种方式只是把“可能性”做了数学符号化,并不是“数学化”。除了要保证定义出来的这个体系自洽之外,还要尽可能简约。 比如上面的事件 c 并不需要单独定义,它的数值可以从事件 a 和 b 推导出来。 所以表格中并不需要列举所有的事件,只需要包含不可再分的原子事件及其可能性。

V 2.0

表1:

idx S K
1 原子事件a 数值1
2 原子事件b 数值2
3 原子事件c 数值3
4 原子事件d 数值4
….. …..

它可以定义出:f(S) = K。只留下原子事件后,就可以确定“可能性”的最大值为所有原子事件“合”在一起组成的事件发生的可能性(只要有1个原子事件发生,这件事就算发生): max(∑K) = ∑_{s∈all} f(s)

有了最大可能性之后,可以定义归一化的数值 K = K/(∑_{s∈all} f(s)) ∈ [0,1]

从上面的原子事件可推导出以下表2:

P(S) ∑K
{1,2} 数值1+数值2
{1,2,3} 数值1+数值2+数值3
{3,4} 数值3+数值4
{2,4} 数值2+数值4
……. …..

P(S) 表示集合 S 的幂集。

但是原子事件对于不同的问题,不好确定。对于离散问题(掷骰子),原子事件就是点数。 但对于连续的变量(温度),原子事件可以取一个小区间。因为可以无限细分,当区间趋近于无穷小时,它发生的可能性就趋于0。 如果所有原子事件的可能性都是0,就无法从表 1 推导出表 2。

可以从表 2 建立数学体系。

V 3.0

对于连续的情况,原子事件就是一个个点,如表 3,它们对应的数值并不代表发生的可能性,而是有其他意义,因为我们要用表 4 建立定义,所以表 3 的数值是由表 4 推导出来的。

表 3:

S K
0.0 点a 数值1
点b 数值2
点c 数值3
点d 数值4
…. …..

表 4:

P(ℝ) K
0.0 [1,2] f[数值1,数值2]
[1,3] f[数值1,数值3]
[3,4] f[数值3,数值4]
[1,2]∪[3,4] f[数值1,数值2]+f[数值3,数值4]
…. …..
Built with Hugo
Theme Stack designed by Jimmy