现在的位置: 首页 > 综合 > 正文

信息论学习

2014年07月24日 ⁄ 综合 ⁄ 共 3824字 ⁄ 字号 评论关闭

信息论英语Information
theory
)是运用概率论数理统计的方法研究信息信息熵通信系统、数据传输、密码学数据压缩等问题的应用数学学科。

信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理信源-信道隔离定理相互联系。

简述

信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。

一种简洁的语言(以英语为例)通常有两个重要特点: 首先,最常用的词(比如"a"、"the"、"I")应该比不太常用的词(比如"benefit"、"generation"、"mediocre")要短一些;其次,如果句子的某一部分被漏听或者由于噪声干扰(比如一辆车辆疾驰而过)而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话,这种健壮性(robustness)是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。

注意这些内容同消息的重要性之间是毫不相干的。例如,像“多谢;常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的,然而明显后者更重要,也更有实在意义。信息论却不考虑一段消息的重要性或内在意义,因为这些是数据的质量的问题而不是数据量(数据的长度)和可读性方面上的问题,后者只是由概率这一因素单独决定的。

信息熵

美国数学家克劳德·香农(Claude Shannon)被称为“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《通信的数学理论》(A
Mathematical Theory of Communication
)作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特(Harry
Nyquist)和拉尔夫·哈特利(Ralph
Hartley)于1920年代先后发表的研究成果。在该文中,香农给出了信息熵(Information
Entropy,以下简称为“熵”)的定义:

H =-\sum_{i}^{} p_i \log p_i

信息熵度量的是作为信源的随机系统的不确定程度。

信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻尔兹曼(Ludwig
Boltzmann)与吉布斯(Josiah Willard Gibbs)在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。

互信息

互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件XY的互信息定义为:

I(X, Y) = H(X) + H(Y) - H(X, Y)

其中 H(X, Y) 是联合熵(Joint
Entropy),其定义为:

H(X, Y) = - \sum_{x, y}^{} p(x, y) \log p(x, y)

互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。

自信息self-information),又译为信息本体,由克劳德·香农提出,用来衡量单一事件发生时所包含的信息量多寡。它的单位是bit,或是nats。

定义

假设事件\omega_n发生的机率是 P(\omega_n),信息本体 I(\omega_n) 的定义就是:

I(\omega_n) = \log \left(\frac{1}{P(\omega_n)} \right) = - \log(P(\omega_n))

因此,一个随机产生的事件所包含的信息本体数量,只与事件发生的机率相关。事件发生的机率越低,在事件真的发生时,接收到的信息中,包含的信息本体越大。

信息本体还有这样的特性:如果事件c中包含了两个相互独立的事件a与事件b,当事件c发生时,它所包含的信息本体量,等于事件a的信息本体量加上事件b。一系列事件的信息本体加总之后,平均的信息本体值就是信息熵

信息量的大小不同于信息作用的大小,这不是同一概念。信息量只表明不确定性的减少程度,至于对接收者来说,所获得的信息可能事关重大,也可能无足轻重,这是信息作用的大小。

熵 (信息论)

信息论中,被用来衡量一个随机变量出现的期望值。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵平均自信息量

在1948年,克劳德·艾尔伍德·香农将热力学的熵,引入到信息论,因此它又被称为香农熵

简介

熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

英语文本数据流的熵比较低,因为英语很容易读懂,也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容,但是我们能很容易地预测,比如,字母e总是比字母z多,或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩,一段英文文本的每个字母需要8个比特来编码,但是实际上英文文本的熵大概只有4.7比特。

如果压缩是无损的,即通过解压缩可以百分之百地恢复初始的消息内容,那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递,因此压缩消息的每个比特能携带更多的信息,也就是说压缩信息的熵更加高。熵更高意味着比较难于预测压缩消息携带的信息,原因在于压缩消息里面没有冗余,即每个比特的消息携带了一个比特的信息。香农的信息理论揭示了,任何无损压缩技术不可能让一比特的消息携带超过一比特的信息。消息的熵乘以消息的长度决定了消息可以携带多少信息。

熵的计算

如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为0,
1
编码,而且两个结果彼此之间相互独立。若进行n独立实验,则熵为n,因为可以用长度为n比特流表示。[1]但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X,取三种可能值\begin{smallmatrix} x_1, x_2, x_3 \end{smallmatrix},概率分别为\begin{smallmatrix} \frac{1}{2}, \frac{1}{4}, \frac{1}{4} \end{smallmatrix},那么编码平均比特长度是:\begin{smallmatrix} \frac{1}{2} \times 1 + \frac{1}{4} \times 2 + \frac{1}{4} \times 2 = \frac{3}{2} \end{smallmatrix}。其熵为3/2。

因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望

定义

一个值域为{x1, ..., xn}的随机变量 X 的熵值
H 定义为:

H(X)  =  \operatorname{E}(I(X))

其中,E 代表了期望函数,而 I(X) 是 X 的信息量(又称为信息本体)。I(X)
本身是个随机变量。如果 p 代表了 X 的机率质量函数(probability
mass function),则熵的公式可以表示为:

H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}

在这里 b 是对数所使用的,通常是
2, 自然常数 e,或是10。当b = 2,熵的单位是bit;当b = e,熵的单位是 nat;而当 b = 10,熵的单位是 dit

pi = 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

\lim_{p\to0+}p\log p = 0.

范例

抛硬币的熵H(X)(即期望自信息),以比特度量,与之相对的是硬币的公正度
Pr(X=1).


注意图的最大值取决于分布;在这里,要传达一个公正的抛硬币结果至多需要1比特,但要传达一个公正的抛骰子结果至多需要log2(6)比特。

如果有一个系统S内存在多个事件S = {E1,...,En},每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息(信息本体)为:

I_e = -\log_2 {p_i}(对数以2为底,单位是比特(bit))
I_e = -\ln {p_i}(对数以e为底,单位是纳特/nats)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为:

I_e = -\log_2 {1\over 26} = 4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:

I_e = -\log_2 {1\over 2500} = 11.3

熵是整个系统的平均消息量,即:

H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i

因为和热力学中描述热力学熵玻尔兹曼公式形式一样,所以也称为“熵”。

如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。

实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。

熵的特性

  1. 熵均大于等于零,即,H_s \ge 0
  2. 设N是系统S内的事件总数,则熵H_s \le log_2N。当且仅当p1
    = p2 = .... = pn时,等号成立,此时系统S的熵最大。
  3. 联合熵H(X,Y) \le H(X) + H(Y),当且仅当X,Y在统计学上相互独立时等号成立。
  4. 条件熵H(X|Y) = H(X,Y) - H(Y) \le H(X),当且仅当X、Y在统计学上相互独立时等号成立。

和热力学熵的联系

物理学家和化学家对一个系统自发地从初始状态向前演进过程中,遵循热力学第二定律而发生的熵的变化更感兴趣。在传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布,而概率分布是信息熵的核心定义。

根据Jaynes(1957)的观点,热力学熵可以被视为香农信息理论的一个应用:热力学熵被定义为与要进一步确定系统的微观状态所需要的更多香农信息的量成比例。比如,系统温度的上升提高了系统的热力学熵,这增加了系统可能存在的微观状态的数量,也意味着需要更多的信息来描述对系统的完整状态。

Maxwell在以他的名字命名的思想实验中认为,如果存在一个小妖精知道每个分子的状态信息(热,或者冷),就能够降低系统的热力学熵。Landauer和他的同事则反驳说,让小妖精行使职责本身——即便只是了解和储存每个分子最初的香农信息——就会给系统带来热力学熵的增加,因此总的来说,系统的熵的总量没有减少。这就解决了Maxwell思想实验引发的悖论。Landauer法则能够解释现代计算机在处理大量信息时,必须解决散热问题。

注:本文转于维基百科。

抱歉!评论已关闭.