|
Нет ничего более практически ценного,
чем хорошая теория
Людвиг Больцман
1.1.1. Определение энтропии в случае равновероятных
возможностей
Пусть имеется М равноправных и, следовательно, равновероятных
возможностей.
Например, при бросании правильной игральной кости
М = 6.
Конечно, не во всех примерах формализация условий
проводится так просто и определенно, как в случае
игральной кости.
Мы предполагаем, тем не менее, что она проведена,
что действительно осуществляется одна из М возможностей
и никакая иная, что эти возможности равноправны.
Тогда имеется априорная неопределенность, прямо связанная
с М (т.е. чем больше М, тем больше неопределенность).
Измеряющая ее численная величина носит название энтропии
и обозначается Н:
H = f(M), (1.1.1)
Где f(*) - некоторая возрастающая неотрицательная
функция, определенная по меньшей мере для чисел натурального
ряда.
При бросании кости и выяснении выпавшего числа приходит
информация, количество которой обозначим I.
После этого (т.е. апостериори) никакой неопределенности
не остается:
Апостериорная M =1 и этому значению должна соответствовать
H pr = f(1) = 0.
Количество пришедшей информации естественно измерять
величиной исчезнувшей неопределенности:
I = H pr - H ps, (1.1.2)
Здесь индекс pr означает "априори", а ps - "апостериори".
Мы видим, что пришедшее количество информации I совпадает
с первоначальной энтропией.
Также и в других случаях ( в частности для приводимой
в дальнейшем формулы (1.2.3) сообщение, имеющее
энтропию Н, может передавать количество информации
I, равное Н.
Для определения вида функции f(*) в (1.1.1)
используем вполне естественный принцип аддитивности.
В применении к игральной кости он гласит: Энтропия
двух бросаний кости в два раза больше, чем энтропия
одного бросания, трех бросаний - в три раза больше
и т.д. В применении к другим примерам данный принцип
указывает, что энтропия нескольких несвязанных систем,
рукояток управления и т. п. равна сумме энтропий отдельных
систем, рукояток управления и т. п.
Но число равноправных возможностей сложной системы
М равно произведению числа возможностей m каждой из
подсистем (простых по отношению к сложной).
При двух бросаниях игральной кости число различных
пар (x1,x2)
где x1 принимает одно
из шести значений и x2
- также одно из шести значений) - возможностей равно
36=62.
Применяя формулу (1.1.1) для этого числа, получаем
энтропию f(6n).
Согласно принципу аддитивности находим
f(6n) = n f(6),
При других m > 1 эта формула имела бы вид
f(mn) = n f(m), (1.1.3)
Обозначая x = mn, имеем n = ln x/ ln m
и из (1.1.3) получаем
f(x) = K ln x, (1.1.4)
где K = f(m)/ln m - положительная константа, не зависящая
от х.
Она связана с выбором единиц информации.
Итак, вид функции f(*) определен с точностью до выбора
единиц измерения.
Легко проверить, что отмеченное ранее условие f(1)
= 0 действительно выполняется.
Впервые логарифмическую меру информации ввел Хартли
[1], поэтому величину H = K lnM называют хартлиевским
количеством информации.
Укажем три основных выбора единиц измерения информации:
1) если в (1.1.4) положить К = 1, то
энтропия будет измеряться в натуральных единицах (натах
(нат - сокращенное английское слово natural digit,
что означает натуральная единица)):
H нат = lnM; (1.1.5)
2) если положить К = 1/ln 2, то будем иметь
энтропию, выраженную в двоичных единицах (битах (бит
- сокращенное слово binary digit, означающее двоичная
единица (знак). Термин введен Н. Винером)
H бит = (1/ln 2) lnM = log 2M;
(1.1.6)
3) наконец, мы будем иметь физическую шкалу,
если в качестве К возьмем постоянную Больцмана k =
1.38 * 10 -23 Дж/град.
Энтропия, измеренная в этих единицах, будет
S є H физ = k lnM.
(1.1.7)
Из сопоставления (1.1.5) и (1.1.6) легко
видеть, что 1 нат крупнее 1 бита в log2e
= 1/ln 2 » 1,44 раза.
В дальнейшем, если не будет специальных оговорок,
будем пользоваться натуральными единицами (формула
(1.1.5)), опуская индекс нат.
Пусть указанные равноправные возможности заключаются
в том, что случайная величина x
принимает одно из М значений, скажем 1, …, М.
Вероятность каждого отдельного ее значения тогда равна
P(x) = 1/M, x
= 1, ..., M.
Следовательно, формулу (1.1.5) можно записать
H = - ln P(x). (1.1.8)
1.1.2. Энтропия в случае неравновероятных возможностей
и ее свойства
Пусть теперь вероятности различных возможностей (реализаций)
не равны друг другу.
Если, как и раньше, число возможностей равно M, можно
рассматривать случайную величину x,
принимающую одно из М значений.
Взяв в качестве x номер возможности,
получим, что эти возможности равны 1, ..., M.
Вероятности P(x) этих значений,
неотрицательны и подчинены условию нормировки:
S P(x)
=1.
Если применить формально равенство (1.1.8)
к этому случаю, то получим, что каждому значению x
соответствует, вообще говоря своя энтропия
H(x) = -ln P(x).
(1.2.1)
Тем самым мы приписываем определенное значение энтропии
каждой реализации величины x.
Поскольку x - случайная величина,
то эту энтропию можно рассматривать как случайную
величину.
Как и в п. 1.1, апостериорная энтропия, имеющаяся
после выяснения реализации x,
равна нулю.
Поэтому информация, получаемая при выяснении реализаций,
численно равна первоначальной энтропии
I(x) = H(x)
= -ln P(x). (1.2.2)
Она, как и H(x), оказывается зависящей
от вида реализации сообщения (от значения x
), т.е. является случайной.
Из этой формулы видно, что информация и энтропия велики,
когда априорная вероятность данной реализации мала,
и наоборот.
Это вполне соответствует интуитивным представлениям.
Пример. Допустим, что нам интересно знать,
сдал или не сдал экзамен данный студент. Примем следующие
вероятности этих двух событий:
P(сдал) = 7/8, P(не сдал) =1/8.
Отсюда видно, что этот студент является довольно сильным.
Если нам сообщили, что он сдал экзамен, мы вправе
сказать: "Ваше сообщение мне мало что дало, я и без
этого предполагал, что он сдал".
Количественно по формуле (1.2.2) информации
этого сообщения равна
I(сдал) = log2(8/7) = 0.193 бита.
Если нам сообщили, что не сдал, мы скажем: -
"Неужели?" и почувствуем, что в большей степени обогатились
знаниями.
Количественно информации такого сообщения равна
I(не сдал) = log2(8) = 3 бита.
В теории, однако, большую роль играет не случайная
энтропия (соответственно информация) (1.2.1), (1.2.2),
а усредненная энтропия, определенная формулой
Hx =
MH(x) = - S
P(x) ln P(x).
(1.2.3)
Будем называть ее больцмановской энтропией
или больцмановской информацией.
В приведенном выше примере усреднение по обоим сообщениям
дает
Ix = Hx
= 7/8 * 0.193 + 3/8 = 0.544 бита.
Случайная величина x, стоящая
в индексе символа Hx
(в отличие от величины, стоящей в скобках в
H(x)), является "слепой",
т.е. энтропия Hx описывает
случайную величину x (зависит
от вероятностей Px
), но не зависит от значения x,
от реализации x.
Такая система обозначений в расширенном виде, включающем
условные энтропии, будет нами применяться
и далее.
Неопределенность типа 0 ln 0, встречающаяся в (1.2.3),
когда отдельные вероятности равны нулю, всегда понимаются
в смысле 0 ln 0=0.
Вследствие этого множество из М возможностей всегда
можно дополнить любыми возможностями нулевой вероятности,
а также в индексе энтропии дописать детерминированные
(не случайные) величины.
Например, справедливо равенство Hx
= Hx, 7
при любой случайной величине x
.
2. Свойства энтропии.
Теорема 1.1. Как случайная, так и средняя энтропия
всегда неотрицательны.
Это свойство связано с тем, что вероятность не может
превзойти единицу и с тем, что постоянная K в
(1.1.4) берется обязательно положительной.
Поскольку P(x) Ј
1, то - ln P(x) = H(x)
і 0.
Это неравенство сохраняется, конечно, и после усреднения.
Теорема 1.2. Энтропия имеет максимальное значение,
равное ln M, когда возможности (реализации) равновероятны,
т.е. когда P(x) = 1/M.
Доказательство. Это свойство является следствием
неравенства Иенсена (см., например, Рао [1])
Mf(x) (Ј)
fM(x), (1.2.4)
Справедливо для любой выпуклой (вверх) функции f(x).
(Функция f(x) = ln x является выпуклой при х > 0,
поскольку f(x) = -x -2 < 0).
В самом деле, обозначая x = 1/
P(x), имеем
Mx = M(1/ P(x))
= е1M
(P(x)/ P(x))
= M, (1.2.5)
Mf(x) = M ln (1/
P(x)) = MH(x)
= Hx (1.2.6)
Подставляя (1.2.5), (1.2.6) в (1.2.4),
получаем
Hx Ј
ln M.
Для частного вида функции f(x
) = lnx неравенство (1.2.4)
легко проверить непосредственно.
Усредняя очевидное неравенство
ln (x/Mx)
Ј x/Mx
-1, (1.2.7)
получаем (1.2.4).
В общем случае для доказательства (1.2.4) удобно
рассмотреть касательную f(Mx)
+ f' (Mx)( x
- Mx) к функции f(x)
в точке x = Mx.
Вследствие выпуклости имеем
f(x) Ј f(Mx)
+ f' (Mx)( x
- Mx) .
Усредняя это неравенство, получаем (1.2.4).
Как видно из приведенного доказательства, теорема
1.2 осталась бы справедливой, если в определении энтропии,
логарифмическую функцию заменить на любую другую выпуклую
функцию.
Перейдем к свойствам энтропии, которые являются специфическим
для логарифмической функции, а именно, к свойствам,
связанным с аддитивностью энтропии.
Теорема 1.3. Если случайные величины x1,
x2 независимы,
то полная (совместная) энтропия Hx1
, x2 распадается на сумму энтропий:
Hx1 , x2 = Hx1
+ Hx2 . (1.2.8)
Доказательство. Допустим, что имеются две случайные
величины x1, x2
, первая из которых принимает значения 1, ..., m1,
а вторая - 1, ..., m2.
Существует m1m2 пар x
= ( x1, x2),
причем они имеют вероятности P( x1,
x2).
Нумеруя пары в произвольном порядке номером x
= 1, ..., m1m2, имеем
H(x) = - М
ln P(x) = - М ln P(x1
x2) = Hx1x2
.
Вследствие независимости имеем
P(x1 x2)
= P(x1) P(x2).
Поэтому
ln P(x1 x2)
= ln P(x1) + ln P(x2).
H(x1 x2)
= H(x1) + H(x2),
т.е. (1.2.8).
Доказательство закончено.
Если имеются не две независимые случайные величины,
а две группы (h1, …,
hr и z1,
…, zs) независимых
величин
(P(h1, …, hr,
z1, …, zs)
= P(h1, …, hr)
P( z1, …, zs),
то приведенное рассуждение остается применимым при
обозначении совокупности (h1,
…, hr) или ее номера
через x1 , а -
(z1, …, zs)
через x2 .
Свойство, указанное в теореме 1.3, является
проявлением принципа аддитивности, который был взят
нами за основу в п. 1.1 и привел к логарифмической
функции (1.1.1).
Оно обобщается на случай нескольких независимых случайных
величин x1, …, xn
.
При этом
Нx1, …, xn
= еnj=1
Hx (j) , (1.2.9)
что легко доказывается аналогичным способом
|