Трагедия Свободы  Умопримечания | Стихи | Библиотека 
  на первую страницу НОВОСТИ | ССЫЛКИ   
Стратонович Р.Л. Теория информации. Параграф 1.1.1 - 1.1.2
от 11.03.03
  
Библиотека



Нет ничего более практически ценного,
чем хорошая теория

Людвиг Больцман


1.1.1. Определение  энтропии в случае равновероятных возможностей
Пусть имеется М равноправных и, следовательно, равновероятных возможностей.
Например, при бросании правильной игральной кости М = 6.
Конечно, не во всех примерах формализация условий проводится так просто и определенно, как в случае игральной кости.
Мы предполагаем, тем не менее, что она проведена, что действительно осуществляется одна из М возможностей и никакая иная, что эти возможности равноправны.
Тогда имеется априорная неопределенность, прямо связанная с М (т.е. чем больше М, тем больше неопределенность).
Измеряющая ее численная величина носит название энтропии и обозначается Н:
H = f(M),

(1.1.1)


Где f(*) - некоторая возрастающая неотрицательная функция, определенная по меньшей мере для чисел натурального ряда.
При бросании кости и выяснении выпавшего числа приходит информация, количество которой обозначим I. После этого (т.е. апостериори) никакой неопределенности не остается:
Апостериорная M =1 и этому значению должна соответствовать H pr = f(1) = 0.
Количество пришедшей информации естественно измерять величиной исчезнувшей неопределенности:
I = H pr - H ps,

(1.1.2)


Здесь индекс pr  означает "априори", а ps - "апостериори".
Мы видим, что пришедшее количество информации I совпадает с первоначальной энтропией.
Также и в других случаях ( в частности для приводимой в дальнейшем формулы (1.2.3) сообщение, имеющее энтропию Н, может передавать количество информации I, равное Н.
Для определения вида функции f(*) в (1.1.1) используем вполне естественный принцип аддитивности.
В применении к игральной кости он гласит: Энтропия двух бросаний кости в два раза больше, чем энтропия одного бросания, трех бросаний - в три раза больше и т.д. В применении к другим примерам данный принцип указывает, что энтропия нескольких несвязанных систем, рукояток управления и т. п. равна сумме энтропий отдельных систем, рукояток управления и т. п.
Но число равноправных возможностей сложной системы М равно произведению числа возможностей m каждой из подсистем (простых по отношению к сложной).
При двух бросаниях игральной кости число различных пар (x1,x2) где x1 принимает одно из шести значений и x2 - также одно из шести значений) - возможностей равно 36=62.
Применяя формулу (1.1.1) для этого числа, получаем энтропию f(6n).
Согласно принципу аддитивности находим
f(6n) = n f(6),
При других m > 1 эта формула имела бы вид
f(mn) = n f(m),

(1.1.3)


Обозначая x = mn, имеем n = ln x/ ln m  и из (1.1.3) получаем
f(x) = K ln x,

(1.1.4)


где K = f(m)/ln m - положительная константа, не зависящая от х.
Она связана с выбором единиц информации.
Итак, вид функции f(*) определен с точностью до выбора единиц измерения.
Легко проверить, что отмеченное ранее условие f(1) = 0 действительно выполняется.
Впервые логарифмическую меру информации ввел Хартли [1], поэтому величину H = K lnM называют хартлиевским количеством информации.
Укажем три основных выбора единиц измерения информации:
1) если в (1.1.4) положить К = 1, то энтропия будет измеряться в натуральных единицах (натах (нат - сокращенное английское слово natural digit, что означает натуральная единица)):
H нат =  lnM;

(1.1.5)


2) если положить К = 1/ln 2, то будем иметь энтропию, выраженную в двоичных единицах (битах (бит - сокращенное слово binary digit, означающее двоичная единица (знак). Термин введен Н. Винером)
H бит =  (1/ln 2) lnM = log 2M;

(1.1.6)


3) наконец, мы будем иметь физическую шкалу, если в качестве К возьмем постоянную Больцмана k = 1.38 * 10 -23 Дж/град.
Энтропия, измеренная в этих единицах, будет
S є H физ = k lnM.

(1.1.7)


Из сопоставления (1.1.5) и (1.1.6) легко видеть, что 1 нат  крупнее 1 бита  в log2e = 1/ln 2 » 1,44 раза.
В дальнейшем, если не будет специальных оговорок, будем пользоваться натуральными единицами (формула (1.1.5)), опуская индекс нат.
Пусть указанные равноправные возможности заключаются в том, что случайная величина x принимает одно из М значений, скажем 1, …, М.
Вероятность каждого отдельного ее значения тогда равна P(x) = 1/M, x = 1, ..., M.
Следовательно, формулу (1.1.5) можно записать
H  = - ln P(x).

(1.1.8)


1.1.2. Энтропия в случае неравновероятных возможностей и ее свойства
Пусть теперь вероятности различных возможностей (реализаций) не равны друг другу.
Если, как и раньше, число возможностей равно M, можно рассматривать случайную величину x, принимающую одно из М значений.
Взяв в качестве x номер возможности, получим, что эти возможности равны  1, ..., M.
Вероятности P(x) этих значений, неотрицательны и подчинены условию нормировки:
S P(x) =1.
Если применить формально равенство (1.1.8) к этому случаю, то получим, что каждому значению x соответствует, вообще говоря своя энтропия
H(x)   = -ln P(x).

(1.2.1)


Тем самым мы приписываем определенное значение энтропии каждой реализации величины x.
Поскольку x - случайная величина, то эту энтропию можно рассматривать как случайную величину.
Как и в п. 1.1, апостериорная энтропия, имеющаяся после выяснения реализации x, равна нулю.
Поэтому информация, получаемая при выяснении реализаций, численно равна первоначальной энтропии
I(x)   =  H(x)   = -ln P(x).

(1.2.2)


Она, как и H(x), оказывается зависящей от вида реализации сообщения (от значения x ), т.е. является случайной.
Из этой формулы видно, что информация и энтропия велики, когда априорная вероятность данной реализации мала, и наоборот.
Это вполне соответствует интуитивным представлениям.
Пример. Допустим, что нам интересно знать, сдал или не сдал экзамен данный студент. Примем следующие вероятности этих двух событий:
P(сдал) = 7/8,  P(не сдал) =1/8.
Отсюда видно, что этот студент является довольно сильным. Если нам сообщили, что он сдал экзамен, мы вправе сказать: "Ваше сообщение мне мало что дало, я и без этого предполагал, что он сдал".
Количественно по формуле (1.2.2) информации этого сообщения равна
I(сдал) = log2(8/7) = 0.193 бита.
Если нам сообщили, что не сдал, мы скажем:  - "Неужели?" и почувствуем, что в большей степени обогатились знаниями.
Количественно информации такого сообщения равна
I(не сдал) = log2(8) = 3 бита.
В теории, однако, большую роль играет не случайная энтропия (соответственно информация) (1.2.1), (1.2.2), а усредненная энтропия, определенная формулой
Hx   = MH(x) =   - S P(x)  ln P(x).

(1.2.3)


Будем называть ее больцмановской энтропией или больцмановской информацией.
В приведенном выше примере усреднение по обоим сообщениям дает
Ix   = Hx   = 7/8 * 0.193  + 3/8 = 0.544 бита.
Случайная величина x, стоящая в индексе символа Hx  (в отличие от величины, стоящей в скобках в H(x)), является "слепой",
т.е. энтропия Hx описывает случайную величину x  (зависит от вероятностей Px ), но не зависит от значения  x, от реализации x.
Такая система обозначений в расширенном виде, включающем условные  энтропии, будет  нами применяться и далее.
Неопределенность типа 0 ln 0, встречающаяся в (1.2.3), когда отдельные вероятности равны нулю, всегда понимаются в смысле 0 ln 0=0.
Вследствие этого множество из М возможностей всегда можно дополнить любыми возможностями нулевой вероятности, а также в индексе энтропии дописать детерминированные (не случайные) величины.
Например, справедливо равенство Hx   = Hx, 7 при любой случайной величине x .
2. Свойства энтропии.
Теорема 1.1. Как случайная, так и средняя энтропия всегда неотрицательны.
Это свойство связано с тем, что вероятность не может превзойти единицу и с тем, что постоянная K  в (1.1.4) берется обязательно положительной.
Поскольку P(x) Ј 1, то - ln P(x) = H(x) і 0.
Это неравенство сохраняется, конечно, и после усреднения.
Теорема 1.2. Энтропия имеет максимальное значение, равное ln M, когда возможности (реализации) равновероятны, т.е. когда P(x) = 1/M.
Доказательство. Это свойство является следствием неравенства Иенсена (см., например, Рао [1])
Mf(x) (Ј) fM(x),

(1.2.4)


Справедливо для любой выпуклой (вверх) функции f(x). (Функция f(x) = ln x является выпуклой при х > 0, поскольку f(x) = -x -2 < 0).
В самом деле, обозначая x = 1/ P(x), имеем
Mx = M(1/ P(x)) =  е1M  (P(x)/ P(x)) = M,

(1.2.5)


Mf(x) = M ln (1/ P(x)) = MH(x) = Hx

(1.2.6)


Подставляя (1.2.5), (1.2.6) в (1.2.4), получаем
Hx  Ј ln M.
Для частного вида функции f(x ) = lnx неравенство (1.2.4) легко проверить непосредственно.
Усредняя очевидное неравенство
ln (x/Mx) Ј x/Mx -1,  

(1.2.7)


получаем (1.2.4).
В общем случае для доказательства (1.2.4) удобно рассмотреть касательную f(Mx) + f' (Mx)( x - Mx)  к функции f(x) в точке  x = Mx.
Вследствие выпуклости имеем
f(x) Ј  f(Mx) + f' (Mx)( x - Mx) .
Усредняя это неравенство, получаем (1.2.4).
Как видно из приведенного доказательства, теорема 1.2 осталась бы справедливой, если в определении энтропии, логарифмическую функцию заменить на любую другую выпуклую функцию.
Перейдем к свойствам энтропии, которые являются специфическим для логарифмической функции, а именно, к свойствам, связанным с аддитивностью энтропии.
Теорема 1.3. Если случайные величины x1, x2  независимы, то полная (совместная) энтропия Hx1 , x2 распадается на сумму энтропий:
Hx1 , x2 = Hx1  + Hx2 .  

(1.2.8)


Доказательство. Допустим, что имеются две случайные величины x1, x2 , первая из которых принимает значения 1, ..., m1, а вторая - 1, ..., m2.
Существует m1m2 пар  x = ( x1, x2), причем они имеют вероятности P( x1, x2).
Нумеруя пары в произвольном порядке номером x = 1, ..., m1m2, имеем
H(x)   = - М ln P(x) = - М ln P(x1 x2) = Hx1x2 .
Вследствие независимости имеем
P(x1 x2) = P(x1) P(x2).
Поэтому
ln P(x1 x2) = ln P(x1) + ln P(x2).
H(x1 x2) = H(x1) + H(x2), т.е. (1.2.8).
Доказательство закончено.
Если имеются не две независимые случайные величины, а две группы (h1, …, hr и z1, …, zs)  независимых величин
(P(h1, …, hr, z1, …, zs) = P(h1, …, hr) P( z1, …, zs), то приведенное рассуждение остается применимым при обозначении совокупности (h1, …, hr) или ее номера через x1 , а  - (z1, …, zs)  через x2 .
Свойство, указанное в теореме 1.3, является проявлением принципа аддитивности, который был взят нами за основу в п. 1.1 и привел к логарифмической функции (1.1.1).
Оно обобщается на случай нескольких независимых случайных величин x1, …, xn .
При этом
Нx1, …, xn = еnj=1  Hx (j) ,

(1.2.9)


что легко доказывается аналогичным способом

  
СТАТИСТИКА

  Веб-дизайн © Kirsoft KSNews™, 2001 Copyright © Трагедия Свободы, 2001-2004