Приветствую Вас, Гость

Тема1. «Информация и информационные процессы» (9ч)

Урок 8. Алфавитный  подход к определению количества информации

При определении количества информации на основе уменьшения неопределенности наших знаний мы рассматриваем информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты , и в коротком сообщении "Орел", и в длинной фразе "Монета упала орлом вверх".

Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цветов точек изображения и так далее). Такой подход к количеству информации называется алфавитным.

При алфавитном подходе к определению количества информации отвлекаются  от содержания (смысла) информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы (алфавита)

Исходя из вероятностного подхода к определению количества информации, набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле Хартли можно рассчитать, какое количество информации несет каждый символ: , где N — количество знаков в алфавите, I — количество информации.

Информационная емкость знаков зависит от их числа в алфавите (мощности алфавита): чем больше их число, тем большее количество информации несет один знак.

Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет:

    
Аналогично легко подсчитать, что каждый знак «алфавита» нервной системы (есть импульс, нет импульса) в соответствии с формулой несет информацию 1 бит, а каждый из четырех символов генетического алфавита (A,G,C,T)— информацию 2 бит.

В двоичной знаковой системе используется всего два символа - 0 и 1. Поэтому, по формуле Хартли получается, что каждый символ несет 1 бит информации.

В соответствии с алфавитным подходом количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении: I=I(знак)*K.

Хотя, как было подсчитано выше, для кодирования буквы в русском алфавите достаточно 5 бит, при кодировании текста в компьютере принято использовать 8 или 16 бит на один символ. Такой выбор обусловлен необходимостью привести к единообразию кодирование символов алфавита любого языка. На предыдущих уроках уже говорилось об таблицах кодирования текста ASCII:

В этой таблице на каждый символ отводится 8 бит: 1 символ = 1 байт. Легко посчитать, что всего можно закодировать 2^8=256 символов. В ASCII первые 32 места - от 0 до 31 - отведены под служебные символы, от 32 до 127 - под символы английского языка, цифры и знаки препинания, а оставшиеся 128 символов - под национальные кодировки. Так, например, выглядит таблица кодировки кириллицы Win1251:

Естественно, что в разных кодировочных таблицах национальные кодировки не совпадают. Это приводит к некорректному отображению текстовых сообщений. Откройте браузер и смените тип кодировки: 

Вы увидите, что текст превратится в набор нечитаемых символов. Чтобы этого избежать, была разработана единая кодировка текста UNICODE. В ней каждый символ кодируется 16 битами: 1 символ=2 байта.

Поэтому, чтобы рассчитать объем текстового сообщения в компьютере, нужно знать способ кодировки текста: ASCII - 1 символ=1 байт, UNICODE - 1 символ=2 байта

Контрольные вопросы:

1. Какое из сообщений имеет больший информационный объем: слово из 5 символов на русском языке или слово из 5 символов на китайском языке?

2. Какое количество информации несет двоичный код 11010011?

3. Каким наименьшим количеством бит можно закодировать арабские цифры?

4. Какова информационная емкость сообщения: 

Минимальная единица измерения информации 1 бит

если а) каждый символ закодирован минимальным количеством бит;

б) для кодировки использовалась таблица ASCII;

в) сообщение закодировано в UNICODE.