Меры и единицы количества и объема информации. Кодирование текстовой данных. Алгебра логики. Логические высказывания

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера (предложена Ю. И. Шрейдером), которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя .

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации 1 С, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 1.5. Рассмотрим два предельных случая, когда количество семантической информации 1 С равно 0:

  • при S p ->0 пользователь не воспринимает, не понимает поступающую информацию;
  • при S p ->1 пользователь все знает, и поступающая информация ему не нужна.

Рис. 1.5.

Максимальное количество семантической информации / с потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S popt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного. Относительной мерой количества семантической информации может служить коэффициент содержательности С, рассмотренный выше.

Прагматический (аксиологический) подход к информации базируется на анализе ее ценности, с точки зрения потребителя. Например, информация, имеющая несомненную ценность для биолога, будет иметь ценность, близкую к нулевой, для программиста. Ценность информации связывают со временем, поскольку с течением времени она стареет и ценность ее, а следовательно, и «количество» уменьшаются. Таким образом, прагматический подход оценивает содержательный аспект информации. Он имеет особое значение при использовании информации для управления, поскольку ее количество тесно связано с эффективностью управления в системе.

Прагматическая мера информации определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера - также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Алгоритмический подход связан с желанием внедрения универсальной меры информации. Количественная характеристика, отражающая сложность (размер) программы и позволяющая произвести какое- либо сообщение, была предложена А. Н. Колмогоровым.

Так как существуют разные способы задания и реализации алгоритма с использованием различных вычислительных машин и языков программирования, то для определенности задается некоторая конкретная машина, например машина Тьюринга. В этом случае в качестве количественной характеристики сообщения можно взять минимальное число внутренних состояний машины, требующихся для воспроизведения данного сообщения.

Разные подходы к оценке количества информации заставляют, с одной стороны, использовать разнотипные единицы информации для характеристики различных информационных процессов, а с другой - увязывать эти единицы между собой как на логическом, так и на физическом уровнях. Например, процесс передачи информации, измеряемой в одних единицах, сопрягается с процессом хранения информации, где она измеряется в других единицах, и т.д., а поэтому выбор единицы информации является весьма актуальной задачей.

В табл. 1.3 сопоставлены введенные меры информации.

Таблица 1.3

Сопоставление мер информации

Информация и данные

Термин информация происходит от латинского informatio, что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение - это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. В широком смысле информация - это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окружающего мира. Наряду c информацией в информатике часто употребляется понятие данные . Покажем, в чем их отличие.

Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если появляется возможность использовать эти данные для уменьшения неопределенности о чем-либо, данные превращаются в информацию. Поэтому можно утверждать, что информацией являются используемые данные.

Пример 2.1. Напишите на листе десять номеров телефонов в виде последовательности десяти чисел и покажите их вашему другу. Он воспримет эти цифры как данные, так как они не предоставляют ему никаких сведений

Затем против каждого номера укажите название фирмы и род деятельности. Для вашего друга непонятные цифры обретут определенность и превратятся из данных в информацию, которую он в дальнейшем мог бы использовать.

Одной из важнейших разновидностей информации является информация экономическая. Ее отличительная черта - связь с процессами управления коллективами людей, организацией. Экономическая информация сопровождает процессы производства, распределения, обмена и потребления материальных благ и услуг. Значительная часть ее связана с общественным производством и может быть названа производственной информацией.

Экономическая информация - совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в производственной и непроизводственной сфере.

При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями .

Для потребителя информации очень важной характеристикой является ее адекватность.

Адекватность информации - это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п.

В реальной жизни вряд ли возможна ситуация, когда вы сможете рассчитывать на полную адекватность информации. Всегда присутствует некоторая степень неопределенности. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений человеком.

Пример 2.2. Вы успешно закончили школу и хотите продолжить образование по экономическому направлению. Поговорив с друзьями, вы узнаете, что подобную подготовку можно получить в разных вузах. В результате таких бесед вы получаете весьма разноречивые сведения, которые не позволяют вам принять решение в пользу того или иного варианта, т.е. полученная информация неадекватна реальному состоянию дел. Для того чтобы получить более достоверные сведения, вы покупаете справочник для поступающих в вузы, из которого получаете исчерпывающую информацию. В этом случае можно говорить, что информация, полученная вами из справочника, адекватно отражает направления обучения в вузах и помогает вам определиться в окончательном выборе.

ФОРМЫ АДЕКВАТНОСТИ ИНФОРМАЦИИ

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.

Семантическая (смысловая) адекватность . Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность . Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

МЕРЫ ИНФОРМАЦИИ

Классификация мер

Для измерения информации вводятся два параметра: количество информации I и объем данных V д.

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Рис. 2.1. Меры информации

Синтаксическая мера информации

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных . в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд);

Примечание. В современных ЭВМ наряду с минимальной единицей измерения данных "бит" широко используется укрупненная единица измерения "байт", равная 8 бит.

в десятичной системе счисления единица измерения -дит (десятичный разряд).

Пример 2.3. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных V д=8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных V д=6 дит.

Количество информации - на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Hb(a).

Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как

Ib(a)=H(a)-Hb(a),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib(a)=H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где Р i - вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi= 1/N , ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N = m n ,

где N -число всевозможных отображаемых состояний;

т - основание системы счисления (разнообразие символов, применяемых в алфавите);

п - число разрядов (символов) в сообщении.

Пример 2.4. Но каналу связи передается n-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N = m n , то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = logN = logm - формула Хартли.

Если в качестве основания логарифма принять т, то I = n . В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = V д , полученных по каналу связи. Для неравновероятных состояний системы всегда I < V д = n .

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информация

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2. Рассмотрим два предельных случая, когда количество семантической информации I c равно 0:

при S p 0 пользователь не воспринимает, не понимает поступающую информацию;

при S p ; пользователь все знает, н поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации. воспринимаемой потребителем, от его тезауруса I c = f (S p )

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Пример 2.5. В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

I n b (g )= П (g / b )- П (g ),

где I n b (g ) -ценность информационного сообщения b для системы управления g,

П(g ) -априорный ожидаемый экономический эффект функционирования системы управления g,

П(g / b ) - ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащаяся в сообщении b.

Для сопоставления введенные меры информации представим в табл.2.1.

Таблица 2.1. Единицы измерения информации и примеры

Мера информации
Единицы измерения

Примеры
(для компьютерной области)

Синтаксическая:

шенноновский подход

компьютерный подход

Степень уменьшения неопределенности

Единицы представления информации

Вероятность события

Бит, байт и т.д.

Семантическая

Тезаурус

Экономические показатели

Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д.

Рентабельность, производительность, коэффициент амортизации и т.д.

Прагматическая

Ценность использования

Емкость памяти, производительность компьютера, скорость передачи данных и т.д.

Время обработки информации и принятия решений

КАЧЕСТВО ИНФОРМАЦИИ

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

  • Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:
  • правильность концепции, на базе которой сформулировано исходное понятие;
  • обоснованность отбора существенных признаков и связей отображаемого явления.
  • Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
  • Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C=Ic/Vд.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Y=I/Vд.

  • Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принята правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
  • Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
  • Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
  • Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
  • Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
  • формальная точность, измеряемая значением единицы младшего разряда числа;
  • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
  • максимальная точность, которую можно получить в конкретных условиях функционирования системы;
  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.

ВВЕРХ

Классификация мер

Меры информации

Формы адекватности информации

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов её представления, надежность и точность преобразования этих кодов и т. п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Прагматические свойства информации проявляются только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели.

Для измерения информации вводятся два параметра: количество информации I и объем данных V. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Объем данных V д в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

  • в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд);
  • в десятичной системе счисления единица измерения - дит (десятичный разряд).


Рис. 2.1. Меры информации

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.


Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию I b (a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала H b (a).

Тогда количество информации I b (a) о системе, полученной в сообщении b, определится как

I b (a) = H(a)-H b (a),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность системы H b (a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации I b (a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна

,

где P i - вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны P i = , ее энтропия определяется соотношением

.

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N - число всевозможных отображаемых состояний;

m - основание системы счисления (разнообразие символов, применяемых в алфавите);

n - число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y=1/V д, причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных в системе). Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.


Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.2.



Рис. 2.2. Зависимость количества семантической информации, воспринимаемой потребителем

Рассмотрим два предельных случая, когда количество семантической информации I c
равно 0:

  • при S p = 0 пользователь не воспринимает, не понимает поступающую информацию;
  • при S p ® ¥ пользователь все знает и поступающая информация ему не нужна.

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему:


При оценке информации различают такие её аспекты, как синтаксический, семантический, прагматический. Синтаксический аспект связан со способом передачи информации вне зависимости от её смысловых и потребительских качеств. На синтаксическом уровне рассматриваются формы её передачи и хранения. Обычно информация, предназначенная для передачи, называется сообщением. Сообщение может быть представлено в виде знаков и символов, преобразованных в электрическую форму и закодированную, т.е. представленную в виде определённой последовательности электрических сигналов, однозначно отображающих передаваемые сообщения. Характеристики процессов преобразования сообщений для передачи определяет синтаксический аспект. При хранении синтаксический аспект определяется другими формами представления информации, которые позволяют наилучшим образом осуществлять поиск, запись, обновления, изменение информации в информационной базе. Информацию, рассмотренную только относительно синтаксического аспекта, часто называют данными . Семантический аспект передаёт смысловое содержание информации и соотносит её с ранее имевшейся информацией. Смысловые связи между словами и другими элементами языка отражает “тезаурус” (словарь). Он состоит из двух частей: списка слов и устойчивых словосочетаний, сгруппированных по смыслу, и некоторого ключа (алфавит), позволяющего расположить слова в определённом порядке. При получении информации тезаурус может быть изменён, и степень этого изменения характеризует количество воспроизводимой информации. Прагматический аспект определяет возможность достижения поставленной цели с учётом получаемой информации. Этот аспект отражает потребительские свойства информации - если информация оказалось ценной, поведение её потребителя меняется в нужном направлении. Прагматический аспект проявляется при наличии единства потребителя и поставленной цели.

Таким образом, информация относительно её возникновения и преобразований проходит 3 этапа, которые определяют её семантический, синтаксический и прагматический аспект. Человек сначала наблюдает некоторые факты окружающей действительности, которые отражаются в виде определённого набора данных в его сознании - здесь проявляется синтаксический аспект . Затем, после структуризации этих данных в соответствии с предметной областью человек формализует знания о структуре объекта - это семантический аспект полученной информации. Информация в виде знаний имеет высокую степень структуризации, что позволяет выделять полную информацию об окружающей действительности и создавать информационные модели исследуемых объектов. Полученные знания человек затем использует в своей практике, то есть для достижения поставленных целей, что отражает прагматический аспект .

Количество и качество информации

Уровни проблем передачи информации

При реализации информационных процессов всегда происходит перенос информации в пространстве и времени от источника информации к приемнику (получателю) с помощью сигналов. Сигнал - физический процесс (явление), несущий сообщение (информацию) о событии или состоянии объекта наблюдения.

Сообщение - форма представления информации в виде совокупности знаков (символов), используемая для передачи.

Сообщение как совокупность знаков с точки зрения семиотики - науки, занимающейся исследованием свойств знаков и знаковых систем, - может изучаться на трех уровнях:

1) синтаксическом, где рассматриваются внутренние свойства сообщений, т. е. отношения между знаками, отражающие структуру данной знаковой системы.

2) семантическом, где анализируются отношения между знаками и обозначаемыми ими предметами, действиями, качествами, т. е. смысловое содержание сообщения, его отношение к источнику информации;

3) прагматическом, где рассматриваются отношения между сообщением и получателем, т. е. потребительское содержание сообщения, его отношение к получателю.

Проблемы синтаксического уровня касаются создания теоретических основ построения информационных систем. На этом уровне рассматривают проблемы доставки получателю сообщений как совокупности знаков, учитывая при этом тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п., полностью абстрагируясь от смыслового содержания сообщений и их целевого предназначения. На этом уровне информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как смысловая сторона при этом не имеет значения.

Проблемы семантического уровня связаны с формализацией и учетом смысла передаваемой информации, определения степени соответствия образа объекта и самого объекта. На данном уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи, формируются понятия и представления, выявляется смысл, содержание информации, осуществляется ее обобщение.



На прагматическом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность ее доставки и использования.

Меры информации

Меры информации синтаксического уровня

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – V Д (объемный подход) и количество информации - I (энтропийный подход).

Объем информации V Д. При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. Если количество информации, содержащейся в сообщении из одного символа, принять за единицу, тообъем информации (данных) V Д в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде n V Д = п дит. Например, четырехразрядное число 2003 имеет объем данных V Д = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit (binary digit) - двоичный разряд). В этом случае сообщение в виде n -разрядного числа имеет объем данных V Д = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V Д = 8 бит.

В современной вычислительной технике наряду с минимальной единицей измерения данных бит широко используется укрупненная единица измерения байт, равная 8 бит. При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения, такие как килобайт (кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт):

1 кбайт = 1024 байт = 2 10 байт;

1 Мбайт = 1024 кбайт = 2 20 байт = 1 048 576 байт;

1 Гбайт = 1024 Мбайт = 2 30 байт = 1 073 741 824 байт; .

1 Тбайт = 1024 Гбайт = 2 40 байт = 1 099 511 627 776 байт.

Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т. д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н, и количество информации равно:

где H apr - априорная энтропия о состоянии исследуемой системы;

H aps - апостериорная энтропия.

Апостериори - происходящее из опыта (испытания, измерения).

Априори - понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае, когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. H aps = 0), количество полученной информации совпадает с первоначальной энтропией

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное множество возможных состояний. Это множество А = {a 1, a 2 , ..., а п } состояний системы в теории информации называют абстрактным алфавитом или алфавитом источника сообщений.

Отдельные состояния а 1 , а 2 ,..., а„ называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний а i .

Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем А, т. е. полной совокупностью состояний с вероятностями их появления, составляющими в сумме единицу:

, причем (2.2)

Введем меру неопределенности выбора состояния источника. Ее можно рассматривать и как меру количества информации, получаемой при полном устранении неопределенности относительно равновероятных состояний источника.

(2.3)

Тогда при N = 1 получаем Н(А) = 0.

Указанная мера была предложена американским ученым Р. Хартли в 1928 г. Основание логарифма в формуле (2.3) не имеет принципиального значения и определяет только масштаб или единицу измерения В зависимости от основания логарифма применяют следующие единицы измерения.

1. Биты - при этом основание логарифма равно 2:

(2.4)

2. Ниты - при этом основание логарифма равно е:

3. Диты - при этом основание логарифма равно 10:

В информатике в качестве меры неопределенности обычно используют формулу (2.4). При этом единица неопределенности называется двоичной единицей, или битом, и представляет собой неопределенность выбора из двух равновероятных событий.

Формулу (2.4) можно получить эмпирически: для снятия неопределенности в ситуации из двух равновероятных событий необходим один опыт и соответственно один бит информации, при неопределенности, состоящей из четырех равновероятных событий, достаточно 2 бит информации, чтобы угадать искомый факт. Для определения карты из колоды, состоящей из 32 карт, достаточно 5 бит информации, т. е достаточно задать пять вопросов с ответами «да» или «нет», чтобы определить искомую карту.

Предложенная мера позволяет решать определенные практические задачи, когда все возможные состояния источника информации имеют одинаковую вероятность.

В общем случае степень неопределенности реализации состояния источника информации зависит не только от числа состояний, но и от вероятностей этих состояний. Если источник информации имеет, например, два возможных состояния с вероятностями 0,99 и 0,01, то неопределенность выбора у него значительно меньше, чем у источника, имеющего два равновероятных состояния, так как в этом случае результат практически предрешен (реализация состояния, вероятность которого равна 0,99).

Американский ученый К. Шеннон обобщил понятие меры неопределенности выбора H на случай, когда H зависит не только от числа состояний, но и от вероятностей этих состояний (вероятностей р i выбора символов а i , алфавита A). Эту меру, представляющую собой неопределенность, приходящуюся в среднем на одно состояние, называют энтропией дискретного источника информации:

(2.5)

Если снова ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум:

(2.6)

При равновероятных выборах вероятность p i =1/N формула (2.6) преобразуется в формулу Р. Хартли (2.3):

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (2.5) совпадает с энтропией физической системы, определенной ранее Больцманом.

Используя формулы (2.4) и (2.6), можно определить избыточность D алфавита источника сообщений А, которая показывает, насколько рационально применяются символы данного алфавита:

где Н max (А) - максимально возможная энтропия, определяемая по формуле (2.4);

Н(А) - энтропия источника, определяемая по формуле (2.6).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема, чем в случае с неравновероятным выбором.