Сжатие файлов: Как это происходит? Презентация на тему "сжатие данных". Сжатие с потерей информации

Конспект урока по информатике и ИКТ

Тип : Урок изучения нового материала

Тема : Архиваторы. Методы сжатия информации.

Цели :

Изучить методы сжатия информации (упаковки и Хаффмана)

Развить алгоритмическое мышление

Воспитание ответственного отношения к выполнению задания.

Метод: Объяснительно-иллюстративный

Ход урока:

Организационный момент (2 мин)

Актуализация знаний. (5 мин)

Объяснение материала и запись в тетрадь. (25 мин)

Первоначальное закрепление материала (10 мин)

Подведение итогов. (3 мин)

Вопросы по актуализации знаний:

Как вы понимаете понятие «сжатие информации»?

Каким образом сжимается цифровая информация?

Какие программы архиваторы вы знаете?

Информация в какой форм требует обязательного сжатия?

Теоретический материал:

В жизни каждого пользователя ПК регулярно возникают ситуации, когда, например, нужно перенести один или несколько файлов на другой компьютер при помощи ограниченного по объему съемного носителя, переслать объемный файл по электронной почте и др. Как правило, возникает проблема разделения большого файла на несколько более мелких файлов с возможностью его дальнейшего воссоздания, групировки большого количества мелких файлов в более крупные, сжатия файлов для уменьшения их размера и т.д. Для решения подобных задач используют архиваторы.

Архиваторы - это программы, позволяющие создавать, за счет специальных методов сжатия, копии файлов меньшего размера и объединять копии нескольких файлов в один архивный файл, а также распаковывать архивы (извлекать файлы из архива).

Существуют различные алгоритмы архивации данных без потери информации, т.е. при разархивации данные будут восстановлены в исходном виде. Для ОС Windows наиболее популярными являются архиваторы WinRAR, WinZIP,WinACE.

Сжатие информации - это процесс преобразования информации, хранящейся в файле, в результате которого уменьшается ее избыточность, соответственно, требуется меньший объем Памяти для хранения.

Сжатие информации в файлах производится за счет устранения избыточности различными способами, например за счет упрощения кодов, исключения из них постоянных битов или представления повторяющихся символов или повторяющейся последовательности символов в виде коэффициента повторения и соответствующих символов. Применяются различные алгоритмы подобного сжатия информации.

Метод упаковки

Входной текс «КОЛ_ОКОЛО_КОЛОКОЛА» содержит всего 5 различных символов (К, О, Л, А, _). Следовательно каждый символ может быть закодирован трем битами. Всего в исходном тесте 18 символов, так что потребуется 18Х3=54бита. Коэффициент сжатия равен 144/54=2,7

Метод Хаффмана.

Слабое место метода упаковки заключается в том, что символы кодируются битовыми последовательностями одинаковой длины. Например, любой текст, состоящий только из букв «А» и «В» , сжимается методом упаковки в восемь раз. Однако если к такому тексту добавить всего лишь одну букву, например «С», то степень сжатиясразу уменьшится вдвое, причем независимо от длины текста и количества добавленных символов «С»

Улучшения степени сжатия можно достичь, кодирую часто встречающиеся символы короткими кодами, а редко встречающиеся – более длинными. Именно такова идея метода, опубликованного Д.Хаффманом в 1952 г.

Алгоритм Хаффмана

Символы входного алфавита образуют список свободных узлов. Каждый узел имеет вес, равный количеству вхождений символа в исходное сообщение.

В списке выбираются два свободных узла с наименьшими весами.

Создается их узел- «родитель» с весом, равным сумме их весов, он соединяется с «детьми» дугами.

Одной дуге, выходящей из «родителя», ставится в соответствие бит 1, другой – бит 0.

«Родитель» добавляется в список свободных узлов, а двое его «детей» удаляются из этого списка.

Шаги, начиная со второго, повторяются до тех пор, пока в списке свободных узлов не останется только один свободный узел. Он и будет считаться корнем дерева.

Задания на закрепления

Упаковать сообщение 2 методами: Архип_осип._Осип_охрип.

Вопросы для подведения итога урока:

Что такое сжатие информации?

Основное назначение программ архиваторов.

Какие методы сжатия сегодня изучили.

Какой метод сжатия наиболее эффективный и почему?

Слайд 2

Для длительного хранения данных на различных носителях информации
Для передачи данных по каналам связи

Слайд 3

Избыточность данных

Большинство данных являются избыточными
Избыточность улучшает восприятие и обработку информации
При хранении избыточность уменьшают
Наибольшая избыточность у видеоинформации, затем идет графическая, звуковая, и самая низкая избыточность у текстовой информации

Слайд 4

Методы сжатия

С частичной потерей информации:Производится при сжатии кода изображения, видео и звукаТакая возможность связана с субъективными возможностями человеческого зрения и слуха.
Без потери информации:- использование неравномерного символьного кода;- выявления повторяющихся фрагментов кода.

Слайд 5

С частичной потерей

На зрение более существенное воздействие оказывает яркость пикселя, нежели его цвет. Поэтому объем видеокода можно сократить за счет того, что коды цвета хранить не для каждого пикселя, а через один, два и т.д. пикселей растра. Чем больше такие пропуски, тем больше сжимаются видеоданные, но при этом ухудшается качество изображения.
При кодировании видеофильмов - динамичного изображения, учитывается свойство инерционности зрения. Быстро меняющиеся фрагменты фильма можно кодировать менее подробно, чем статические кадры.
Труднее всего сжатию поддается звуковой код. Здесь также используются психофизиологические особенности человеческого слуха. Учитывается, к каким гармоникам естественного звука наш слух более восприимчив, а к каким - менее. Слабо воспринимаемые гармоники отфильтровываются путем математической обработки. Сжатию способствует также учет нелинейной зависимости между амплитудой звуковых колебаний и восприятием нашим ухом громкости звучания.

Слайд 6

Применяется для таких типов данных, для которых формальная утрата части содержания не приводит к потере потребительских свойств и обеспечивает высокую степень сжатия.
Примеры:видео MPG, звук MP3, рисунки JPG.

Слайд 7

Без потери – «обратимый»

Применяется к текстам, базам данных, и ко всем остальным вышеназванным типам.
Пример: рисунки – GIF, TIF,PCX, видео - AVI, любой тип данных – ZIP, ARJ, RAR и др.

Слайд 8

Архивы

Архив – файл, содержащий в себе один или несколько файлов в сжатом виде.
Расширение архивного файла зависит от программы-архиватора.
Архиватор – программы для создания и чтения архивов.Пример:WinRar, WinZip, WinArj.

Слайд 9

Архивы применяют с целью

повысить эффективность носителя – на один носитель поместить больший объем информации
создания резервных копий ценных данных, которые в сжатом виде будут храниться на отдельных носителях.
защиты данных от несанкционированного доступа паролем - документы даже не откроются
увеличения скорости копирования данных с диска на диск, например, электронных страниц, содержащие много мелких графических файлов
быстрого восстановления данных, измененных пользователем
передачи информации по каналам связи
раздробления данных на пакеты

Слайд 10

Возможности архиваторов

Просмотр содержимого архива

Контроль целостности данных

Распаковка архива

Восстановление поврежденного архива

Установка защиты

Добавление файла в архив

Создание многотомных архивов

Создание самораспаковывающихся архивов

Блокировка от случайной модификации

Слайд 11

Самораспаковывающийся

(SFX, от англ. SelF-eXtracting) - это архив, к которому присоединен исполнимый модуль. Этот модуль позволяет извлекать файлы простым запуском архива как обычной программы. Таким образом, для извлечения содержимого SFX-архива не требуется дополнительных внешних программ. SFX-архивы удобны в тех случаях, когда вам нужно передать кому-то архив, но при этом вы не уверены, что у адресата есть соответствующий архиватор для его распаковки.

План:

1 Принципы сжатия данных
2 Характеристики алгоритмов сжатия и их применимость
- 2.1 Коэффициент сжатия
- 2.2 Допустимость потерь
- 2.3 Системные требования алгоритмов
3 Алгоритмы сжатия данных неизвестного формата

Введение

Сжатие данных (англ. data compression ) - алгоритмическое преобразование данных, производимое с целью уменьшения их объёма. Применяется для более рационального использования устройств хранения и передачи данных. Синонимы - упаковка данных, компрессия, сжимающее кодирование, кодирование источника. Обратная процедура называется восстановлением данных (распаковкой, декомпрессией).

Сжатие основано на устранении избыточности, содержащейся в исходных данных. Простейшим примером избыточности является повторение в тексте фрагментов (например, слов естественного или машинного языка). Подобная избыточность обычно устраняется заменой повторяющейся последовательности ссылкой на уже закодированный фрагмент с указанием его длины. Другой вид избыточности связан с тем, что некоторые значения в сжимаемых данных встречаются чаще других. Сокращение объёма данных достигается за счёт замены часто встречающихся данных короткими кодовыми словами, а редких - длинными (энтропийное кодирование). Сжатие данных, не обладающих свойством избыточности (например, случайный сигнал или шум, зашифрованные сообщения), принципиально невозможно без потерь.

1. Принципы сжатия данных

В основе любого способа сжатия лежит модель источника данных, или, точнее, модель избыточности. Иными словами, для сжатия данных используются некоторые априорные сведения о том, какого рода данные сжимаются. Не обладая такими сведениями об источнике, невозможно сделать никаких предположений о преобразовании, которое позволило бы уменьшить объём сообщения. Модель избыточности может быть статической, неизменной для всего сжимаемого сообщения, либо строиться или параметризоваться на этапе сжатия (и восстановления). Методы, позволяющие на основе входных данных изменять модель избыточности информации, называются адаптивными. Неадаптивными являются обычно узкоспециализированные алгоритмы, применяемые для работы с данными, обладающими хорошо определёнными и неизменными характеристиками. Подавляющая часть достаточно универсальных алгоритмов являются в той или иной мере адаптивными.

Все методы сжатия данных делятся на два основных класса:

Сжатие без потерь
Сжатие с потерями

При использовании сжатия без потерь возможно полное восстановление исходных данных, сжатие с потерями позволяет восстановить данные с искажениями, обычно несущественными с точки зрения дальнейшего использования восстановленных данных. Сжатие без потерь обычно используется для передачи и хранения текстовых данных, компьютерных программ, реже - для сокращения объёма аудио- и видеоданных, цифровых фотографий и т. п., в случаях, когда искажения недопустимы или нежелательны. Сжатие с потерями, обладающее значительно большей, чем сжатие без потерь, эффективностью, обычно применяется для сокращения объёма аудио- и видеоданных и цифровых фотографий в тех случаях, когда такое сокращение является приоритетным, а полное соответствие исходных и восстановленных данных не требуется.

2. Характеристики алгоритмов сжатия и их применимость

2.1. Коэффициент сжатия

Коэффициент сжатия - основная характеристика алгоритма сжатия. Она определяется как отношение объёма исходных несжатых данных к объёму сжатых, то есть:

k = S o /S c ,

где k - коэффициент сжатия, S o - объём исходных данных, а S c - объём сжатых. Таким образом, чем выше коэффициент сжатия, тем алгоритм эффективнее. Следует отметить:

если k = 1, то алгоритм не производит сжатия, то есть выходное сообщение оказывается по объёму равным входному;
если k < 1, то алгоритм порождает сообщение большего размера, нежели несжатое, то есть, совершает «вредную» работу.

Ситуация с k < 1 вполне возможна при сжатии. Принципиально невозможно получить алгоритм сжатия без потерь, который при любых данных образовывал бы на выходе данные меньшей или равной длины. Обоснование этого факта заключается в том, что поскольку число различных сообщений длиной n бит составляет ровно 2 n , число различных сообщений с длиной меньшей или равной n (при наличии хотя бы одного сообщения меньшей длины) будет меньше 2 n . Это значит, что невозможно однозначно сопоставить все исходные сообщения сжатым: либо некоторые исходные сообщения не будут иметь сжатого представления, либо нескольким исходным сообщениям будет соответствовать одно и то же сжатое, а значит их нельзя отличить.

Коэффициент сжатия может быть как постоянным (некоторые алгоритмы сжатия звука, изображения и т. п., например А-закон, μ-закон, ADPCM, усечённое блочное кодирование), так и переменным. Во втором случае он может быть определён либо для каждого конкретного сообщения, либо оценён по некоторым критериям:

средний (обычно по некоторому тестовому набору данных);
максимальный (случай наилучшего сжатия);
минимальный (случай наихудшего сжатия);

или каким-либо другим. Коэффициент сжатия с потерями при этом сильно зависит от допустимой погрешности сжатия или качества , которое обычно выступает как параметр алгоритма. В общем случае постоянный коэффициент сжатия способны обеспечить только методы сжатия данных с потерями.

2.2. Допустимость потерь

Основным критерием различия между алгоритмами сжатия является описанное выше наличие или отсутствие потерь. В общем случае алгоритмы сжатия без потерь универсальны в том смысле, что их применение безусловно возможно для данных любого типа, в то время как возможность применения сжатия с потерями должна быть обоснована. Для некоторых типов данных искажения не допустимы в принципе. В их числе

символические данные, изменение которых неминуемо приводит к изменению их семантики: программы и их исходные тексты, двоичные массивы и т. п.;
жизненно важные данные, изменения в которых могут привести к критическим ошибкам: например, получаемые с медицинской измерительной аппаратуры или контрольных приборов летательных, космических аппаратов и т. п.;
многократно подвергаемые сжатию и восстановлению промежуточные данные при многоэтапной обработке графических, звуковых и видеоданных.

2.3. Системные требования алгоритмов

Различные алгоритмы могут требовать различного количества ресурсов вычислительной системы, на которых они реализованы:

оперативной памяти (под промежуточные данные);
постоянной памяти (под код программы и константы);
процессорного времени.

В целом, эти требования зависят от сложности и «интеллектуальности» алгоритма. Общая тенденция такова: чем эффективнее и универсальнее алгоритм, тем большие требования к вычислительным ресурсам он предъявляет. Тем не менее, в специфических случаях простые и компактные алгоритмы могут работать не хуже сложных и универсальных. Системные требования определяют их потребительские качества: чем менее требователен алгоритм, тем на более простой, а следовательно, компактной, надёжной и дешёвой системе он может быть реализован.

Так как алгоритмы сжатия и восстановления работают в паре, имеет значение соотношение системных требований к ним. Нередко можно усложнив один алгоритм значительно упростить другой. Таким образом, возможны три варианта:

Алгоритм сжатия требует больших вычислительных ресурсов, нежели алгоритм восстановления. Это наиболее распространённое соотношение, характерное для случаев, когда однократно сжатые данные будут использоваться многократно. В качестве примера можно привести цифровые аудио- и видеопроигрыватели. Алгоритмы сжатия и восстановления требуют приблизительно равных вычислительных ресурсов. Наиболее приемлемый вариант для линий связи, когда сжатие и восстановление происходит однократно на двух её концах (например, в цифровой телефонии). Алгоритм сжатия существенно менее требователен, чем алгоритм восстановления. Такая ситуация характерна для случаев, когда процедура сжатия реализуется простым, часто портативным устройством, для которого объём доступных ресурсов весьма критичен, например, космический аппарат или большая распределённая сеть датчиков. Это могут быть также данные, распаковка которых требуется в очень малом проценте случаев, например запись камер видеонаблюдения.

3. Алгоритмы сжатия данных неизвестного формата

Имеется два основных подхода к сжатию данных неизвестного формата.

На каждом шаге алгоритма сжатия очередной сжимаемый символ либо помещается в выходной буфер сжимающего кодера как есть (со специальным флагом, помечающим, что он не был сжат), либо группа из нескольких сжимаемых символов заменяется ссылкой на совпадающую с ней группу из уже закодированных символов. Поскольку восстановление сжатых таким образом данных выполняется очень быстро, такой подход часто используется для создания самораспаковывающихся программ.
Для каждой сжимаемой последовательности символов однократно либо в каждый момент времени собирается статистика её встречаемости в кодируемых данных. На основе этой статистики вычисляется вероятность значения очередного кодируемого символа (либо последовательности символов). После этого применяется та или иная разновидность энтропийного кодирования, например, арифметическое кодирование или кодирование Хаффмана, для представления часто встречающихся последовательностей короткими кодовыми словами, а редко встречающихся - более длинными.

Литература

Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - Диалог-МИФИ, 2002. - С. 384. - ISBN 5-86404-170-X 3000 экз.
Д. Сэломон. Сжатие данных, изображения и звука. - М .: Техносфера, 2004. - С. 368. - ISBN 5-94836-027-X 3000 экз.

ТЕМА УРОКА. Сжатие и архивирование данных.

ЦЕЛЬ УРОКА:

Учебная : сформировать привычки использования программ- архиваторов; учить сжимать и архивировать данные.

Развивающая: развивать умение использовать полученные знания в разных ситуациях во время работы за компьютером;

Воспитательная : воспитывать интерес к изучению информатики.

Оборудование : компьютеры кабинета с выходом в сеть Интернет, мультимедийный проектор, программное обеспечение, раздаточный материал.

Тип урока : комбинированный.

ХОД УРОКА.

І. Организационный момент.

Проверка наличия и готовности учеников к уроку. Создание положительного настроения для проведения урока.

ІІ. Мотивация учебной деятельности.

Вы, наверно, уже хотите попробовать применить полученные знания на практике. Но для этого нужно вспомнить основные термины и понятия.

ІІІ. Изучение нового материала

Объяснение учителя с элементами демонстрации или самостоятельная работа учеников с источником информации (презентация)

Часто возникает необходимость в уменьшении размеров данных, которые хранятся в памяти компьютера. Для этого используют специальные способы сжатия данных, которые называют алгоритмами (методами) сжатия данных. Сжатие данных используют во время создания файлов определенных типов, например, графических типа TІFF, JPEC, PNG или звуковых типа MPEG 3, WMA, для передачи файлов по сети и т.д.

Различают алгоритмы сжатия, которые обеспечивают сжатие без потери данных, и алгоритмы, которые предусматривают частичную потерю данных.

Самые важные данные дублируют, записывая на другие жесткие диски, оптические диски и т.п. По обыкновению, для удобства использования и уменьшение объемов данных, файлы и папки во время создания резервных копий упаковывают в один файл. Такие копии данных называют архивами, а файлы, в которые они упаковываются, - архивными файлами, или упрощенно - архивами.

Для создания резервных копий файлов нужно:

1. Открыть окно настройки архивирования и восстановления файлов (Пуск  Панель управления  Система и безопасность  Резервное копирование и восстановление).

3. Указать устройство, на которое будет записан архивный файл.

4. Указать перечень папок с файлами, которые будут включены в резервной копии.

5. Изменить, при необходимости, расписание осуществления автоматического резервного копирования.

Начать процесс создания архива данных пользователя выбором кнопки Сохранить настройки и запустить резервное копирование.

Кроме средств операционной системы, существуют другие служебные программы, которые обеспечивают архивирование данных.

К основным операциям над архивами принадлежат:

Создание архивов файлов и папок с возможным сжатием данных;

Добавление файлов и папок к уже существующим архивам и замена у них уже включенных объектов;

Просмотр содержимого архивов;

Замещение и обновление файлов и папок в архивах;

Добыча из архива всех или только избранных файлов и папок;

Создание многотомных архивов (архив разбивается на несколько отдельных файлов - томов); размер томов устанавливает пользователь;

ІV. Физкультминутка

Проведение комплекса упражнений для снятия мышечного напряжения

V. Рефлексия.

VІ. Практическая работа

Техника безопасности и правила поведения в компьютерном кабинете.

VІІ. Обобщение знаний и умений

Фронтальный опрос

1. Для чего используется сжатие данных?

2. В каких случаях возможно использование сжатие с частичной потерей данных?

3. Для чего используется архивирование данных?

4. Что такое архивирование и что такое сжатие файлов?

5. Как называют программы, которые выполняют архивирование данных?

VІІІ. Подведение итогов урока

ІX. Домашнее задание

Обработать соответствующий параграф учебника, конспект урока.