Как архиваторы сжимают данные?

Основные алгоритмы, задействованные в архиваторах:

  • Словарный метод – базовый алгоритм, применяется практически во всех утилитах. Он позволяет вычленить последовательные данные и заменить их на условный код из словаря программы.
  • Кодирование длин серий – простой дополнительный метод. Заменяет последовательную серию одинаковых данных на два символа – элемент и количество повторений.
  • Энтропийный способ – распространенный вспомогательный алгоритм, который позволяет вычленить информацию, встречающуюся чаще. При этом, наиболее часто встречающиеся элементы трансформируются в короткий код, более редкие – в длинный.
  • Контекстное моделирование – «медленный» по скорости, но эффективный по уровню компрессии алгоритм. В его основе лежит принцип построения модели исходной информации, наиболее вероятные совпадения кодируются энтропийным методом.
  • Предсказание по совпадению – подвид контекстного моделирования, при котором осуществляется «предугадывание» данных с учетом предыдущего блока информации, особо эффективен при упаковке текстовых файлов.
  • Метод сортировки блоков – способ, часто применяемый для быстрого сжатия данных. При его использовании информация разбивается на части и сортируется.

В современных утилитах-архиваторах применяется несколько методов упаковки информации одновременно. Разработчики каждой программы стремятся усовершенствовать каждый из них, от этого и зависит размер конечного файла и скорость обработки данных.

Прежде чем задаваться вопросом почему архиватор плохо сжимает, следует знать, что разные форматы файлов подвержены разной степени компрессии. Например, документы в формате PDF сжимаются при сохранении, а привычные нам «вордовские» файлы DOC/DOCX практически не упаковываются, поэтому они подвержены сжатию в несколько раз. Самыми «проблемными» для архиваторов являются мультимедийные файлы, аудиодорожки и видеозаписи. В большинстве случаев в них задействуется кодек, который и так снижает размер данных.
Опытным путем удалось выяснить, на сколько процентов сжимает файлы один из самых популярных архиваторов WinRAR при выборе максимального метода компрессии.

Формат файла Сжатия до уровня от начального размера, %
DOC/DOCX 20-30
XLS/XLSX 50-80
TXT 70-90
BMP 20-90
JPG/PNG 50-99
MP4, MKV, AVI 90-99
WAV 20-40
MP3 95-99

Благодаря этой таблице можно приблизительно определить какие файлы и как сжимает архиватор Винрар и использовать его в случае необходимости. Чем меньше значение, тем более компактным получился файлы «на выходе». Таблица является условной, ведь если в том же документе DOC содержатся графические изображения, офисная программа изначально сохраняет картинки в сжатом формате. Поэтому уровень компрессии будет меньше, чем при сплошном тексте.
Также нужно отметить, что программу для упаковки файлов очень удобно использовать при обмене информацией. Например, если вы хотите отправить письмо по электронной почте, то вы можете не вкладывать в него несколько вложений, а упаковать все файлы в один архив и отправить один сжатый объект. Тем более, что после установки того же WinRAR в контекстном меню появляется отдельная команда для сжатия информации и формирования письма с вложенным архивом.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Загрузка...

Отзывы пользователей

Отзывов пока нет. Будь первым!

Добавить отзыв

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Наверх