Компьютердин ар кандай файлы байттан турат. Байт 0 ден 255ке чейинки маанини кабыл ала алат. Маалыматтык энтропия - бул файлдагы айрым байттардын пайда болуу ыктымалдуулугун көрсөткөн статистикалык параметр.
Гистограмманы колдонуп, энтропиянын даражасын визуалдык түрдө бааласаңыз болот - файлдагы бир эле байтты кайталоо ыктымалдыгы. Файлдын энтропиясынан, анын гистограммасын гана көрүп, биздин алдыбызда кандай файл түрү бар экендигин болжолдой алабыз.
Көрсөтүү үчүн, ар кандай типтеги үч файлды алып, алардын гистограммаларын салыштырып көрөлү. Биринчиси текст файлы болсун (*. TXT). Анын гистограммасы сүрөттө көрсөтүлгөн:
Тексттик файлда тек гана текст бар. Тексттин ар бир тамгасы коддоо таблицасына ылайык белгилүү бир байт менен коддолгон. Коддоо түрлөрү көп болгону менен, ариптик-сандык белгилердин чектелген саны бар экендиги айдан ачык, ал адатта 255тен ашпайт. Демек, биринчи гистограммада айрым аймактар гана ээлейт, ал эми кээ бир байттар таптакыр жок.
Төмөнкү файл PDF форматында болот:
Бул файл мүмкүн болгон бардык байттарды камтыйт, анткени PDF тексттик файлдардан башкача коддолгон. Анда көптөгөн тейлөө маалыматтары сакталат: форматтоо, ариптер, сүрөттөр ж.б. Бирок анын гистограммасы көрсөткөндөй, байттардын бир бөлүгү болжол менен бирдей ыктымалдуулукта, ал эми башкалары башкаларга караганда көбүрөөк кездешет. Демек, гистограммадагы бир нече ирет кескин жаруулар болуп, жалпысынан алганда, ал бардык кеңдикти ээлесе дагы, бир кыйла "жыртык" көрүнүшкө ээ.
Ал эми акыркы файл 7Z форматында камтылган:
Бул гистограмманын эки негизги өзгөчөлүгү бар: биринчиден, бардык байттар кыскартылган файлда аздыр-көптүр бирдей ыктымалдуулукта табылат (кыйла тегиз жогорку чети), экинчиден, гистограмманын үстүндө бош орун жок, бул дээрлик толугу менен жоктугун билдирет ашыкча мындай файл. Демек, архиватордун алгоритми файлдын байттарын максималдуу бирдей бөлүштүрүүгө жетишүү үчүн аларды кандайдыр бир өзгөчө жол менен "аралаштырат" деп жыйынтык чыгарсак болот.
Ошентип, информатикада энтропия, физикада болгондой, тутумдун бузулушунун чарасы, бул учурда файлдагы байттарды бөлүштүрүүнүн бузулушу. Энтропия файлдын кысылуу деңгээлин жана кыйыр түрдө - анын түрү жөнүндө баа берүүгө мүмкүндүк берет.