Кількісні та якісні характеристики інформації

У процесі відображення між станами взаємодіючих об'єктів виникає певний зв'язок. Інформація як результат відображення одного об'єкта іншим виявляє ступінь відповідності їх станів, а тому важливими виявляються саме кількісні характеристики інформації. Деяка кількість інформації можна розглядати з трьох основних точок зору:

  • • з поведінкової точки зору створення порції інформації здійснюється за певних причин, а отримання цієї інформації може привести до деякого результату (що спостерігається дії або розумової операції);
  • • з математико-лінгвістичної точки зору порція інформації може бути описана шляхом співвіднесення її з іншою інформацією, вказівки її сенсу і структури;
  • • з фізико-технічної точки зору розглядаються фізичні аспекти прояви інформації - її матеріальний носій, роздільна здатність і точність, з якими вона фіксується, кількість інформації, яке проводиться, передається або приймається і т.д.

Можливий ряд підходів до оцінки якості інформації. Найбільш істотними з них є статистичний, семантичний і прагматичний. Найбільший розвиток отримав перший підхід.

Статистичний підхід представлений у великому розділі кібернетики - теорії інформації, яка займається математичним описом і оцінкою методів передачі, зберігання, вилучення та класифікації інформації. Теорія інформації в математичній основі використовує методи теорії ймовірності, математичної статистики, лінійної алгебри та ін. В статистичної теорії основна увага звертається на розподіл ймовірності появи окремих подій і побудова на його основі узагальнених характеристик, що дозволяють оцінити кількість інформації в одну подію або в їх сукупності. Кількісною мірою інформації стала ентропія. Щоб виник процес передачі, повинні мати місце джерело інформації і споживач. Джерело видає повідомлення, споживач, приймаючи повідомлення, приймає при цьому інформацію про стан джерела. У статистичної теорії, як зазначалося вище, не вивчають зміст інформації. Передбачається, що до отримання інформації мала місце деяка невизначеність. З отриманням інформації ця невизначеність знімається. Таким чином, статистична кількісна характеристика інформації - це міра, що знімається в процесі отримання інформації невизначеності системи. Природно, що кількість інформації залежить від закону розподілу станів системи.

Семантичний підхід базується на смисловому змісті інформації. Термін "семантика" історично застосовувався в металогіку і семіотики. Б металогіку під семантикою розуміють вивчення зв'язків між знакосочетаній, що входять до складу будь-якого формалізованого мови, і їх інтерпретаціями (тлумаченнями) в термінах тієї системи понять і уявлень, формалізацією якої служить дана мова. У більш вузькому сенсі під семантикою розуміють сукупність правил відповідності між формальними виразами і їх інтерпретацією. Під семіотика розуміють комплекс наукових теорій, які вивчають властивості знакових систем, тобто систем конкретних або абстрактних об'єктів, з кожним з яких зіставлено деяке значення. Прикладами знакових систем є природні мови, а також штучні мови, такі як алгоритмічні мови, мови програмування, інформаційні мови і ін.

Прагматичний підхід до інформації базується на аналізі її цінності, з точки зору споживача. Наприклад, інформація, що має безперечну цінність для біолога, матиме цінність, близьку до Кульова, для програміста. Цінність інформації пов'язують з часом, оскільки з плином часу вона старіє і цінність її, а, отже, і "кількість" зменшується. Таким чином, прагматичний підхід оцінює змістовний аспект інформації. Він має особливе значення при використанні інформації для управління, оскільки її кількість тісно пов'язане з ефективністю управління в системі.

Різні підходи до оцінки кількості інформації змушують, з одного боку, використовувати різнотипні одиниці інформації для характеристики різних інформаційних процесів, а з іншого боку - пов'язувати ці одиниці між собою як на логічному, так і на фізичному рівнях. Наприклад, процес передачі інформації, яка вимірюється в одних одиницях, сполучається з процесом храпения, коли вона вимірюється в інших одиницях, і т.д., а тому вибір одиниці інформації є вельми актуальним завданням.

Розглянемо статистичну міру кількості інформації, що отримала найбільше застосування в процесі передачі повідомлень.

Щоб виник процес передачі, повинні існувати джерело інформації і споживач. Джерело видає повідомлення, споживач, приймаючи повідомлення, отримує при цьому інформацію про стан джерела. У статистичної теорії, як зазначалося вище, не вивчається зміст інформації. Передбачається, що до отримання інформації мала місце деяка невизначеність. З отриманням інформації ця невизначеність знімається. Таким чином, статистична кількісна характеристика інформації - це міра, на основі якої в процесі отримання інформації знімається невизначеність системи. Природно, що кількість інформації залежить від закону розподілу станів системи.

Введемо кількісну міру інформації для найпростішого варіанту передачі рівно можливих повідомлень. Нехай джерело формує М повідомлень, кожне з яких передається ненадлишковим кодом довжиною п. Визначимо число відомостей / в деякому повідомленні, вважаючи, що воно лінійно залежить від довжини коду, тобто , де до - коефіцієнт пропорційності. Будемо вважати що виконуються наступні умови: здійснюється передача дискретних повідомлень; повідомлення є рівноімовірними і взаімонезавісімие; символи, що видаються джерелом, взаємонезалежні; система числення (основа коду) До конечна. Тоді число переданих повідомлень становить . З огляду на, що , отримуємо , , ,

Звідси

де .

За одиницю кількості інформації приймемо число відомостей, які передаються двома рівноімовірними повідомленнями. Назвемо цю одиницю двійковій одиницею інформації. Тоді для , отримаємо . Звідси і, отже, кількість інформації в повідомленні складе .

Ця формула отримала назву формули Хартлі. З неї випливає, що для рівноймовірно дискретних повідомлень кількість інформації залежить лише від числа переданих повідомлень.

Якщо повідомлення відображаються ненадлишковим кодом, то, підставляючи , отримаємо .

Видно, що число двійкових одиниць інформації, що містяться в одному повідомленні, прямо пропорційно довжині коду п і зростає зі збільшенням його заснування. Якщо підстава коду К = 2, то кількість інформації, що міститься в будь-якому повідомленні, переданому ненадлишковим кодом, складе двійкових одиниць або біт. Звідси видно, що якщо довжина повідомлення дорівнює п, то повідомлення містить п біт інформації, тобто один елемент коду несе одну двійкову одиницю інформації. Інформація, що міститься в повідомленні, складається з інформації, яку несе кожен елемент коду, тому міра інформації є адитивною.

Адитивність статистичної заходи інформації дозволяє визначити її кількість і в більш загальному випадку, коли передаються дискретні повідомлення є нерівно ймовірними. Можна припустити, що кількість інформації, що міститься в конкретному дискретно повідомленні, функціонально залежить від імовірності вибору цього повідомлення. Тоді для повідомлення виникає з імовірністю , кількість інформації може бути описано у вигляді . Нехай слідом за повідомленням з джерела формується повідомлення . Імовірність послідовного виникнення цих повідомлень позначимо . Кількість інформації, яка міститиметься в цих повідомленнях, оцінимо як . З огляду на адитивний характер прийнятої вище статистичної заходи інформації, будемо вважати, що кількість інформації, укладену в послідовності повідомлень , дорівнює сумі кількостей інформації, що містяться в кожному з обраних повідомлень. тоді

де - ймовірність виникнення повідомлення за умови появи перед ним повідомлення .

Відповідно ймовірність виникнення послідовності повідомлень складе • Звідси

Диференціюючи по змінної , отримаємо

Помножимо ліву і праву частини рівняння на ймовірність , тоді

З огляду на, що ймовірність знаходиться в межах від 0 до 5, бачимо, що частини рівняння повинні представляти собою постійну величину, тобто , де до - постійна величина. Звідси . Кількість інформації в j -му повідомленні складе

де з - постійна інтегрування. Для визначення з розглянемо окремий випадок, коли має місце передача лише одного j -го повідомлення, тобто . Підставляючи в наведене рівняння, знаходимо, що з = 0, а звідси

Для визначення постійної до виберемо систему одиниць. Природним вимогою є те, що кількість інформації має бути позитивною величиною, тоді, приймаючи , отримуємо

Тоді як одиниця інформації можна прийняти натуральну одиницю. Кількість інформації в одну натуральну одиницю (1 нат) одно інформації, яка передається в одному повідомленні з ймовірністю появи . Як зазначалося вище, в статистичної теорії отримала застосування біт, що відповідає коефіцієнту . Тоді кількість інформації для неравновероятних повідомлень складе

При необхідності кількість інформації в випадково обраному повідомленні неважко пов'язати з інформативністю символів коду повідомлення. Якщо процес утворення символів описується ланцюгом Маркова і символи можуть приймати До значень, то знайти ймовірність виникнення повідомлення можна як твір ймовірностей виникнення символів його коду. Якщо вони вибираються незалежно і символ типу j зустрічається раз, то ймовірність виникнення повідомлення складе

де - ймовірність виникнення символу типу j .

При великій довжині коду п можна вважати, що , а так як вище встановлено, що кількість повідомлення становить , то, підставляючи отримані вище значення ймовірності , знайдемо кількість інформації у вигляді

Видно, що кількість інформації прямо пропорційно довжині коду п і інформативності окремо взятого символу. Відзначимо, що максимально можлива кількість інформації, тобто максимум записаного вище вираження, виходить, якщо символи рівноймовірно. Тоді для безлічі символів оптимальне рівномірний розподіл відповідає .. У цьому випадку отримаємо, що . Для двійкового коду , що відповідає кількості інформації для ненадлишкових коду при рівноймовірно повідомленнях. Запроваджена кількісна статистична міра інформації широко використовується в теорії інформації для оцінки кількості власної, умовної, взаємної та інших видів інформації. Розглянемо це на прикладі власної інформації.

Під цим будемо розуміти інформацію, яка міститься в даному конкретному повідомленні. Відповідно до цього визначення кількість власної інформації в повідомленні x 0j визначається як . Кількість власної інформації вимірюється числом біт інформації, що містяться в повідомленні x 0j. Для неї можуть бути сформульовані наступні властивості:

  • 1. Власна інформація неотрицательна. Чим менша ймовірність виникнення повідомлення, тим більше кількість інформації, що міститься в ньому. Якщо повідомлення має ймовірність виникнення, рівну одиниці, то одержувана з ним інформація дорівнює нулю, так як заздалегідь відомо, що може прийти тільки це повідомлення, і виявлення даного повідомлення не несе споживачеві ніякої інформації.
  • 2. Власна інформація має властивість адитивності. Для доказу цього розглянемо ансамбль з безлічі повідомлень . Знайдемо кількість власної інформації для пари повідомлень :

Якщо повідомлення статистично незалежні, то . Кількість інформації в двох повідомленнях складе

Таким чином, кількість власної інформації в двох незалежних повідомленнях дорівнює сумі власних повідомлень. Відзначимо, що вона характеризує повідомлення, яке виникає випадковим чином з джерела, а тому є випадковою величиною і залежить від номера вибраного повідомлення.

Розглянемо поняття і властивості ентропії дискретних систем. Математичне сподівання випадкової величини власної інформації називається ентропією . Ентропія розраховується на безлічі (магістр, спеціаліст) повідомлень або на безлічі символів і фізично визначає середня кількість власної інформації, яка міститься в елементах безлічі (або повідомлень, або символів). Для джерела повідомлень випадкова величина власної інформації приймає значення з імовірностями відповідно.

Середня кількість (математичне очікування) власної інформації, що міститься в ансамблі повідомлень X 0, тобто ентропія цього ансамблю, складе

де - безліч повідомлень в ансамблі . Змістовно ентропія показує кількість двійкових одиниць інформації, яка міститься в будь-якому повідомленні з безлічі .

Слід зазначити, що поняття ентропії історично використовувалося для оцінки міри невизначеності стану будь-якої системи. Чим більше ентропія системи, тим більше невизначеність її стану і тим більшу інформацію отримуємо, коли ця невизначеність знімається. Ентропія як кількісна міра інформації має такі властивості [48]:

  • 1. Функція ентропії є безперервною щодо ймовірності виникнення подій і для дискретних подій має найбільше значення при рівній імовірності їхнього появи. Якщо можлива поява лише одного події, то апріорної невизначеності немає, тому кількість інформації і ентропія дорівнюють нулю;
  • 2. При рівноймовірно події функція ентропії зростає зі збільшенням числа подій в ансамблі, а тому для підвищення інформативності символів необхідно збільшувати підставу системи числення використовуваного коду;
  • 3. Функція ентропії не залежить від шляху вибору подій. Це властивість випливає з адитивності статичної заходи інформації і, як наслідок, адитивності функції ентропії;

Тепер перейдемо до понять "ентропія джерела" і "ентропія повідомлення". При кодуванні важливо забезпечити вибір коду, який оптимально узгоджується з джерелом. Це узгодження можливо за критерієм ентропії джерела. Під ентропією джерела зазвичай розуміють кількість інформації, яка в середньому міститься в одному символі коду. Якщо код має підставу системи числення К, то ентропія джерела, тобто середня кількість інформації, що міститься в символі коду, складе

Змістовно ентропія джерела показує, скільки двійкових одиниць інформації переноситься в середньому в одному символі коду. Для підвищення інформативності джерела необхідно прагнути до равновероятности символів. В цьому випадку для ненадлишкових коду в одному символі передається біт. З введенням надмірності інформативність символу зменшується, але з'являються можливості, пов'язані з виявленням та виправленням помилок, що забезпечує необхідну стійкість передачі повідомлень. Середня кількість інформації, що міститься в повідомленні, називається ентропією повідомлення і визначається у вигляді

Видно, що ентропія повідомлення являє собою математичне очікування власної інформації, що міститься в ансамблі повідомлень Х 0. Таким чином, ентропія є універсальною статистичної характеристикою, що дозволяє оцінити кількість інформації, яка міститься в будь-якому ансамблі дискретних подій.

Поняття ентропії може бути застосовано і до безперервним подій. У системах обробки інформації та управління значна частка інформації має безперервний характер і виражається у вигляді безперервної функції від часу. В цьому випадку виникає задача передачі безперервної інформації у вигляді безперервних повідомлень по каналах зв'язку. Безпосередня передача безперервних повідомлень без перетворення можлива лише на незначні відстані. Зі збільшенням відстаней здійснюють операцію дискретизації інформації. Для цього вводять квантування за часом і за рівнем. Безперервна функція передається у вигляді сукупності миттєвих або квантових відліків, обраних з різними інтервалами за часом. Оцінимо кількість інформації, яка міститься в одному відліку безперервної функції, і знайдемо загальний вираз для ентропії безперервних подій.

Нехай має місце безперервна інформація, представлена у вигляді безперервної функції з відомою щільністю розподілу ймовірностей амплітудних значень . Розіб'ємо область значень на До рівнів з інтервалом квантування , тоді отримаємо рівні . При досягненні функцією деякого рівня і передачі цього рівня по каналу зв'язку кількість переданої інформації може бути визначено за допомогою функції ентропії , якщо відома ймовірність виникнення відліку . Для знаходження ймовірності побудуємо щільність розподілу і відзначимо відліки функцій

, (Рис. 1.3). імовірність відображена

заштрихованої на рис. 1.3 площею під кривою . Для спрощення розрахунків замінимо цю площу інший площею еквівалентного прямокутника з основою і висотою , тоді ймовірність • Звідси кількість власної інформації, що міститься у відліку , складе

Залежність щільності розподілу ймовірностей W (х) від рівня амплітуди х

Мал. 1.3. Залежність щільності розподілу ймовірностей W (х) від рівня амплітуди х

Ентропія відліку визначає кількість інформації, яка передається відліком функції . Зі зменшенням кроку дискретизації , тобто при , можна знайти , тобто попереднє значення

З огляду на, що початкова функція неперервна і може змінюватися в необмежених межах, знайдемо ентропію безперервного повідомлення як суму ентропій відліків у вигляді

Другий доданок містить член , який не розраховується, так як зі зменшенням він може стати нескінченно великою величиною. Зазвичай визначають так звану диференціальну або наведену ентропію у вигляді

Таким чином, поняття ентропії може бути застосовано і для оцінки середнього кількості інформації, яка міститься в безперервному повідомленні. Однак користуватися виразом ентропії для безперервних повідомлень слід вкрай обережно, з огляду на невизначеність другого доданка вираження, особливо при малих значеннях кроку квантування .

В цілому по відношенню до ентропії безперервного повідомлення можна зробити наступні висновки:

  • 1. Диференціальна ентропія визначається статистикою відліків безперервної функції. Можна показати, що при постійній дисперсії відліків найбільшу кількість інформації відповідає безперервним повідомленнями, відліки яких розподіляються по нормальному закону;
  • 2. Ентропія залежить від амплітуди вихідної неперервної функції х і кроку її квантування . На практиці реалізують системи з рівномірним і нерівномірним кроком квантування, з передачею відхилення функції від математичного очікування і ін.

Це дозволяє в конкретних умовах підвищити швидкість передачі інформації в безперервному каналі.

Таким чином, статистична теорія дозволяє дати плідні оцінки кількості інформації для такого важливого етапу інформаційного процесу в системі, як передача. Закладені ще К. Шенноном принципи кількісної оцінки на основі функції ентропії зберігають свою значущість до теперішнього часу і є корисними при визначенні інформативності символів і повідомлень і при оцінці оптимальності побудови коду на основі критеріїв надмірності.

У сучасних системах обробки інформації та управління істотне місце займає підготовка інформації для прийняття рішення і сам процес прийняття рішення в системі. Тут істотну допомогу може надати семантична теорія, що дозволяє зрозуміти сенс і зміст інформації, яка виражається природною мовою. Зі збільшенням обсягу і складності виробництва кількість інформації, необхідне для прийняття безпомилкового рішення, безперервно зростає. У цих умовах необхідно здійснювати відбір інформації за деякими критеріями, тобто надавати керівнику або особі, що приймає рішення, своєчасну та корисну інформацію. З урахуванням помилок, які можуть виникати в інформації в зв'язку з діями оператора, відмовами технічних засобів в ін., Надмірність допускається лише як засіб боротьби з помилками. У цьому сенсі можна вважати, що надмірність сприяє збереженню цінності інформації, забезпечуючи необхідну вірність. В рамках семантичного підходу цінність інформації можна задати через функцію втрат. Якщо в процесі підготовки інформації вихідна величина х відображається через величину у, то мінімум втрат можна встановити як

де - розподіл вхідної величини х; - втрати при перетворенні вхідної величини х в величину у.

Звідси цінність інформації визначається як

де - математичне очікування втрат при відхиленні від вхідної величини х до величини у.

Слід зазначити, що дана інтерпретація цінності має суто технічний характер. Конструктивним виходом з неї є таке розбиття вхідної величини х, при якому вдається максимізувати цінність. У загальному випадку цінність інформації, що надходить від матеріального об'єкта, є функцією часу. Аналіз інформації, використовуваної для прийняття рішення в реальних системах, дозволив визначити функції цінності. Ці функції задають граничні часові інтервали, протягом яких має сенс використовувати дану інформацію. При прийнятті рішення зазвичай використовується інформація не тільки про матеріальне об'єкті, але і про умовні розподіли критеріальних оцінок наслідків різних альтернативних рішень. У цьому випадку різко зменшується число бажаних альтернатив і вдається прийняти рішення, базуючись на якісно неповної інформації. У ряді практичних випадків рішення приймається з використанням суб'єктивних критеріїв, при цьому доводиться застосовувати великий обсяг інформації, посилювати вимоги до узгодженості і несуперечливості вихідної інформації. Принцип прийняття рішень за своєю методологією вимагає збереження змісту якісних понять на всіх етапах використання інформації при загальній оцінці альтернативних рішень. Крім того, виключається складна інформація, при роботі з якою особа, яка приймає рішення, має мати справу з громіздкими завданнями. Використовують замкнуті процедури виявлення переваг, тобто процедури, в яких є можливість перевірити перевагу на несуперечливість і транзитивність. Можна відзначити, що семантична теорія вимагає подальшої серйозної проробки, проте вже зараз при прийнятті рішень існує ряд методів, що дозволяють оцінювати смисловий зміст інформації.

Перетворення інформації в ресурс

Забезпечення будь-якого виду діяльності складають фінанси, матеріальні ресурси, штати і інформаційні ресурси.

Якщо перші три види ресурсів можна розглядати відокремлено, то інформаційні ресурси тісно взаємопов'язані з кожним з них і за рівнем ієрархії стоять вище, так як використовуються при управлінні іншими.

Інформацію як вид ресурсу можна створювати, передавати, шукати, приймати, копіювати (в тій чи іншій формі), обробляти, руйнувати. Інформаційні образи можуть створюватися в найрізноманітніших формах: у формі світлових, звукових або радіохвиль, електричного струму або напруги, магнітних полів, знаків на паперових носіях. Важливість інформації як економічної категорії становить одну з найголовніших характеристик постіндустріальної епохи.

Інформаційний ресурс - концентрація наявних фактів, документів, даних і знань, що відображають реальне змінюється в часі стан суспільства, і використовуваних при підготовці кадрів, у наукових дослідженнях і матеріальному виробництві 114, 37 |.

Факти - результат спостереження за станом предметної області.

Документи - частина інформації, певним чином структурована і занесена на паперовий носій.

Дані - вид інформації, що відрізняється високим ступенем форматування на відміну від більш вільних структур, характерних для мовної, текстової та візуальної інформації.

Знання - підсумок теоретичної та практичної діяльності людини, що відображає накопичення попереднього досвіду і відрізняється високим ступенем структурованості.

Можна виділити три основні види знань:

  • • декларативні (факторальние), що представляють загальний опис об'єкта, що не дозволяє використовувати їх без попередньої структуризації в конкретній предметній області;
  • • понятійні (системні), що містять крім перших, взаємозв'язку між поняттями і властивості понять;
  • • процедурні (алгоритмічні), що дозволяють отримати алгоритм рішення.
 
< Попер   ЗМІСТ   Наст >