У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент


що операція масштабування призводить одержані від моделі різні символи до одного цілого числа, яке входить в [low; high]. В такому випадку подальше кодування продовжувати неможливо. Тому кодувальник повинен слідкувати за тим, щоб інтервал [low; high] завжди був досить широким. Найпростішим засобом для цього є забезпечення ширини інтервалу не меншей Max_frequency – максимального значення суми всіх накопичуваних частот.

Проблема від’ємного переповнення розглядається тільки відносно кодувальника, тому що при декодуванні кожного символу процес крокує за операцієй кодування, і від’мне переповнення не виникне, якщо виконується таке саме масштабування з тими ж самими умовами.

7.2 Переповнення.

Тепер розглянемо можливість переповнення при цілочисленому множенні. Переповнення не виникне, якщо добуток range*Max_frequency вміщується в ціле слово, бо накопичені частоти не можуть перевищувати Max_frequency. Range має найбільше значення в Top_Value + 1, тому максимально можливий добуток є 2^16*(2^14 – 1), яке менше 2^30. Для визначення code_value та range використаний тип long, щоб забезпечити 32-х бітову точність арифметичних обчислень.

7.3 Завершення кодування.

При завершені процесу кодування необхідно послати унікальний термінальний символ (EOF-символ), а потім послати достатню кількістьбітів для гарантії того, що закодований рядок потрапить в підсумковий робочий інтервал. Через те, що процедура done_encoding() може бути “впевнена”, що low i high обмежені або так, що:

low < First_qtr < Half high, або

low < Half < Third_qtr high,

то значенню треба передати 01 або 10 відповідно, для видалення невизначеності, яка залишилась. Таким чином EOF унікально визначається останніми переданими бітами.

8. Моделі для арифметичного кодування.

Програма повинна працювати з моделлю, яка являє собою пару перекодуючих таблиць index_to_char [] i char_to_index [], і масив накопичених частот cum_freq []. До останнього масиву висуваються такі вимоги:

сum_freq [i – 1] cum_freq [i]; Ніколи не робиться спроба кодувати символ і, для якого сum_freq [i – 1] = cum_freq [i]; сum_freq [0] Max_frequency.

Якщо ці умови виконуються, значення в масиві не повинні мати зв’язку з дійснтми значеннями накопичених частот символів тексту. І декодування, і кодування будуть працювати коректно, при чому останньому буде треба менше місця, якщо частоти точні.(Згадаємо успішне кодування “еаіі!” у відповідності до моделі з таблиці 1, як, взагалі, не відображає справжньої частоти в тексті).

8.1 Фіксовані моделі.

Найпростішою моделлю є така модель, в якій частоти символів постійні. Модель з таблиці 1 задає постійні частоти символів для алфавіту {a, e, i, u, o, !}. Для стиску англійських текстів можна використати частоти з частини Свода Брауна. Процедура ініціалізації start_model () просто підраховує накопичену версію цих частот, спочатку ініціалізувавши таблиці перекодування. Швидкість виконання процесу кодування та декодування можна прискорити, якщо ці таблиці перевпорядкувати так, щоб найвживаніші символи розміщувалися на початку масиву cum_freq []. Через те, що модель є постійною, процедура update_model () буде просто пустою.

Строгою моделлю є така модель, в якій частоти символів тексту точно відповідають специфікації моделі. Наприклад, фіксована модель з програми близька до строгої моделі для деякого фрагмента з Свода Брауна, звідки її було взяти. Однак, для того, щоб бути істино строгою, її символи в цьому фрагменті, які не з’являються, повинні мати лічильники, що дорівнюють 0, а не 1 (і при цьому “жертвувати” можливостями вхідних текстів, які містять ці символи). Крім того, лічильники не повинні масштабуватися до заданої накопиченої частоти, як це зроблено в програмі. Взагалі, строга модель повинна бути вирахована й передана перед пересиланням власне тексту. Клірі і Уітнен показали, що при загальних умовах це не дасть загального покращення стиску порівняно з описаним нижче адаптивним кодуванням.

8.2 Адаптивна модель.

Вона змінює частоти вже знайдених в тексті символів. Спочатку всі лічильники можуть бути рівними, що відображує відсутність початкових даних, але при перегляді кожного вхідного символу вони змінюються, наближуючись до спостережуваних частот. І кодувальник, і декодувальник використовують однакові початкові значення (наприклад, рівні лічильники) і один і той самий алгоритм оновлення, що дозволить їх моделям завжди залишатися на одному рівні. Кодувальник отримує наступний символ, кодує його та змінює модель. Декодувальник з’ясовує наступний символ на основі своєї поточної моделі, а потім оновлює її.

Програма демонструє таку адаптивну модель, що рекомендується для використання при стиску та відновленні, оскільки на практиці вона є кращою ніж фіксована модель за ефективністю стиску. Ініціалізація проводиться таким саме чином, як для фіксованої моделі, за виключенням того, що всі частоти встановлюються в нулі. Процедура update_model (symbol), викликається з encode_symbol () та decode_symbol () після обробки кожного символу.

Оновлення моделі є досить дорогим з причини необхідності підтримки накопичених сум. В програмі використані лічильники частот, які оптимально розміщені в масиві в порядку зменшення своїх значень, що є ефективним видом самоорганізованого лінійного пошуку. Процедура update_model () спочатку перевіряє нову модель на предмет перевищення нею обмежень за величиною накопиченої частоти, і якщо воно присутнє, то зменшує всі частоти діленням на 2, зважаючи при цьому на те, щоб лічильники не перетворилися в 0, і переобчислює накопичені значення. Потім, якщо це необхідно, update_model () перевпорядковує символи для того, щоб розмістити поточний в його вірній категорії відносно частотного порядку, чергуючи для відображення змін перекодувальні таблиці. В результаті, процедура збільшує значення відповідного лічильника частоти і впорядковує відповідні накопичені частоти.

9. Ефективність стискання.

Взагалі, при кодуванні тексту аріфметичним методом, кількість бітів в закодованому рядку дорівнює ентропії цього тексту відносно використаної для кодування моделі. Три чинника викликають погіршення цієї характеристики: видатки на завершення тексту; використання арифметики


Сторінки: 1 2 3 4 5