Исследование степени компрессии Е-текстов различными программами

Исследование состояло в идентификации возможных для использования для передачи текстовой информации форматов компьютерных данных (по меньшей мере 13 таких форматов были идентифицированы и проанализированы). К ним относились форматы, используемые на настольных машинах, такие как MS Word, HTML, RTF, межплатформенный формат Adobe PDF, а также специализированные форматы наладонных и карманных компьютеров, такие как Aportis DOC, iSILO, TCR и TomeRaider, а также форматы специализированных устройств для чтения электронных книг (Rocket E-book). Сравнение проводилось по степени сжатия (возможность передачи больших объемов информации через плохие коммуникационные лини), а также по поддержке кириллицы.

Исходный материал - книга All that remains (автор - Патриция Корнуэлл), общим объемом около 300 страниц (исходным был текстовый файл, 101397 слов).

Размеры файлов при переводе в соответствующий формат. В ряд файлов, где система просмотра позволяла, был помещен рисунок с обложки книги

Тип файла

Размер (Кб)

Включена ли графика?

Возможность использования русского языка

Операционная система

RTF

4,381

Да

+

Любая

MS Word 2.0

2,370

Да

+

Windows

MS Word 97

1,438

Да

+

Windows

Adobe Acrobat

801

Да

+/-

Любая

Adobe Acrobat/только текст

780

Нет

+/-

Любая

MS Word 97/только текст

770

Нет

+

Windows

HTML

687

Да

+

Любая

RTF/только текст

611

Нет

+

Любая

MS Word 2.0/только текст

602

Нет

+

Windows

HTML/только текст

593

Нет

+

Любая

Текст

564

Нет

+

Любая

Adobe Acrobat/ только текст

487

Нет

+/-

Any

MS Reader

385

Да

-

Windows, Windows CE

MobiPocket

384

Да

+

Windows, Palm, EPOC, Windows CE

Rocket E-Book

328

Да

+/-

Windows, Rocket

Aportis DOC

326

Нет

+

Palm, EPOC1, Windows2

TealDoc

325

Нет

+

Palm, Windows2

TomeRaider

303

Нет

+

Windows, Palm, EPOC

Rocket E-Book/только текст

290

Нет

+/-

Windows, Rocket

MS Reader/только текст

289

Нет

-

Windows, Windows CE

TCR

280

Нет

+

EPOC, SIBO

iSilo

268

Нет

?

Palm

1 - с помощью программы E-Book

2 - с помощью программы BigDoc

Tome Raider оказался форматом, обеспечивающим быстрый поиск в базах данных с хорошей степенью компрессии. С помощью этой программы 9.5 Мбайт файл MESH терминов был сжат до 4.2 Мбайт (47% от оригинала). Важно, что этот формат поддерживается практически всеми распространенными платформами (EPOC, Palm, PocketPC), а не только Windows.

Далее был проведен эксперимент по переводу в электронный формат статьи "ДИАГНОСТИКА И ЛЕЧЕНИЕ ПРИЧИН КАШЛЯ" Ричард С. Эрвина, Дж. Марк Мейдисона (The New Eng. Journal of Medicine, Vol. 343, Nu. 23, December 7, 2000), опубликованной в Международном медицинском журнале N 1 за 2001 год на русском языке. Сканирование 9 страниц формата А4 на настольном сканере-принтере Cannon BJC-80 с последующим распознаванием в программе FineReader заняло 38 минут. В результате был получен файл в формате Word97 размером 154 Кбайт, являющийся полной копией оригинальной статьи. Стало возможным сохранение в формат RTF, однако при этом размеры файла выросли до 385 Кбайт. Попытки конверсии файла в формат MS Reader (с помощью программы ReaderWorks Standard) были неудачными, а полученный с помощью программы RocketLibrarian файл в формате Rocket E-book "потерял" табличное форматирование и не отображался адекватно в окне эмулятора Rocket E-book. Попытка перевести в текстовый формат с охранением форматирования также кончилась неудачей.

Из MS Word исходный файл был конвертирован в формат HTML, где он был уже представлен в виде "одноколоночной" статьи (исходный журнальный текст имел двухколоночное расположение текста) размером в 93 Кбайт. При этом таблицы сохранились. Попытка же конверсии в XDOC формат (Open E-book) при помощи MobiPublisher закончилась формированием небольшого файла (45 кбайт), но опять-таки с потерянным табличным форматированием.

Таким образом, при использовании сложного форматирования (таблицы, колонки), наилучшим форматом является Adobe PDF. Несмотря на некоторые проблемы с кириллицей он хорошо сохраняет структуру исходного документа и не содержит (даже в теории) деструктивных макро вирусов (в отличии от Microsoft Word), а также может легко использоваться на большом числе платформ.

Наилучшим форматом для текстов с простым форматирование и иллюстрациями был признан формат XDOC (или Open E-book standard), ярким представителем которого является MobiPocket. Он создает наиболее хорошо сжатый файл с иллюстрациями, который можно просматривать на большом числе платформ (MS Windows, MS Windows CE and Pocket PC, Palm OS and EPOC). В одном дополнительном эксперименте созданный MobiPublisher файл был на 30% больше, чем Adobe PDF обработанный "Web Perfect PDF". К сожалению, просмотр PDF на платформе EPOC также привел к потере кириллицы (хотя на машинах с MS Windows отображение было адекватным). Текст подготовленный MobiPublisher просматривался без проблем.

 

Общий результат

Мультиплатформенные форматы

EPOC PDA

Palm OS PDA