ТЕХНИЧЕСКИЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ОБУЧЕНИЯ




Данная работа была создана при помощи, на основе материалов, и с использованием техники, приобретенной в рамках проекта SPAN, финансировавшегося USAID и IREX

Дистанционное обучение как форма образования существует очень давно - практически столько же сколько существует письменность. На самом деле для определения понятия дистанционное образование необходимо вернуться к определению обучения вообще. Если под обучением понимать любое увеличение знаний у человека, то наибольшее количество знаний в современном мире человек получает при помощи дистанционных источников (книг, телевизионных передач и т.п.). При этом даже при очном обучении преподаватель, чаще всего, опирается на литературные данные, а не на результаты собственных экспериментов, т.е. он получает сведения дистанционно. Для того, чтобы избежать путаницы, в теории образования даже используют разграничение источников информации - первичными источниками считаются те, которые получены при непосредственной работе с изучаемыми объектами, а вторичными - все остальные. При таком разграничении обучение при помощи вторичных источников можно отнести к дистанционному.

Более того, если задуматься над процессом обучения с точки зрения особенностей источников информации, то становится понятным, что любое обучение включается в себя цикл использования вторичной информации (будь то учебник, книга или преподаватель, читающий лекцию) и применение этой информации на практике с целью получения первичной информации. В этом случае разграничение между очными и дистанционными формами обучения начинает относиться только к типу носителя информации (человек или что-то иное), но ни как не к содержанию. Иными словами мы можем определить дистанционное обучение как методику преподавания, в которое между преподавателем и обучаемым находится неживой материальный посредник передачи информации. Несмотря на некоторую неуклюжесть, это определение позволяет нам более четко сформулировать задачу данной главы - описать технические средства передачи информации, которые могут использоваться в качестве посредников между преподавателем и слушателями. Кроме того, оно позволяет подчеркнуть, что дистанционное обучение, несмотря на особенности, связанные с отсутствием прямого человеческого контакта, дистанционное обучение в принципе не отличается от обычного обучения и также должно включать представление материала с учетом особенностей человеческого восприятия и контроль знаний.

Следует однако отметить, что современные технические средства несколько изменили (или изменяют) содержание дистанционного обучения. Стало возможным организовывать подачу материала со скоростью и в формате, удобном для обучающегося, сделать контроль знаний регулируемым обучаемым. В такой форме дистанционное обучение начинает приближаться к наиболее прогрессивным активным формам обучения (студент-центрированным) и поэтому некоторые авторы рассматривают его как промежуточную форму между преподаватель и студент-центрированными формами обучения.

В чем же преимущества дистанционного обучения? Первое преимущество очевидно - человеку нет надобности тратить время на приход (приезд) в обучающий центр и поэтому экономятся средства, затрачиваемые на дорогу. Отсюда следует и второе преимущество - человек не связан жестко с расписанием занятий, он может адекватно планировать свой день - что очень удобно именно в последипломном образовании, где слушатели обычно имеют ограниченный ресурс свободного времени. Третье преимущество не столь очевидно, но не менее важно - человек может обучаться в том темпе, который ему подходит, более детально разбираться с непонятным материалом и выискивать дополнительные источники информации, что повышает качество обучения. И, наконец, более легкие возможности самоконтроля - человек может проверить свои знания, а затем вернуться и пересмотреть те разделы, которые были неважно выучены.

Недостатки дистанционного обучения также достаточно очевидны. Во-первых, большинство людей лучше воспринимают информацию при непосредственном общении, а не при использовании технических посредников. Во-вторых, дистанционное обучение мануальным навыкам затруднено и, в-третьих, многие современные технические средства обучения требуют достаточно высоких вложений капитала в техническое оснащение.

Виды дистанционного обучения

Собственно дистанционное обучение, особенно если оно базируется на современных информационных технологиях, представляет достаточно серьезную проблему для преподавателя. Дело в том, что при проведении "обычного", очного обучения, очень большую роль играет поведение преподавателя, невербальная информация и обратная связь со слушателями. Все эти компоненты затруднены при использовании дистанционного обучения. Как указывают специалисты, длительно работающие в области дистанционного обучения, для этой формы обучения преподавателей необходимо специально готовить. Причин этому несколько. Все они являются следствием пространственного разобщения и некоторого обезличивания контактов меду преподавателем и студентами. Так, одна из наиболее распространенных моделей обучения базируется на использовании для контактов между преподавателяи и слушателми электронной почты. В то же время электронная почта предрасполагает к неформальным контактам, устраняя барьер личного контакта. В этих условиях стерается грань за которой преподаватель и/или студент могут сделать обидные и неадекватные замечания. Так, в условиях классной комнаты преподаватель может продемонстрировать слушателям, что произносимые им слова следует воспринимать как шутку (известно, что до 75-90% информации о социальном контексте мы получаем через невербальные каналы коммуникации). Аналогичная шутка в условиях общения через электронную почту может быт воспринята неправильно, именно в виду отсутствия невербального компонента.

Еще большие проблемы возникают при использовании заочно-очной формы обучения с компонентом дистанционного обучения. Преподаватели имеют тенденцию переносить консультирование на очную стадию обучения, прекрасно понимая, что при непосредственном общении проконсультировать человека проще (легче увидеть действительно ли преподаватель отвечает на тот вопрос, который был задан, легче корректировать ответ). Проблема заключается в том, что это понимают и слушатели, поэтому если они задают вопрос, например, по электронной почте, для этого у них имеются серьезные основания. Специалисты центра обучения Айовского Университета (США) приводят следующий пример, иллюстрирующий возникающие при этом проблемы. Студент обратился к преподавателю через электронную почту с просьбой посоветовать ему кто мог бы быть научным руководителем его дипломной работы. Преподаватель ответил, что лучше этому студенту зайти к нему в офис в приемные часы. Проблема однако заключалась в том, что студент был занят (работал) в вечерние часы, когда у этого преподавателя было приемное время. Таким образом, с точки зрения студента, преподаватель просто отмахнулся от него. Неформальный стиль общения по электронной почте иногда бывает обманчивым: несмотря на него студенты все равно чувствуют дистанцию меду ними и преподавателем. В описанном выше случае студент обратился с подобной просьбой через электронную почту именно потому, что вариант зайти в приемные часы был для него заказан. Кроме того, этот случай высвечивает еще одну проблему дистанционного обучения: неготовность преподавателей признать, что дистанционное обучение или консультирование равноценно личному консультированию. В самом деле, если к преподавателю студент обращается с вопросом и ответ на него известен преподавателю, то он практически никогда не попросит этого студента зайти к нему за ответом попозже. В электронной почте подобные ситуации встречаются куда чаще - ответ на вопрос подменяется назначением времени встречи.

Многие преподаватели интересуются, выучивают ли студенты на курсах дистанционного обучения столько же, сколько при обычном очном обучении. Исследования, сравнивающие дистанционное обучение с традиционным очным обучением показывают, что оно может быть также эффективно, как и очное обучение, если используются адекватные методы и технологии, имеется взаимодействие между студентами и обучаемые вовремя получают отклик от учителя, монторирущего их прогресс.

Когда речь заходит об адекватных технологических методах доставки содержимого курса дистанционного обучения, следует помнить, что они попадают в одну из четырех широких категорий (Distance Education at a Glance, University of Idaho, 1995).

1. Речь. Технологии, использующие человеческую речь для передачи информации включают телефонное общение, аудиоконференции, радио, аудиокассеты с записями выступлений. Радио и записи выступлений относятся к пассивным методам обучения.

2. Видео. Учебные видеоматериалы включают неподвижные изображения (фотографии, схемы, слайды), заранее созданные подвижные изображения (учебные фильмы и видеофильмы), а также подвижные изображения, передаваемые в реальном времени комбинируемые с аудиоконференцией (одностороннее или двустороннее видео при наличии двусторонней аудиосвязи)

3. Компьютерные технологии. Компьютерные приложения, используемые в дистанционном обучении включают:

Компьютерные обучающие системы (КОС) - используют компьютер в качестве обучающей машины, которая предоставляет обучаемому отдельные занятия.

Компьютерные системы управления обучением (КСУО) - используют компьютер для того, чтобы вести учет студентов, процесса их обучения и прогресса в этом деле. Хотя для самого процесса обучения компьютер не используется, КСУО часто комбинируют с КОС.

Компьютер-опосредованное обучение. Данное понятие используется для большого числа технологических приемов в которых компьютер используется для распространения учебных материалов. Примеры включают электронную почту, факс, Интернет-телефонию и видеоконференции, системы, использующие Всемирную паутину.

4. Печать. Печатное слово является основой программ дистанционного обучения и из печатных средств обучения развились все остальные формы. Примерами учебных печатных материалов являются учебники, методические пособия, сборники задач, программы курсов и ситуационные задачи.

Какая же технология является наилучшей для организации дистанционного обучения? Ответ на этот вопрос заключается в том, что каждая технология занимает определенную нишу и должна соответствовать задачам курса, уровню обучаемых и их потребностям. Обычно наилучшие результаты достигаются при комбинировании нескольких подходов, каждый из которых направлен на выполнение определенной задачи. Например:

Используя такой интегрированный подход, преподаватель тщательно отбирает доступные технологии. Задачей является создать комплекс учебных материалов, которые отвечает потребностям обучаемого, обладает достаточной эффективностью и экономически выгоден.

Без исключения все эффективные программы дистанционного обучения начинаются с тщательного планирования и полного изучения требований курса и потребностей слушателей. Соответствующая технология может быть выбрана только после того, как стали понятны все элементы курса. Ниже мы остановимся на некоторых характеристиках современных технологий, доступных преподавателям в рамках компьютер-опосредованного обучения. Дело в том, что это наиболее бурно развивающаяся область дистанционного обучения и общие знания доступных технологий необходимы для правильного планирования курса и возможных методов "доставки" учебного материала.

Технологические основы компьютерного дистанционного обучения

Задача знакомить читателя с технологическими основами дистанционного обучения является неблагодарной задачей - компьютерная техника развивается семимильными шагами, поэтому любой раздел подобного рода стоит перед опасностью превратиться в музейный каталог сразу же после публикации. Самое грустное заключается в том, что столь стремительное развитие техники превращается в тормоз для разработки действующих систем дистанционного обучения - зачем тратить дни на создание, например, компьютерной анимации, когда через месяц, возможно, появится программа, генерирующая ее в течение десяти минут? Более того, созданный обучающий курс выглядит архаичным по сравнению с рекламным роликом, созданным новой версией программы. Автор, затративший много времени на изучение системы создания презентаций обнаруживает, что вышла новая ее версия и необходимо переучиваться. Все это может отбить охоту к созданию систем дистанционного обучения даже у самых завзятых энтузиастов. Добавьте к этому законодательные ограничения на дистанционное обучение (заочное) и отсутствие внятной политики в этом отношении на местном и национальном уровне и станет понятным, почему в России дистанционное обучение во многом продолжает оставаться в зародышевом состоянии.

Для сравнения хочется рассказать о положительном опыте региональной программы создания инфраструктуры дистанционного обучения, реализованной в конце 1980-х годов в штате Айова (США). Данный штат является по преимуществу сельским и, в середине-конце 80-х годов руководство штата обеспокоилось снижением качества образования у жителей сельских районов. Причиной тому была географическая удаленность ферм от учебных центров что, совместно с высокими ценами на жилье в городах, препятствовало получению образования выходцам из сельских районов. Для того, чтобы исправить эту ситуацию было принято решение создать волоконно-оптическую сеть, которая позволила бы организовать курсы дистанционного обучения. Данная сеть была создана на средства штата и в настоящий момент она включает более 800 базовых станций, поставленных с таким рассчетом, что даже из самого удаленного уголка штата до ближайшей базовой станции надо добираться не более 20 минут. Каждая базовая станция оснащена большим телевизионным экраном и видеокамерой, позволяющей сидящим в комнате студентам наблюдать учебный процесс, происходящий в учебном классе Университета Айовы. При этом происходящее во всех станциях проецируется на специальный монитор, установленный на столе преподавателя. Поэтому каждый сидящий в аудитории базовой станции может задать вопрос преподавателю так, как будто меду ними нет нескольких сотен километров. Более того, преподаватель может подключить к системе компьютер и тогда на экране базовой стации будет видно изображение компьютерного монитора и всего, что на нем происходит, можно также демонстрировать видеофильмы, направлять видеокамеру на доску и т.д. Базовые станции поддерживаются специальным техническим персоналом, оплачиваемым правительством штата, однако включение всего оборудования базовой станции происходит простым включением рубильника, поэтому постоянного присутствия персонала на станции не требуется. За то время, что сеть находится в рабочем состоянии, через курсы обучения с ее помощью прошли тысячи студентов и она выросла из системы обучения школьников в систему Вузовского обучения и дистанционного консультирования. Так, например, специалисты колледжа общественного здравоохранения используют эту сеть для консультирования врачей при угрозе вспышки эпидемии: телефонным звонком врачей общей практики приглашают в ближайшую к ним базовую станцию и затем проводится сеанс связи со специалистами колледжа, которые рассказывают об особенностях надвигающейся эпидемии, методах профилактики и т.д. Тут же, в режиме непосредственного общения, они отвечают на все возникающие вопросы. Данная система является в некотором смысле эталоном сети дистанционного обучения, однако, ее создание и поддержание требует значительных капиталовложений. Эти деньги позволяют преодолеть основные технологические проблемы, связанные с дистанционным обучением - временные задержки при общении и низкую пропускную способность каналов передачи информации. Далее мы остановимся на методиках преодоления этих проблем.

Выше уже упоминалось, что дистанционное обучение может быть условно разделено на два основных типа - собственно обучение и дистанционное консультирование. Использование технологии может сводиться также к двум основным формам - доступ к информации при помощи технологий и общение при помощи технологий.

Дистанционное консультирование предполагает получение доступа к информации и общение через относительно узкий канал, однако этот доступ к информации должен быть быстрым, а возможности поиска - большими. Собственно обучение требует значительно более широкого канала - полноцветные иллюстрации, качественные аудио- и видеоматериалы, однако информационная глубина может быть не столь большой.

Однако что понимать под узким и широким каналами? Для ответа на этот вопрос придется обратиться к некоторым базовым понятиям из области передачи компьютерных данных.

Текст

Исторически человек придумал алфавит для того, чтобы иметь возможность компактного хранения и передачи информации. Первые компьютерные системы предназначались также для передачи текстовой информации и были оптимизированы для этой задачи. Каждая буква алфавита (и ряд других символов) закодированы последовательностью 8 единиц или нулей (один байт или 8 бит). Таким образом, одна печатная страница занимает примерно 70 знаков в строке * 30 строк =2100 байт.

При передаче информации по сетям используется другой показатель - бод, который, в принципе, равен одному биту. Поэтому указываемая для большинства устройств передачи информации скорость в бодах в секунду может быть легко превращена в биты в секунду. Однако при передачи информации по сетям передается не только она одна, но и ряд служебной информации (контроль качества переданной информации и т.п.). Поэтому для приблизительного определения передачи того или иного объема полезной информации моно воспользоваться следующим простым правилом: скорость в бодах в секунду деленная на 10 равна скорости передачи данных в байтах в секунду. Таким образом, если между двумя компьютерами установлена связь со скоростью 28800 бод в секунду, то полезная информация передается между ними со скоростью 2800 байт в секунду.

Возвращаясь к примеру с текстовой страницей видно, что она может быть передана между компьютерами менее, чем за 1 секунду. Естественно, сказанное относится только к буквам и основным символам (т.н. таблица ASCII). На этой странице будет отсутствовать выделение, математические символы и т.д. Однако не очень сложно предусмотреть специальные команды, которые будут интерпретироваться текстовым редактором и будут предусматривать использование специальных символов, шрифтов и других средств выделения и украшения. Это приведет к некоторому увеличению размера текста, но тем не менее, он будет вполне приемлемым. Хорошим примером подобного использования текстовых файлов является язык HTML (HyperText Markup Language - язык гипертекстовой разметки), который является основой Интернет.

Как уже отмечалось ранее, компьютеры с самого начала был предназначены для работы с текстовой информацией, поэтому использование звука или фотографий требует больших ухищрений.

Изображения

Изображения обычно представляются на экране компьютера в виде последовательности точек, причем цвет точки определяется смешением базовых цветов. Чем больше точек используется для создания изображения на экране, тем больше оно напоминает фотографию. Современные мониторы поддерживают разрешение до 2048 на 1600 точек, однако для того, чтобы фотография выглядела реалистично достаточно значительно меньших размеров (если только ее не придется распечатывать - тогда чем больше разрешение, тем лучше). Предположим, что размер передаваемого изображения составляет 640 на 480 точек. Если бы оно было черно-белым, то занимало бы 307200 бит или 38400 байт. Однако необходимо еще передать цвет. Для передачи естественных цветов требуется еще по 24 бита на точку. таким образом размер графического изображения вырастает до 921600 байт или 900 кбайт (1кбайт=1024 байт). Передача подобного изображения займет уже 329 секунд или почти 5,5 минут. Естественно, каждая фотография содержит множество избыточной информации (поля белого или черного), поэтому для уменьшения размеров файлов изображений были разработаны многочисленные алгоритмы, но об этом речь пойдет ниже.

Звук

Передача звука также является относительно "объемной" задачей. Из физики известно, что звук представляет собой волновые колебания. Цифровая техника по своей природе дискретна и поэтому требует, чтобы волновые колебания были преобразованы в последовательность дискретных значений (частота дискретизации). Как гласит знаменитая теорема Нейквиста, для того, чтобы результат измерений был лишен искажений, число замеров должно, по меньшей мере, вдвое превышать число деталей. Иными словами, если человеческое ухо воспринимает звуки в диапазоне от 10 Гц до 20 кГц, то для адекватного восстановления оригинального сигнала следует прибегнуть к частоте дискретизации большей 40 кГц. Однако каждый дискретный образец должен быть оцифрован. Для этого необходимо закодировать его характеристики. Если мы возьмем для кодирования очень много точек, то сигнал будет не отличим от оригинального. Однако необходимо использовать минимально приемлемый уровень кодирования. Было установлено, что если для кодирования используется более 65 тыяч уровней звука (16 бит), то цифровой звук воспринимается на слух как высококачественный. Такими характеристиками (44,1 кГц при 16-битных образцах) обладает звук, записанный на лазерных компакт-дисках. Расчеты показывают, что объем односекундный звуковой файл будет содержать 1411200 бит. Пересылка такого файла потребует 63 секунды.

Видео

Еще сложнее ситуация с видеоинформацией. Она комбинирует в себе изображение и звук. Принятая в Европе система PAL дает разрешение в 575 строк (на самом деле телевизионный стандарт определяет разрешение в 625 строк, однако реально используются для передачи данных только 575). Американское телевидение (NTSC) дает 525 строк.

Проанализируем вначале, какие требования необходимо предъявить к телевизионному приемнику для получения движущихся изображений хорошего качества. Для этого необходимо, чтобы частота кадросмен была достаточно высокой, чтобы создавалось впечатление непрерывности движения. Во-вторых, необходимо максимально подавлять мелькания изображения. Исследования показали, что оба условия выполняются при демонстрации кадров с частотой не менее 50 в секунду. Частота кадросмен, называемая также частотой вертикальной разверстки должна, таким образом, составлять не менее 50 Гц. Почти такая же частота используется в кинематографии, где в секунду по два раза показываются 24 кадра.

Поскольку во время создания телевизионного стандарта передача столь большого потока данных была затруднена, было принято решение передавать телевизионные изображения не как полные кадры, состоящие из 625 строк, а как поля (полукадры), содержащие по 312,5 строк. Первое поле содержит информацию о нечетных строках изображения. Поэтому вначале каждая вторая строка остается пустой. Эти строки прочерчиваются телевизионным лучом при его следующем проходе по экрану во втором поле, которое содержит информацию о четных строках. Таким образом, телевизионные изображения представляются в виде последовательности полей. В секунду передается 50 полей.

Качество чресстрочного изображения оказывается приемлемым при передаче подвижных изображений. При передаче же неподвижных изображений наклонные линии могут получаться несколько зигзагообразными (поскольку трудно точно разместить одно поле между строками другого). Кроме того, возникают проблемы и при оцифровке подвижного видеоизображения. За 1/50 секунды объект может сместиться, и это также приводит к нерезкости «стоп-кадра».

Следующая таблица показывает реальные характеристики, определённые действующими видеостандартами.

 

NTSC
(США,
Япония)

PAL
(Англия,
Германия)

SECAM
(Франция,
Россия)

HDTV

VHS

S-VHS

Число строк в кадре

525

625

818

1150

250

400

Формат кадра

4:3

4:3

4:3

16:9

4:3

4:3

Частота полукадров

60

50

50

50

Ширина полосы сигналов яркости/цветности в МГц

4,2/1,5/0,6

5/1,5/1,5

6/1,5/1,5

27

3-3,8

5

Скорость передачи цифровой информации в Мбит/сек

128,7

159,6

158,6

~90

Однако на этом проблемы видеоизображения не заканчиваются. Ограничивающим фактором разрешения по вертикали является телевизионный стандарт, в котором определено, что полный кадр состоит из 625 строк. Максимальное разрешение телевизионного изображения в направлении оси Y составляет при этом 625 строк. Каково же горизонтальное разрешение? Ответ на этот вопрос также достаточно прост. Предельное разрешение по оси Х определяется форматом кадра, который в современных телевизионных устройствах составляет 4:3. Максимальное горизонтальное разрешение составляет при этом 625*4/3= около 833 элементов. Если учитывать только 575 видимых строк изображения, то максимальное горизонтальное разрешение снизится до 767 элементов.

Теперь понятно, что составляющие видеосигнала могут давать изображения различного качества. Поскольку вертикальное разрешение обусловлено стандартом и не допускает изменения, причины различия качества, очевидно, должны быть связаны с неодинаковым разрешением по горизонтали. Именно это и происходит на практике. Все видеокамеры и видеомагнитофоны обеспечивают получение изображения с одинаковым разрешением по вертикали – 575 строк, причем кадры составляются из пар полей. По горизонтальному разрешению, то есть по числу элементов изображения, образующих одну строку, видеоустройства различаются очень сильно.

В телевизионной технике разрешение устройства обычно указывается в мегагерцах (МГц). Эта величина всегда относится к разрешению по горизонтали, поскольку разрешение по вертикали жестко определено стандартом. Оно указывает, сколько перепадов яркости может распознать или передать данное видеоустройство. Такой перепад яркости называют также линией. Одна линия – минимальная разрешаемая деталь изображения (разрешение часто проверяют с помощью настроечных таблиц, которые можно видеть по телевизору до и после окончания передач). Линия состоит из двух точек изображения, имеющих разную яркость. Понятно, что разрешение изображения по горизонтали равно числу линий, умноженному на 2 (разрешение в элементах изображения также равно разрешению в МГц, умноженному на 128).

Бытовые видеомагнитофоны (VHS) обеспечивают разрешение в 2,5 Мгц, а современные видеокамеры формата Hi8/SVHS – 4,5 МГц. Так, для того, чтобы разрешение соответствовало разрешению бытового видеомагнитофона, размер картинки по горизонтали должен составлять 320 точек (соответственно, размер кадра – 430*320 точек). Для компьютерного видео телевизионного качества необходимо разрешение 575 точек по горизонтали (размер кадра 767*575 точек -на самом деле это разрешение и Hi8). Для сравнения стоит отметить, что разрешение пленочных фильмов составляет более 3000 линий.

Сократить цифровой поток можно, уменьшив формат изображения. Однако в этом случае следует установить разумную границу, чтобы изображение осталось пригодным для демонстрации. Лучше всего при этом ориентироваться на вертикальное разрешение одного поля по системе PAL/SECAM, которое составляет 288 строк. С учетом отношения сторон телевизионного изображения 4:3 для горизонтального разрешения получаем рациональное значение 384 точки или около 3 МГц. Такое же разрешение обеспечивает хороший видеомагнитофон формата VHS. Тогда только видеопоток составит 384*288*24*25/8=8294400 байт. Передача файла с односекундным изображением займет 2893 сек. или 48 минут.

Эти расчеты показывают, что если попытаться использовать данные технологии для передачи информации, то они будут вызывать значительную временную задержку. Попытки решить проблему временной задержки направлены на обеспечение выраженной степени сжатия аудио и видео информации. Однако сжатие информации приводит к появлению новых проблем - необходимо обработать большие объемы данных как на компьютере, производящем отправку материала, так и на компьютере, получающем его. Именно поэтому современные системы дистанционного обучения, обеспечивающие предоставление мультимедийного содержания курсов (аудио и видео) достаточно требовательны к аппаратному обеспечению. К счастью, большинство алгоритмов сжатия значительно быстрее "распаковывают" данные и поэтому компьютер обучаемого может быть значительно слабее (исключением являются интерактивные системы, которые налагают одинаковые требования на компьютерные системы преподавателя и ученика).

Сжатие учебной информации

Прежде, чем рассматривать подходы к сжатию информации следует кратко познакомиться с используемой в данной области терминологии.

Алгоритмы реального времени. Одной из важнейших характеристик алгоритма является то, способен ли он работать в режиме реального времени. Под этим понимается, что система сжатия воспроизводит (и/или упаковывает) данные мгновенно, без сколь-нибудь выраженной временной задержки. Данная характеристика особенно важна для аудио и виео данных. Если система не справляется с вопроизведением в реальном времени, то она "опускает" некоторые данные. В видео это выражается в выпадении кадров, в аудио - в "запинках" и пропадающем звуке. В любом случае данные эффекты очень плохо воспринимаются слушателями/зрителями. В видео выпадении кадров приводит к потере синхронизации с движением губ, что производит впечатление нереальности происходящего на экране или перевода видео с чужого языка. Способность распаковывать данные в режиме реального времени сильно зависит от мощности компьютерной системы, особенно центрального процессора.

Симметричные и асимметричные алгоритмы. Данное понятие относится к тому времени, которое затрачивается на упаковку и распаковку данных. Симметричные алгоритмы затрачивают одинаковое время на оба процесса. Асимметричные обычно тратят значительно больше времени на упаковку данных. В системах дистанционного обучения, не требующих интерактивности, обычно применяются асимметричные алгоритмы (как правило, они предлагают большую степень компрессии). В системах интерактивного обучения и видео/аудио конференциях приходится использовать симметричные алгоритмы.

Степень сжатия. Это является одной из важнейших характеристик алгоритма. Под степенью сжатия понимается отношение размеров исходного материала к размерам результирующего. Для неподвижных изображений степень сжатия обычно не превышает 8:1 - 20:1. Для видео оно может доходить до 200:1.

Алгоритмы с потерей данных и без нее. Показатель потери данных обычно характеризует снижение качества изображения по сравнению с оригиналом. Чем больше данных было отброшено в ходе компрессии, тем ниже качество получающегося результата. Как будет указано ниже, при сжатии звука используются алгоритмы, которые анализируют голос говорящего, выделяют основные параметры и передают только их. На другой стороне из этих данных синтезируется речь. В результате достигается очень высокая степень компрессии, но голоса говорящего распознать практически невозможно. Вместе с тем обеспечить сколь-нибудь значительную степень сжатия без потери данных невозможно (для фотографий степень компрессии может достигать только 2:1). Надо также отметить, что большинство алгоритмов сжатия позволяют выбирать степень компрессии, причем следует помнить, что чем она выше, тем больше потери данных.

Внутрикадровая и межкадровая компрессия. Чаще всего эти понятия обсуждаются в применении к сжатию видео, хотя похожие подходы используются и при сжатии аудио. Основную идею легче понять, если представить себе обычный видеофильм. Фон, на котором происходит действие меняется не очень часто (в крайнем случае - "говорящая голова" - вообще двигаются только губы). Значит достаточно сохранить только информацию о первом (опорном) кадре, а остальные рассматривать в качестве дополнений к нему. Понятно, что используя такой подход можно добиться очень высокого сжатия. Платой за высокую компрессию является то, что в процессе сжатия алгоритм постоянно обращается к опорному кадру, сравнивая новый кадр с ним и вычисляя разность. Тем самым время сжатия резко увеличивается. Вторым недостатком является сложность редактирования такого изображения - между двумя опорными кадрами реальных кадров нет, а есть только информация об изменении их относительно опорного кадра. Поэтому для редактирования последовательность приходится разворачивать и переводить в какой-либо другой формат. Этих недостатков нет у методов сжатия с внутрикадровой компрессией, где каждый новый кадр рассматривается как независимое изображение. Правда, и рассчитывать на очень высокую степень сжатия невозможно.

Сжатие изображения

Начнем с исторически самой разработанной области сжатия информации - изображений. Как уже говорилось, изображения содержат большие объемы избыточной информации. Более того, многие участки изображений меняются предсказуемым образом (т.е. существует математическая формула, которая позволяет описать эти изменения). Комбинируя эти два свойства комитет экспертов по фотографическим изображениям (Joint Photographic Experts Group - JPEG) разработал специальную систему сжатия изображений, которая позволяет их компактное хранение и относительно быстрое воспроизведение. Формат JPEG относится к алгоритмам сжатия с потерей информации.

Формат JPEG оказался настолько удачным, что его сделали основным для хранения цифровых фотографий практически все производители цифровых фотоаппаратов. В этих устройствах сжатие изображения обеспечивает специальная микросхема (в настольном компьютере чаще всего реализуются программные алгоритмы сжатия изображения).

Фотография сделанная цифровым фотоаппаратом Olympus 3030zoom, макрорежим. Хорошо видно повреждение десны в левой части фотографии

Участок, вырезанный из описанной выше фотографии. Изменение масштаба не проводилось

Обычно цифровые фотоаппараты поддерживают несколько режимов сжатия изображений (в зависимости от того, хочет ли владелец поместить в памяти больше снимков или на первом месте стоит качество). Минимальная степень сжатия обычно составляет 3-4 к 1. Таким образом, полноцветный кадр размером 640*480 точек сжимается до 250-300 кбайт. Вместе с тем такой файл все еще достаточно велик для передачи - потребуется около 3 минут на его пересылку.

Средняя степень сжатия предлагает уменьшение размеров изображения в 8-10 раз. Таким образом кадр может быть сжат до 90-100 кбайт (и время его передачи будет сокращено до 30-40 сек.). Надо отметить, что полупрофессиональные фотоаппараты типа Olympus 3030Z не предлагают большей степени сжатия. Бытовые модели, например Toshiba PDR M-1 или Fuji DX-3 обеспечивают еще большее сжатие - примерно 16:1 и 11:1, соответственно. Однако как показывает опыт автора, данный режим приводит к резкому снижению качества изображения и поэтому их использование вряд ли обоснованно, по крайней мере для целей дистанционного обучения и консультирования.

Иногда для уменьшения размеров файла можно изменить глубину цветопередачи. Действительно, если передается монохромное изображение М-режима эхокардиограммы или рентгеновский снимок нет никакой необходимости использовать полноцветный (24-битный режим). Оттенки серого прекрасно передаются при помощи 8-битной палитры, а это уменьшает размер изображения еще в три раза. К сожалению, цифровые фотоаппараты не поддерживают режим истинной конвертации в серое изображение (создание черно-белой фотографии), поэтому для получения соответствующего изображения может потребоваться использование специализированных программ. Можно также изменить размер фотографии и передать только отдельный участок изображения, например размером в 320 на 240 точек (уменьшение размеров - в четыре раза).

Таким образом, для передачи качественных изображений приходится рассчитывать на временную задержку по крайней мере в 30 секунд или увеличить пропускную способность канала до 900 кбод/сек.

Сжатие видео

Дело с видеоинформацией обстоит еще сложнее, чем с неподвижными изображениями. Грубо говоря, она должна требовать, как минимум, в 6 раз более широкий канал, нежели передача качественных неподвижных изображений (в 4 раза меньшая площадь кадра и в 24 раза больше изображений за секунду). На самом деле, проблема осложняется тем, что стабильность канала передачи должна быть выше, поскольку данные идут непрерывным потоком и задержка на пол-секунды, почти незаметная при передаче неподвижного изображения приведет к неприятным последствиям при передаче видео. Кроме того, возникают и проблемы со сжатием изображения - незначительная задержка при сжатии каждого кадра программой преобразования кадра практически заблокирует возможность непрерывной передачи видео. Решение может быть найдено в виде повышения вычислительной мощности компьютеров. Еще пару лет назад ввод видеоинформации в компьютер без использования специальной микросхемы был невозможен, то сейчас многие производители предлагают дешевые решения, которые позволяют превращать видеосигнал в цифровую форму за счет использования только программного обеспечения. Однако такие приложения очень "прожорливы" в отношении системных ресурсов и их работа не всегда стабильна.

В настоящее время для сжатия видеоинформации конкурируют два основных стандарта и несколько методик сжатия, разработанных отдельными компаниями. Основными стандартами являются MPEG (Motion Picture Experts Group - группа экспертов по киноизображениям) и M-JPEG (Motion - JPEG формат JPEG для подвижных изображений). Первый формат выступает в двух подвариантах - формате цифрового и спутникового телевидения (MPEG-2), а также формате компьютерного видео (MPEG-1, длительное время использовался для записи на лазерные видеодиски фильмов - отсюда другое название - формат лазерного видео). Формат цифрового телевидения требует большой пропускной способности канала (от 2 до 10 Мбит/сек), тогда как формат компьютерного видео позволяет получать достаточно компактные файлы и передавать их по обычным коммутируемым сетям. Этот последний формат позволяет регулировать степень сжатия, обеспечивая до 200-кратного уменьшения исходного файла. Сжатие в формате MPEG достаточно длительная процедура (этот формат является классическим примером асимметричного алгоритма межкадрового сжатия с потерей данных), даже на компьютере с мощным центральным процессором и для использования этого формата для оцифровки видеоизображения в реальном режиме времени используются специальные микросхемы. Широкое распространение формата MPEG оказалось связано с тем, что воспроизведение этих файлов можно обеспечить используя только программы-распаковщики, без специальных микросхем. Однако эксперименты с данным форматом показывают, что в реальных условиях ввиду значительного потребления вычислительных мощностей и, возможно, нагрузки на другие системные компоненты MPEG-клипы иногда пропускают кадры и теряют аудио-сопровождение (многое зависит от того, какая программа была использована для кодировки данных – кодировщик фирмы Xing версии 2.20 позволяет создавать файлы, которые на порядок меньше, чем сжатые аппаратными системами MJPEG при удовлетворительном качестве изображения – так файл видеоинформации формата 192*144 точки, продолжительностью 28 минут, был сжат от 310 Мбайт в формате M-JPEG до 27 Мбайт в формате MPEG).

Конкурирующий стандарт - MJPEG требует наличия специальных микросхем как для записи, так и для проигрывания видео. Он обычно используется для ввода аналоговых видеозаписей в компьютер и их редактирования. Преимуществом этого стандарта является то, что в нем можно уменьшать частоту кадров. Дело в том, что при относительной неподвижности объекта съемки частота кадров может быть легко понижена до 12 в секунду, а если объект просто "говорящая голова" то и до 6 кадров в секунду. MPEG не позволяет такого варьирования частоты кадров. Другим преимуществом является возможность доступа к отдельным кадрам (MJPEG не использует межкадровое сжатие) и поэтому данный формат хорош для редактирования учебного видео. Однако ввиду необходимости оснащения компьютеров как преподавателя, так и учеников специальными платами (кстати, довольно дорогостоящими) этот формат вряд ли подходит для организации обмена видеоинформацией, однако на первоначальном этапе ввода видео в компьютер он может оказаться необходимым.

Несколько алгоритмов сжатия были разработаны отдельными компаниями - самыми известными из них являются Cinepack компании Радиус и Indeo компании Интел. Не вдаваясь в подробности, оба алгоритма реализованы в виде программных продуктов, оба лицензированы фирмой Microsoft и включены в операционную систему Windows и оба предлагают весьма выраженную степень сжатия. Недостатком является очень значительное время сжатия изображения, что не позволяет использовать их для передачи видео в режиме реального времени. Наш собственный опыт показывает, что Cinepack обеспечивает несколько более высокое качество изображения при сильном сжатии (около 14:1), поэтому его использование предпочтительно.

Для передачи видео в режиме реального времени были разработаны несколько специальных стандартов (стандарты видеоконференций). Они базируются на снижении количества передаваемых кадров, уменьшении размеров отдельного кадра (до 160 на 120 и меньше), а также снижении глубины цвета изображения. Примером такого стандарта является H.323, который позволяет осуществлять видеосвязь в непосредственном режиме как через Интернет, так и через прямую телефонную связь (POTS - plain old telephone system - обычная старая телефонная сеть), точнее взаимодействовать с более старыми стандартами, определяющими передачу данных по этому типу сетей.

Следует отметить, что для сжатия видеоизображения всегда требуется дополнительная программа - программа редактор видеоизображений, например Adobe Premier или Ulead Media Studio. Проведение видеоконференций также требует дополнительного программного обеспечения типа VDOPhone или CU-SeeMe.

Весьма интересная возможность получения видеоизображений без использования дополнительных программных продуктов появилась в новых полупрофессиональных фотоаппаратах. Они поддерживают съемку подвижного видеоизображения со звуком напрямую в компьютерном формате, который можно читать без использования дополнительных микросхем. Камеры производства фирмы Olympus (C3030Z и другие) используют алгоритм сжатия MJPEG (вариант Motion Photo-JPEG). На настоящий момент этот алгоритм сжатия может быть прочитан системой проигрывания видеофайлов QuickTime 4.0, а также другими программами, использующими этот модуль (например, Adobe Premier 5.0). Данное оборудование очень удобно для пересылки видеоизображений в режиме дистанционного консультирования - от момента съемки до момента отправки может пройти небольшой промежуток времени. Камера Olympus 3030Z поддерживает два разрешения - 320 на 240 точек и 160 на 120 точек. Второй режим создает очень маленькое изображение, поэтому его использование вряд ли обосновано (кстати, то же самое можно сказать и про изображение, создаваемое программным обеспечением для видеоконференций).

Здесь можно скачать пример 4-секундного видеоклипа (410 К)

Изображение с большим разрешением значительно лучше, однако платой является размер файлов. В среднем одна секунда видеоизображения занимает около 280 килобайт. Это означает, что пересылка односекундного изображения (со звуком) занимает, при описанных ранее условиях, чуть менее 2 минут. Если принять, что для целей дистанционного консультирования необходимо пересылать, по крайней мере, 3 секундные последовательности (за это время человек успевает сделать два шага), то время пересылки займет около 6 минут, а размер файла составит немногим менее одного мегабайта. Подобное время пересылки и размеры позволяют использовать различные режимы и протоколы обмена данными, что облегчает использование их для целей дистанционного консультирования (некоторые системы электронной почты - например, UUPC, накладывают ограничение в один мегабайт на размеры отправляемой почты).

В настоящий момент передача видеоизображений является наиболее требовательным к ширине канала пропускания данных форматом дистанционного обучения. Передача полноформатного видео описанного выше требует канала шириной около 2,8 мегабод/секунду, что пока что вряд ли доступно всем. Даже при наличии такого канала изображение будет идти в одностороннем режиме (вначале одна сторона пересылает изображение, затем другая). Поэтому часто используются альтернативные технологии - специализированные телевизионные системы (например, система интрактивного телевидения штата Айова) или видеоконференций (системы использующие цифровые телефонные линии, специализированное оборудование и протоколы). Недостатком этих систем являются чрезвычайно высокие расходы на создание инфраструктуры для дистанционного обучения.

Сжатие звука

При анализе особенностей передачи видеоизображения был оставлен в стороне вопрос о передаче звука. На самом деле цифровая передача звука является весьма тщательно разработанной областью коммуникационных технологий. Выше уже указывалось, что передача звука может приводить к значительным временным задержкам. В телефонии известны два типа задержек - односторонняя (время между произнесением слова одним человеком и восприятия его ухом другого) и двусторонняя (сумма двух односторонних задержек). Общение людей по телефону зависит от временных параметров больше, чем многие это осознают. Во время большинства бесед слушающая сторона издает тихие звуки, которые служат подтверждением принятой информации, показателем, что слушатель вовлечен в беседу. Если слушатель перестают издавать эти звуки, то вторая сторона либо останавливается и активно запрашивает подтверждения полученной информации, либо вообще перестает слушать, что происходит на другом конце провода. Если же происходит задержка, то эти звуки подтверждения будут приходит не вовремя, и могут расстроить всю беседу. Известно, что человеческое ухо очень чувствительно к задержкам и как качественная воспринимается связь с односторонней задержкой менее 150 мсек (обычные телефонные сети обладают задержкой не более 75 мсек). Если задержки составляют от 150 до 300 мсек, связь воспринимается как хорошая, от 300 до 450 как плохая, а задержки более 450 мсек делают разговор практически невозможным. Поэтому проблема передачи цифрового звука всегда сводилась к борьбе с временными задержками.

Выше уже было показано, что односекундный звуковой файл будет содержать 1411200 бит (176400 байт). Соответственно, адекватная передача звуковой информации требует канала шириной не менее 170 кбод/сек. Обеспечить такой канал очень сложно, поэтому исследования были направлены вначале на то, чтобы выявить, какое снижение качества звука еще приемлемо для человека. Первыми с необходимостью снижения полосы пропускания столкнулись связисты и они установили, что человек прекрасно может разговаривать, если полоса пропускания составит около 4 кГц (телефонная линия). Кроме того, можно спокойно снизить для речи количество уровней звука до 256 (8 бит). Тогда, опираясь на теорему Нейквиста, канал пропускания для телефонной линии составит 64 кбод/сек (это ширина одного канала в цифровых телефонных линиях - ISDN). Соответственно для адекватного воспроизведения стереозвучания потребуется два таких канала - общей пропускной способностью 128 кбод/сек.

Однако хотя телефон и нравится нам качеством передачи голоса, стоит попробовать проиграть по нему хоть раз музыкальное произведение, чтобы понять, как наше ухо воспринимает сужение полосы пропускания.

Поэтому при использовании для обучения различных аудиоматериалов надо всегда задаваться вопросом, а обеспечивает ли выбранный алгоритм кодирования адекватную передачу частотных характеристик исходного образца. Следует различать два основных типа задач передачи звукового сигнала - передача речи и передача качественного звука. Задачи первого типа обычно решаются при помощи алгоритмов компьютерной телефонии, а вторые - алгоритмами компрессии музыки (хотя сжатие шумов будет требовать также использование алгоритмов второго типа).

Чаще всего при дистанционном обучении придется сталкиваться с необходимостью сжатия речи. Это может потребоваться при организации аудиоконференции, предоставлении доступа к записям лекций и т.д. Задачей компрессии является оптимизация следующих параметров - качества, сложности и временной задержки. Качество при сжатии речи обычно измеряется при помощи шкалы субъективных значений (mean opinion score {MOS} - среднее субъективное значение), которая принимает следующие значения:

5. Личное общение

4. Телефонный разговор

3. Понятно, но качество не очень высокое

2. Можно понять слова, но непонятно, кто докладчик

1. Непонятны, неразборчивы слова

Простейшие методики связаны с изменением количества уровней, которые используются для передачи амплитуд сигнала. Выше указывалось, что телефонная сеть позволяет использовать для этой цели 8 бит. Однако для того, чтобы адекватно описать речевой сигнал, необходимы 12 бит. Здесь на помощи приходит психоакустика, которая показала, что человек больше чувствителен к изменениям звуков с низкой амплитудой, нежели с высокой. Поэтому соответствующие методы компрессии (правильнее, методы неуниформной дискретизации, чаще известные как pulse-code modulation, PCM) используют больше битов для малых значений амплитуды. Две основных методики дискретизации - дискретизация по А-правилу и по мю-правилу.

Из собственно алгоритмов сжатия используются две основных группы - волновое кодирование (пересылает информацию о сигнале просто как о последовательности оцифрованных волновых образцов) и моделирование голосового тракта (пересылает параметры для синтеза человеческой речи). Понятно, что алгоритмы второй группы неспособны адекватно передавать неречевые звуки.

Среди методик волнового кодирования используется, например, ADPCM (adaptive differential puse code modulation), которая вычисляет разность межу данным образцом и предыдущим и пересылает только разность. Сжатие по этому алгоритму составляет всего лишь 2:1, зато обеспечивает достаточно высокое качество. Другой подход использует трансформацию Фурье и пересылает только коэффициенты разложения. Степень сжатия достигает 4:1.

Однако все эти методики не позволяют обеспечить степени сжатия, адекватной для передачи больших объемов речевой информации. Поэтому чаще используются методики, моделирующие человеческий голосовой тракт. Они обеспечивают сжатие в 16 и более раз. Негласным стандартом в этой области является DSP Group TrueSpeech. Данная система компрессии звука была лицензирована фирмой Microsoft и поставляется вместе с операционной системой Windows. TrueSpeech обеспечивает сжатие до 15-20:1 при MOS 3,7. Она также позволяет проводить сжатие и распаковку данных в режиме реального времени на практически всех типах современных персональных компьютеров (начиная с 486DX66). Таким образом, данная система является достаточно адекватным инструментом для проведения аудиоконференций (и она является основой систем Интернет-телефонии). Еще большей степенью сжатия обладает другой алгоритм, разработанный фирмой Lernout & Hauspie (сравнение эффективности различных алгоритмов сжатия на реальном примере см. табл.1)

Табл.1 Сравнение эффективности способов сжатия речевой информации

Алгоритм

Формат

Параметры

Размер

Качество звука

Сжатие

 

Лекция 38 мин. 18 сек.

         

записано на VoiceIt

PCM

wav

16 bit/11 kHz

50928970

3,5

1,0

 

PCM

wav

16 bit/6 kHz

28293888

3,5

1,8

 

ADPCM

wav

4 bit/8 KHz

9657600

3,5

5,3

 

GSM

wav

2 kbps

3831550

3,5

13,3

 

TrueSpeech

wav

1 kbps

2515008

3

20,3

 

MPEG-3

mp3

8 kbps

2298920

1,5

22,2

 

VoiceIt

sri

6 KHz

2135349

4

23,9

 

Lernout&Houspie

wav

2 kbps

1740850

2

29,3

 
             

Тестовый отрывок 60 сек.

         

записано на компьютере

PCM

wav

16 bit/11 KHz

1323000

5

1,0

 

PCM

wav

16 bit/6 kHz

720000

4,5

1,8

 

ADPCM

wav

4 bit/8 KHz

246272

4

5,4

 

GSM

wav

2 kbps

97760

4,5

13,5

 

TrueSpeech

wav

1 kbps

64128

4

20,6

 

MPEG-3

mp3

8 kbps

59748

3

22,1

 

VoiceIt

sri

6 KHz

54491

4,5

24,3

 

Lernout&Houspie

wav

2 kbps

28268

3

46,8

 

Вместе с тем качество записи речи в системе Lernout & Hauspie оставляет желать лучшего. Поэтому она вряд ли применима для распространения аудиопрограмм в рамках дистанционного обучения. С подобной проблемой уже сталкивались производители мобильных телефонов. Когда в мире стали вводить цифровые стандарты мобильной телефонной связи (они обладают значительно большей емкостью абонентской сети и защитой от подслушивания), то первые понятно было, что необходимо обеспечить качество не ниже 3 MOS. Поэтому был разработан стандарт компрессии звука, названный так же как и вся система мобильной цифровой связи - GSM (Global System Mobile - глобальная мобильная система). Для обеспечения сжатия речи в мобильных телефонах используются специальные микросхемы, однако оказалось возможным создание и чисто программных продуктов, поддерживающих GSM-компрессию. Так, система сжатия по алгоритму GSM встроена в операционную систему Windows. Она обеспечивает достаточно приемлемое качество воспроизведения речи при относительно небольших размерах файла (табл.1). Степень сжатия составляет примерно 13:1, но качество несколько выше, чем при использовании алгоритма TrueSpeech.

Еще одним вариантом, который обеспечивает сильное сжатие речевой информации при сохранении высокого качества, является использование специализированных микросхем. В последнее время на рынке появились цифровые диктофоны, которые позволяют записывать речевую информацию напрямую в компьютерном формате, а также использовать специализированный микропроцессор для сжатия речи, записанной на компьютере. Таким образом достигается сжатие до 24:1. Файлы, созданные с применением микропроцессора можно декодировать затем при помощи специальной программы, но ученику не требуется наличие этого микропроцессора. Такая система, учитывая высокое качество звука и небольшие размеры файлов, а также возможность легко записывать лекции даже в лекционном зале, делают цифровые диктофоны прекрасным инструментом для подготовки пособий для дистанционного обучения. При этом 40-минутная лекция может быть сжата до 2 Мбайт, что потребует немногим более 12 минут для передачи.

Если для речи можно добиться значительного сжатия с незначительной потерей качества, для звука с более широким спектральным составом добиться этого сложнее. Одним из наиболее известных алгоритмов предназначенных для таких задач является MP3. Правильное название этого алгоритма MPEG Audio Layer 3. Он был разработан для описанного выше стандарта MPEG и базируется на так называемом перцепционном кодировании.

Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука). Психоакустическая модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам. Таким образом удается добиться сжатия 12:1 практически без потери качества звука. Для MP3 принято измерять степень компрессии по ширине канала пропускания, которая требуется для воспроизведения данного файла. Чем она меньше, тем сильнее сжат файл. Качество звука, сопоставимое с качеством записи на компакт-диске обеспечивается при ширине канала 112-128 кбит/сек (таб.2).

Табл. 2. Качество звука и размеры файлов (1 мин. звука) при использовании сжатия по алгоритму MPEG Layer 3

Скорость потока данных, кбит/сек

Качество звука

Размер файла (кбайт)

128

Лазерный диск

960

80

УКВ радиостанция

600

48

СВ-радиостанция

360

24

Телефонная связь

180

8

(максимальная компрессия – плохая телефонная связь)

60

Увеличение степени сжатия приводит к потере качества звука и самая сильная степень компрессии (монофонический сигнал с скоростью потока 8 кбит/сек), как видно из табл. 1, не всегда обеспечивает даже приемлемого качества воспроизведения. Однако несколько большие скорости потока (16 кбит/сек) позволяют записывать и воспроизводить речь достаточно разборчиво. Почему же при дистанционном обучении может понадобиться использовать формат MP3 сильного сжатия, когда есть более адекватные форматы? Причиной является широкое распространение программных проигрывателей данного формата, возможность комбинировать в рамках одного программного продукта записи высокого качества и речи и, самое главное, появление на рынке портативных плееров файлов данного формата. Подобный плеер размером с колоду игральных карт (например, Diamond Rio PMP300) может хранить во внутренней памяти до 9 часов лекционного материала. Распространение подобных устройств может оказать значительное влияние на развитие систем дистанционного обучения.