ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПО СТАТИСТИЧЕСКОМУ АНАЛИЗУ ДАННЫХ: МЕТОДОЛОГИЯ СРАВНИТЕЛЬНОГО АНАЛИЗА И ВЫБОРОЧНЫЙ ОБЗОР РЫНКА

С.А.Айвазян, В.С.Степанов

АННОТАЦИЯ

В статье описывается методология сравнительного анализа и рейтингования множества однотипных статистических программных продуктов (СПП), а также подходы к ценообразованию на рынке СПП. Предлагаемая методология является развитием и определенной коррекцией методики, разработанной и активно используемой Национальной лабораторией по тестированию программных продуктов (США). Предложения авторов статьи сводятся, в основном, к необходимости включения в принятую ранее блок-схему нового важного базового свойства «Степень интеллектуализации СПП», к разработке существенно иного подхода к определению «весов» детализированных характеристик и различных базовых свойств, а также к увязке этих вопросов с вопросами ценообразования на рынке СПП.

Статья содержит также выборочный аналитический обзор мирового рынка СПП, особенно подробный применительно к пакетам, решающим задачи статистической классификации и снижения размерности (независимо от предметной области их применения).

Содержащаяся в статье информация может оказаться полезной пользователям (в частности, в более квалифицированном подходе к решению вопроса о приобретении того или иного пакета), специалистам-разработчикам наукоемких программ и исследователям, а также руководителям различных аналитических служб (банков, бирж, маркетинговых и консалтинговых агентств, экономических, медицинских, геофизических, промышленных исследовательских центров и т.п.).

ВВЕДЕНИЕ

Компьютерные системы для анализа данных — статистические пакеты, — являются, по сравнению с другими наукоемкими программами, пожалуй, наиболее широко применяемыми в практической и исследовательской работе в разнообразных областях человеческой деятельности.

Ранее [1], [2] была предложена классификация самих статистических пакетов по четырем группам: интегрированные методо-ориентированные пакеты общего назначения; специализованные методо-ориентированные пакеты; предметно- (или проблемно-) ориентированные пакеты; обучающие программы. Вторая группа содержит, кроме пакетов для решения задач классификации и снижения размерности, также пакеты для предварительного (или «разведочного» [3], [4]) анализа данных, для статистического исследования зависимостей, планирования экспериментов, анализа временных рядов, анализа данных нечисловой природы, генерации данных с заранее заданными свойствами.

В настоящей работе речь идет о пакетах первых двух групп, причем из второй группы повышенное внимание уделяется пакетам по классификации.

Это сделано нами, с одной стороны, из стремления ограничиться материалом, обозримым в пределах журнальной статьи. Из этих же соображений, мы не стали рассматривать и нейросетевые пакеты (информация о некоторых из них есть в [5, 6, 7]). Известно, что нейросети после хорошей настройки также могут эффективно решать задачи классификации данных высокой размерности, особенно если у пользователя имеется большое число обучающих примеров.

С другой стороны, методы классификации и снижения размерности «обслуживают» весьма широкий спектр прикладных задач в различных сферах деятельности.

Например, в медицине это может быть диагностика состояния пациента по комплексу наблюдаемых признаков (результаты клинического осмотра, лабораторных исследований, оцифровки и кодирования рентгенограммы и/или сонограммы). В геофизике — прогноз степени перспективности месторождения нефти или газа, в области финансов — оценка уровня кредитоспособности клиента или прогноз тенденции поведения рынка ценных бумаг, в экономике — разнообразные задачи типологизации объектов (семей, предприятий, городов, стран и т.п.) и прогноза социально-экономического поведения «хозяйствующего субъекта», в маркетинге — позиционирование нового товара среди существующих, в технике — диагностика состояния турбины или двигателя, контроль уровня качества продукции и др.

При том впечатляющем разнообразии статистических программных продуктов (СПП), которым характеризуется современный мировой и отечественный рынок (по официальным данным Международного статистического института число различных наименований распространяемых на рынке СПП приближается к тысяче!), крайне важно — как для производителя, так и для потребителя этой продукции, — суметь правильно сориентироваться на этом рынке, уметь провести сравнительный анализ однотипных СПП, иметь какие-то ориентиры хотя бы в приблизительном определении их цен, и, наконец, выбрать подходящий СПП для того или иного варианта спецификации класса решаемых задач.

Обсуждению именно этих проблем посвящена настоящая статья. И если предлагаемая здесь методология сравнительного анализа и рейтингования СПП, а также связанный с нею подход к ценообразованию СПП, претендуют на достаточную универсальность применительно к каждому конкретному типу СПП), то конкретный обзор рынка СПП носит, конечно, выборочный характер и акцентирован, как уже было сказано, на программном обеспечении, реализующем различные методы классификации (кластер-анализ, распознавание образов и т.п.).

Обзор составлен на основании личного опыта авторов, а также (в значительной мере) по литературным источникам, по информации от пользователей и разработчиков программ, рекламным материалам и т.п.

 

1. МЕТОДО-ОРИЕНТИРОВАННЫЙ СТАТИСТИЧЕСКИЙ ПРОГРАММНЫЙ ПРОДУКТ

Как выбрать подходящий СПП? Руководствуясь какими критериями следует сравнивать различные СПП? Можно ли оценить степень соответствия рыночной цены СПП его потребительским свойствам? Чтобы попытаться дать ответы на эти вопросы необходимо описать методо- ориентированный СПП как систему, т.е. представить себе его типовую структуру, содержание, связи между элементами и т.п.

1.1. Функциональное наполнение методо-ориентированного СПП

Отправляясь от общего спектра задач, решаемых с помощью математико-статистического инструментария, подразделим все содержимое функционального наполнения методо- ориентированного СПП на отдельные библиотеки модулей. Каждая из описанных ниже библиотек является, по существу, своеобразной расшифровкой соответствующей детализированной характеристики СПП, приведенной в «Приложении» в рамках блочного свойства «Разнообразие».

Библиотека 1: вспомогательные программы.

Эта библиотека состоит из трех разделов:

Раздел 1.1методы матричной алгебры, включает в себя модули, реализующие методы решения систем линейных уравнений и вычисления собственных чисел и собственных векторов в обобщенной постановке задачи. В разделе должны быть предусмотрены процедуры простого и псевдообращения матриц, процедуры диагонализации, метод Ньютона, «релаксационные» алгоритмы Гаусса-Зейделя и Якоби и т.д.

Раздел 1.2 оптимизационные алгоритмы, должен обеспечивать статистические модули необходимыми методами и алгоритмами поиска экстремума различных версий функционалов вида определяющих критерии качества статистического метода (метод наименьших квадратов и т.п.). К числу наиболее распространенных в статистической технике оптимизационных алгоритмов следует отнести методы «покоординатного спуска», метод сопряженных градиентов, различные модификации метода Гаусса-Ньютона (например, метод Хартли, метод Марквардта, некоторые версии случайного поиска и метода стохастической аппроксимации, метод ветвей и границ). Все большее распространение получают вычислительные процедуры, основанные на нейросетях и генетических алгоритмах.

Раздел 1.3статистическое моделирование на ЭВМ, включает в себя модули, реализующие процесс машинного генерирования одномерных и многомерных наблюдений, «извлеченных» их генеральных совокупностей заданного типа. Наличие модулей, генерирующих случайные векторы и числа, подчиненные заданному закону распределения, является хорошим подспорьем в анализе важных свойств статистических оценок, критериев, алгоритмов, не поддающихся теоретико- аналитическому исследованию (что особенно актуально в многомерном статистическом анализе). Эти же модули являются полезными составными элементами так называемой «бутстреп- технологии», а также - машинных имитационных экспериментов, используемых при анализе сложных реальных систем.

Библиотека 2: описательная статистика и разведочный анализ исходных данных.

Содержание библиотеки определяется основными задачами первичной статистической обработки данных. В частности, библиотека содержит модули следующего назначения:

2.1. анализ смешанной природы многомерного признака и унификация записи исходных данных.
2.2. Анализ резко выделяющихся наблюдений.
2.3. Восстановление пропущенных («стертых») наблюдений.
2.4. Проверка статистической независимости наблюдений.
2.5. Определение основных числовых характеристик и частотная обработка исходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних, дисперсий и т.д.).
2.6. Критерии однородности (средних, дисперсий, законов распределения, непараметрические или нескольких выборок).
2.7. Критерии согласия ( хи-квадрат, Колмогорова и др.).
2.8. Статистическое оценивание параметров.
2.9. Вычисление наиболее распространенных модельных законов распределения вероятностей (биномиального, геометрического, Пуассона, нормального, лог-нормального, хи-квадрат, Стьюдента, Фишера, бэта-, гамма-экспоненциального, Релея, Вейбулла, Максвелла, равномерного и некоторых других).
2.10. Визуализация анализируемых многомерных статистических данных и анализ их генезиса.

Библиотека 3: статистическое исследование зависимостей.

Это, пожалуй, самая объемная часть пакета. Она тематически распадается на 6 разделов.

Раздел 3.1 корреляционно-регрессионный анализ. Помимо модулей, реализующих более или менее традиционные методы корреляционного и регрессионного анализов, целесообразна реализация методов робастной (robust), гребневой (ridge) регрессий, итерационных методов оценивания неизвестных параметров в моделях конфлюентного анализа, а также методов, использующих кусочно-линейную аппроксимацию и «сплайновую» технику.

Раздел 3.2. дисперсионный и ковариационный анализ.

Раздел 3.3системы одновременных структурных эконометрических уравнений.

Раздел 3.4планирование регрессионных экспериментов и выборочных обследований.

Описание основных постановок задач разделов 3.2 ~ 3.4 можно найти, например, в [3].

Раздел 3.5 — анализ временных рядов, содержит модули, реализующие алгоритмы решения следующих задач:

3.5.1. Предварительный (описательный) анализ временных рядов: вычисление оценок среднего, дисперсии, авто- и взаимно ковариационных функций и т.п.

3.5.2. Выявление тренда (сглаживание) временного ряда (методы скользящего суммирования, экспоненциальное сглаживание, метод переменных разностей, модифицированный метод наименьших квадратов и др.).

3.5.3. Выявление скрытых периодичностей, спектральный анализ временного ряда.

3.5.4. Анализ случайных остатков временного ряда.

3.5.5. Различные модели временных рядов и задача прогноза (экстрапо-ляции): модели авторегрессии, смешанные регрессионно-авторегрессионные модели, модели Бокса-Дженкинса, общая модель типа ARIMA, многомерный прогноз по Винеру, прогноз многомерных временных рядов по динамическим темпам и коррелированным остаткам, модели распределенных лагов, использование фильтров и переходных функций, ARCH-модели и модели коинтеграции.

3.5.6. Некоторые специальные алгоритмы обработки временных рядов: быстрое преобразование Фурье, разложение временного ряда по системе функций Уолша, вычисление свертки двух многомерных временных рядов, задача «о разладке».

3.5.7. Проверка статистических гипотез: о стационарности ряда, о независимости его членов, об адекватности «подгоняемой» модели и др.

Раздел 3.6анализ зависимостей марковского типа.

Библиотека 4: классификация и снижение размерности.

Это следующая (после библиотеки 3) по объему библиотека пакета. Она распадается (тематически) на 5 разделов.

Раздел 4.1дискриминантный анализ. Модули этого раздела реализуют алгоритмы решения следующих задач:

Раздел 4.2статистический анализ смесей распределений. Помимо трудоемких итерационных алгоритмов вычисления статистических оценок неизвестных параметров смеси, эти модули реализуют процедуры статистической проверки гипотез о числе компонент смеси, о многомерной нормальности исследуемой совокупности, позволяют производить поиск унимодальных составляющих парзеновской оценки плотности.

Раздел 4.3кластер-анализ (таксономия). Модули этого раздела реализуют алгоритмы решения задач, связанных с оптимизацией тех или иных критериев качества классификации при четких и нечетких кластерах, а также класс так называемых иерархических процедур. Принцип работы иерархических процедур состоит в последовательном объединении (разделении) групп объектов, сначала самых близких (далеких), а затем все более отдаленных друг от друга (близких друг к другу).

Раздел 4.4снижение размерности в соответствии с критерием автоинформативности (без обучения). Раздел содержит программную реализацию различных вариантов метода главных компонент (линейных, нелинейных; при использовании количественных и неколичественных переменных), методов факторного анализа, методов экстремальной группировки признаков, методов многомерного шкалирования.

Раздел 4.5снижение размерности в соответствии с критерием внешней информативности (при наличии обучения). Раздел обслуживает проблематику отбора наиболее информативных показателей в задачах классификации (с обучением), регрессионного анализа и анализа экспертных оценок.

Библиотека 5: некоторые специальные методы статистического анализа нечисловой информации и экспертных оценок.

Целесообразность выделения отдельной библиотеки по данному разделу объясняется спецификой и весьма интенсивным развитием математических моделей экспертного оценивания, которые подчас апеллируют к исходным данным нечисловой природы, а также к методам и понятиям, не укладывающимся в рамки традиционных схем (например, к так называемым нечетким множествам).

Среди используемого здесь математико-статистического инструментария анализ таблиц сопряженности, лог-линейные модели, субъективные вероятности логит- и пробит-анализ, ранговые методы и т.п.

Библиотека 6: планирование эксперимента и выборочных обследований.

Помимо перечисленных шести библиотек, объединяющих так называемые обрабатывающие модули, в пакет входит ряд организационно-технологических модулей и программ: организующая программа («программа-администратор»), сервисная программа, библиотека паспортов модулей, таблица семантической модели.

1.2. Основные черты структуры СПП

СПП должен удовлетворять определенным требованием. Ниже перечислены основные из этих требований:

1. модульность программного обеспечения;
2. развитая система ассистирования при выборе способа обработки данных;
3. использование простого проблемно-ориентированного языка для формулировки задания пользователя;
4. автоматическая организация процесса обработки данных и связей модулями пакета;
5. наличие средств ведения банка данных пользователя и результатов проделанного анализа;
6. возможность диалогового режима работы пользователя с пакетом;
7. совместимость с другим программным обеспечением.

Разработку СПП обычно организуют в виде этапов, на каждом из которых создается вариант пакета, все в большей степени удовлетворяющий перечисленным выше требованиям. При этом, с одной стороны, результат разработки на каждом этапе должен представлять собой готовую к использованию программную продукцию, а с другой — являться составной частью более поздних разработок.

1.2.1. Библиотека модулей. Пакет простой структуры

Первый этап разработки и первый уровень организации пакета состоят в формировании библиотеки модулей. В дальнейшим под модулем СПП будет пониматься внешняя процедура или программа на языке программирования высокого уровня, удовлетворяющая некоторым дополнительным ограничениям. Наиболее важными из них являются ограничения: на способ аварийного завершения работы модуля; на способы связи по информации, например, на допустимость переменных внешнего типа и использование общей области; на возможность передачи управления между модулями с помощью операторов вызова, расположенных в теле модуля; на использование операторов ввода — вывода.

Независимо от дальнейшего способа реализации СПП, организация библиотек обрабатывающих модулей в пакете остается одинаковой. Именно все библиотеки модулей (классификации, сокращения размерности, регрессии и т.д.) физически организованы в виде двух наборов данных с библиотечной организацией — библиотеки исходных модулей и библиотеки загрузочных модулей. Элементы библиотеки исходных модулей содержат тексты модулей на языке программирования, а элементы второй библиотеки являются загрузочными модулями, полученными в результате компиляции и редактирования соответствующих исходных модулей. Наличие библиотеки исходных модулей позволяет проводить модификацию и коррекцию модулей в процессе эксплуатации пакета.

Состав модулей СПП определен выше. Организованные в виде библиотечных наборов данных, они образуют пакет простой структуры.

При достаточной квалификации пользователя в области программирования использование такого пакета состоит в отборе подходящих модулей и в ручном (т.е. осуществляемом самим пользователем) составлении головной программы на языке программирования, организующей вызов отобранных модулей в определенном порядке. Этот подход вполне приемлем там, где имеются квалифицированные пользователи, и средняя частота использования модулей невелика. Язык пользователя на этом этапе образуют язык программирования высокого уровня, язык обращения к операционной системе и языковые средства, введенные пользователем для управления своей программой.

1.2.2. Набор тематически-ориентированных программ

Следующий этап в разработке СПП состоит в создании набора тематически-ориентированных программ (TOP-программ), каждая из которых осуществляет автоматизированную организацию вычислительного процесса на некотором подмножестве модулей.

Такой подход к организации пакета представляет собой развитие принципов организации пакетов типа BMDP. Существенное отличие заключается, однако, в том, что программы пакета BMDP предназначены для выполнения лишь одной какой-либо статистической процедуры (например, линейной регрессии, дискриминантного анализа). С другой стороны, каждая из предлагаемых TOP-программ по существу является пакетом программ для решения некоторого подмножества задач прикладного статистического анализа.

Каждая TOP-программа может быть использована как в автономном режиме, независимо от других программ, так и в пакетном режиме, т.е. объединиться в определенном порядке с другими ТOP-программами для решения некоторой сложной задачи обработки данных. Для эффективной организации пакетного режима требуется наличие простого механизма передачи выходных данных какой-либо TOP-программы на вход другой TOP-программы.

1.2.3. Некоторые вопросы организации данных

Рассмотрим информацию, доступную TOP-программе в рамках одного задания. Эта информация делится на три части: управляющую, обрабатываемую и терминологическую.

Управляющая информация задается пользователем с помощью языка пакета или вырабатывается в результате работы программы. Она содержит описание типа обрабатываемых данных, требования к настройке программы обработки (количество и состав переменных, преобразование переменных, требования к выводу и т.д., метода обработки, используемой модели и др.).

Обрабатываемая информация состоит в первую очередь из исходного массива данных. Она может содержать также данные, получающиеся на выходе TOP-программ (параметры регрессионных уравнений, правил классификации, моделей снижения размерности и т.д.).

Терминологическая информация — это в простейшем случае словарь наименований переменных, групп, градаций качественных переменных, принятых в области исследований, для которой получена обрабатываемая информация. Использование этой информации позволяет провести «настройку» пакета, и, в частности, распечатку выходных данных в терминах области исследования. Терминологическая информация является одной из составных частей тезауруса содержательных понятий и является общей для всех программ, участвующих в процессе обработки. Ее хранение целесообразно в виде отдельного набора на внешних устройствах, доступного для всех обрабатывающих TOP-программ.

Для большинства задач статистической обработки данных достаточно допустить между программами, работающими в пакетном режиме, обмен информацией в виде векторов, матриц данных и матриц бинарных отношений, а также управляющей информацией. Передача данных от программы к программе возможна через область связи, организованную на внешних устройствах. Так как тип передаваемых данных ограничен, структура области связи является достаточно простой.

Для программ ввода-вывода и обрабатывающих модулей матрица данных всегда представляется в виде таблицы чисел. Если в матрице данных имелись неколичественные переменные и пропущенные значения, то они заменяются некоторыми числовыми кодами. Информация о видах переменных, о соответствии градаций неколичественных переменных и пропущенных значений числовым кодам и т.д. хранится в специальных таблицах.

Матрица данных может состоять из нескольких групп, которые в ряде случаев используются как самостоятельные матрицы данных для статистического анализа.

Принадлежность объектов матрицы данных к группам можно указать одним из следующих способов:

– с помощью последовательности матриц данных, так что каждой группе соответствует своя матрица данных, организованная в виде отдельного набора данных;

– введением группирующей переменной, так что объекты с одинаковыми значениями группирующей переменной попадают в одну группу; в качестве группирующей переменной может использоваться переменная, значения которой содержатся в матрице данных, либо некоторый вектор, образующий отдельный набор данных (BMDP, SPSS);

– если объекты, принадлежащие к каждой из групп, расположены последовательно, а расположение самих групп упорядочено, то принадлежность объектов к группам можно определить, задавая упорядоченный набор целых чисел, каждое из которых определяет объем соответствующей группы; такую организацию матрицы данных называют субфайловой (SPSS).

Для введения данных пользователя в пакете должны как минимум иметься средства уничтожения и дополнения системных файлов по объектам и переменным, объединение системных файлов, внесение исправлений в данные и описатели структурных данных. По требованию пользователя должна выдаваться информация об имеющихся у него наборах данных. Разумеется, пользователь должен иметь возможность организовать и собственные наборы данных, хотя в этом случае управление данными усложняется и возрастает вероятность ошибок при формулировании задания на обработку.

1.2.4. Пакет с генерацией программ

Более совершенной организацией обладают пакеты с генерацией программ. На этом уровне организации в качестве отдельной структурной единицы пакета выделяется организующая программа пакета, основной функцией которой является генерация обрабатывающих программ. Конструктивно организующая программа может быть выполнена в виде нескольких программ — транслятора с входного языка, планировщика и т.д., однако в данном изложении они не будут специально выделяться.

Организующая программа управляет работой пакета, осуществляя связь с операционной системой, воспринимает задание по обработке на языке пакета и переводит его на внутренний язык пакета, определяет последовательность модулей, которые необходимы для выполнения задания, организует связь между модулями по информации и управлению.

Заметим, что в рассмотренном ранее способе организации пакета в виде набора TOP-программ функции организующей программы в той или иной мере реализовывались, однако они выполнялись секциями, структурно входящими в состав TOP-программ.

Результатом работы организующей программы является план вычислений в виде программы на внутреннем языке пакета, которая затем передается соответствующему компилятору для получения программы решения задачи в виде, готовом для выполнения. Такой подход позволяет, в частности, сохранить и многократно использовать готовые программы, полученные в результате генерации. Планирование вычислений заключается в определении того, какие модули и в какой последовательности должны выполняться. Последовательность методов обработки обычно известна пользователю, по крайне мере на уровне группового имени (т.е. имени разделов библиотек, перечисленных во второй части данной работы), и функции организующей программы состоят в основном:

а) в конструировании последовательности обрабатывающих модулей, преобразующих данные на входе пакета к данным, которые могут обрабатываться первой из затребованных пользователем процедур обработки;

б) в согласовании данных на входе и выходе обрабатывающих процедур, если затребована последовательность методов обработки. Организующая программа использует для своей работы следующую информацию:


– предложения входного языка, описывающие задание пользователя;
– информацию из библиотеки паспортов модулей;
– информацию приоритета работы модулей.

Паспорт модуля содержит информацию об общем числе параметров модуля, числе входных и выходных параметров, числовом типе каждого параметра (целый, десятичный и т.д.), типе массива (простая переменная, одномерный массив, двумерный массив и т.д.), семантическом типе входных и выходных данных (матрицы данных, расстояний, коэффициенты регрессий и т.д.), о возможности использования на входе матриц данных с неизмеренными значениями, различными типами шкал признаков и т.д., и, наконец, умалчиваемые значения параметров.

Информация о приоритетах использования модулей позволяет выбрать один модуль из группы модулей (например, один из модулей регрессии), когда пользователем указано лишь групповое имя метода.

1.2.5. Входной язык

Входной язык пакета должен быть проблемно ориентированным неалгоритмическим языком высокого уровня, который позволяет описывать манипуляции внешнего управления пакетом, формулировать задания и описывать данные пользователя. Для обеспечения удобства в изучении и применении язык пакета целесообразно разделить на две части — язык пользователя и язык администратора.

Язык администратора в основном служит для модификации и расширения пакета программ (включение новых модулей, изменение правил умолчания и т.д.).

К языку пользователя предъявляется ряд особых требований, связанных с тем, что он предназначен для пользователей, большей частью не являющихся программистами-профессионалами. Основное из этих требований — удобство использования языка, которое во многом определяется следующими факторами:

1. максимальным использованием в качестве ключевых слов языка стандартных для прикладного статистического анализа терминов;
2. наличием «разумных» умалчиваемых значений для достаточно широкого круга языковых единиц (описателей данных, методов, параметров процедур и т.д.);
3. возможно более полным отходом от позиционного размещения как предложений языка во входном потоке задания, так и информации внутри предложений;
4. возможностью частичного исправления неверных директив на основе правил умолчания;
5. наличием развитой системы диагностики ошибок;
6. возможностью использования макроопределений.

2. МЕТОДОЛОГИЯ ОЦЕНКИ КАЧЕСТВА ПАКЕТОВ ПО СТАТИСТИКЕ

Общий подход является развитием методологии американской «Национальной лаборатории по тестированию программных продуктов». National Software Testing Laboratory (NSTL) — независимая (от разработчиков и продавцов программ) организация, проводящая регулярные экспертные оценки, а также рейтингование различных типов (в том числе и статистических) программных продуктов.

Приведем предлагаемую нами общую схему определения качества (рейтинга) программного продукта:

Рис. 1

В приведенную на рис. 1 блок-схему, в соответствии с [8] включен дополнительно (по сравнению с методологией NSTL) блок, который оценивает удобство работы пользователя- прикладника с тестируемым пакетом с позиций степени интеллектуализации данного пакета. Этот блок имеет большое значение, поскольку количество распространяемого на рынке статистического программного обеспечения явно обогнало численность специалистов-статистиков, особенно на отечественном рынке.

Эта ситуация заметно обострилась с появлением технологии записи компакт-дисков (CD-ROM), а также вследствие доступности «пиратских» копий таких дисков. В результате большое число пользователей — неспециалистов в математической статистике — зачастую совершенно формально использует тот или иной СПП, неправильно интерпретируя при этом результаты проведенного статистического анализа, что дискредитирует математический аппарат прикладной статистики.

Работа по интеллектуализации СПП как раз и преследует цель минимизировать долю случаев подобного рода эксплуатации СПП, предоставив пользователю в автоматизированном режиме необходимую статистическую консультацию по правильной постановке задачи, выбору подходящего статистического инструментария, по умению обойти встречающиеся на пути статистического анализа типовые «ловушки», по правильной интерпретации результатов анализа и т.п. Более подробно эта проблема освещена, например, в [1, 2, 3, 9], [10].

Из блок-схемы видно, что сравнение пакетов по мощности, степени интеллектуализации и удобству взаимодействия с ними осуществляется на основании десяти базовых качеств СПП:

1. разнообразия и степени продвинутости методов статистического анализа, а также средств управления данными;
2. скорости вычислений и выдачи результатов анализа;
3. качества выходных форм;
4. легкости использования;
5. легкости обучения;
6. общего уровня технологичности использования;
7. удобства и полноты общей справочной службы (касающейся используемой терминологии, методов, необходимой библиографии);
8. качества и полноты автоматизированных статистических консультаций «на входе» задачи, т.е. касающихся анализа генезиса анализируемых данных, выбора подходящих методов и моделей, подбора требуемой технологической цепочки обрабатывающих модулей СПП;
9. качества и полноты автоматизированных статистических консультаций в процессе проводящегося статистического анализа, т.е. касающихся типовых статистических «ловушек» и интерпретации промежуточных результатов;
10. качества и полноты автоматизированных статистических консультаций «на выходе» статистического анализа, т.е. касающихся интерпретации финальных статистических выводов, оценки их достоверности, возможных корректировок постановочной части.

Интегральная оценка качества и основанный на ней рейтинг получаются иерархически. А именно, детализированные характеристики, взятые с «весами», являются основой для построения оценок базовых качеств 1-10 того или иного СПП, те, в свою очередь, в виде взвешенной суммы дают оценку для каждого из трех обобщенных блочных показателей. Наконец, взвешенная сумма последних определяет общую оценку СПП.

В приложении приведены перечни детализированных характеристик по каждому из базовых свойств пакета. Помимо введения важного обобщенного блочного показателя «Степень интеллектуализации СПП», мы предлагаем принципиально иной (по сравнению с методикой NSTL) подход к определению весов, с которыми характеристики (детализированные, базовые и блочные) входят в сумму, определяющую оценку того или иного свойства более высокого уровня иерархии. В методике NSTL эти веса определяются прямым экспертным опросом, т.е. эксперт, располагая суммой, скажем, в 100 баллов, распределяет ее между суммируемыми характеристиками пропорционально удельному весу их влияния на формирование оценки соответствующего более общего свойства. Однако, разнообразный опыт подобного рода экспертного оценивания многократно свидетельствовал о том, что «разложение по полочкам» удельных весов частных показателей имеет в голове эксперта крайне размытый характер. Это отражается в весьма слабой согласованности мнений различных экспертов, привлеченных для решения данной задачи [11]. Мы же предлагаем использовать с этой целью так называемый экспертно-статистический метод ([3], гл.15). Это означает, что от экспертов следует получать балльные оценки одновременно и для суммируемых характеристик и для соответствующего интегрального свойства. После этого веса суммируемых характеристик рассчитываются в качестве коэффициентов регрессии из соответствующей регрессионной модели.

Остановимся кратко на сущности основных базовых свойств, характеризующих качество СПП.

Разнообразие алгоритмов и средств управления данными. Для простоты сравнения пакетов будем учитывать лишь встроенные функции. Это объясняется тем, что ряд пакетов позволяет добавлять к таким функциям оригинальные, написанные на собственном языке программирования данного пакета. При оценке разнообразия сделаем основные акценты на трех направлениях: собственно вычисления (статистические или «общематематические»), управление данными и графика.

Такое акцентирование делается из тех соображений, что в процессе анализа данных пользователю надо выполнять вычисления широкого спектра статистик (функций от наблюдений), передавать и преобразовывать данные в форму, необходимую для их анализа, а также представлять полученные результаты в наглядном виде.

Статистическое разнообразие определяется богатством и разнообразием его функционального наполнения, т.е. полнотой и качеством реализованных в пакете моделей и методов (см. раздел «Разнообразие» в Приложении). Традиционно, управление данными включает в себя экспорт/импорт данных, их преобразования (общематематические или статистические, логические, строчные), реструктуризацию данных, а также дополнительные возможности, предоставляемые встроенным языком программирования. Рейтинг пакета по показателю разнообразие, как впрочем и по всем остальным показателям, формируется на основе оценки наличия (отсутствия) той или иной возможности.

Подчеркнем, что в зависимости от реализованных в пакете возможностей управления данными, те или иные преобразования могут выполняться в одних случаях довольно быстро, а в других — крайне медленно (а иногда некоторые из преобразований могут быть и невозможными).

Графика является важной компонентой мощности СПП. Большое значение придается развитости графических средств, наличию графиков и карт аналитического характера, возможностям разметки карт и графиков. Немаловажна и способность вывести графики на печатающие устройства.

Скорость вычислений и представления результатов. Ряд пользователей, возможно, не придают этому показателю большого значения. Однако, на наш взгляд, скорость работы пакета важна для комфортной работы с ним и косвенно отражает трудоемкость его разработки. Кроме того, пакет с высоким быстродействием может быть заметно менее притязателен к аппаратной части ПЭВМ, что может «выливаться» в существенную экономию средств.

Это особенно важно для российского пользователя, у которого, особенно в глубинке (да и нередко в научных учреждениях Москвы), можно встретить машину класса 386DX или даже ниже.

Так, один из авторов лично во многих широко известных банках, в их планово- экономическом или кредитном управлении, в середине 1996 г. часто встречал дешевые варианты (типа 486SX) машин со знаменитыми торговыми марками (типа Vectra, IBM и др.). Эти машины, как и большинство машин класса brand name, отличаются повышенной надежностью, что весьма важно при работе в сети. Но в машинах с процессором типа 486SX отсутствует сопроцессор для операций с плавающей точкой, что является просто критичным для некоторых универсальных пакетов, например, для SPSS или SAS (версии для Windows).

Качество выходных форм. Оценка качества по 10-балльной шкале отражает пригодность выходных форм для анализа, отчетов, статей и презентаций. Кроме того, здесь учитываются дополнительные графические возможности: наличие логарифмических шкал, показ отдельных точек из графика, контроль пользователем местоположения условных обозначений, возможность печати графиков на той же странице, что и данные, возможность наложения графиков друг на друга и наличие встроенного графического редактора.

Легкость использования пакета и его освоения. Этот раздел методики построения рейтинга учитывает качество документации в виде «Руководства пользователя» и имеющихся учебных пособий по методам, реализованным в пакете. Кроме того, здесь оценивается удобство интерфейса «человек-компьютер», качество встроенной подсистемы помощи, степень удобства управления данными и работы с графикой итаблицами.

Говоря о базовых свойствах уровня интеллектуализации пакета, следует иметь в виду, в первую очередь, главную цель введения этого «блочного качества». А цель эта, как было уже упомянуто, заключается в организации такого режима использования СПП, при котором пользователь получает возможность иметь достаточно квалифицированное статистическое ассистирование в ходе всего процесса статистического анализа, т.е. при выяснении природы (генезиса) анализируемых данных, при выборе подходящих моделей и методов и их увязывании в технологическую цепочку, при интерпретации результатов и т.д. При этом, реализация четырех соответствующих базовых свойств («Справочная служба...» и т.д. см. рис. 1.) вовсе не обязательно связана с построением подходящей экспертной системы. Речь идет о развитой системе компьютерной консультационной (статистической) поддержки *), охватывающей различные стадии решения задачи, включая:

Необходимым условием обеспечения достаточной степени интеллектуализации СПП мы считаем привлечение к разработке пакета специалистов по теории и методам статистического анализа данных. Кроме того, весьма важным является максимальное использование всех интерактивных и графических возможностей современного персонального компьютера, а также возможностей, связанных с формализацией и представлением опыта и профессиональных знаний специалистов по прикладной статистике.


*) Описание методологии построения подобных систем статистической поддержки дается в [9].

 

3. НЕКОТОРЫЕ ВОПРОСЫ ЦЕНООБРАЗОВАНИЯ НА РЫНКЕ СПП

Специфическая черта СПП, а также других программ и интеллектуальных продуктов, отличающая их от обычных продуктов материального производства — ничтожно малые затраты на тиражирование готового продукта по сравнению с затратами на его разработку, рекламу и сбыт. Необычное распределение — сопоставимость первоначальных затрат (на предварительный анализ рынка, проектирование и разработку программы, тестирование и исправление ошибок) и затрат, связанных с продажей и сопровождением программы, — а также трудность прогнозирования тиражей (рынок СПП очень капризен) приводит к невозможности реализации затратного принципа, долго лидирующего в нашем ценообразовании. Поиск альтернативного принципа ценообразования приводит специалистов по интеллектуальной собственности к следующему достаточно «размытому» выводу [12]: “При массовой продаже копий, цена должна назначаться продавцом из соображений, касающихся только его. Свое согласие с ценой покупатель выражает самим фактом покупки. Наиболее естественная форма продажи в этом случае — этикеточная лицензия”. *)

Ниже предлагаются два подхода, открывающие возможность ориентировочного определения цен, согласующихся с текущим положением на рынке СПП аналогичного профиля. В связи с общей нестабильностью цен на рынке в РФ, подходы иллюстрируются на данных западного рынка СПП.

Ценообразование на базе эталонов. В основе этого подхода лежит идея о ценовой однородности программных продуктов в рамках одного класса, т.е. продуктов, обладающих примерно одинаковыми характеристиками по их мощности, скорости вычислений, степени интеллектуализации и др. (см.рис.1). Для выделения однородных групп СПП могут использоваться различные процедуры кластер-анализа, проводимые в пространстве базовых качеств пакета и соответствующих детализированных характеристик. Для экспериментальной иллюстрации этого подхода необходимо достаточно большое число обследованных СПП, обеспечивающее хорошую наполненность выявленных кластеров. Поэтому вопрос о выделении эталонных СПП нуждается в отдельном исследовании.

Ценообразование на основе общей оценки качества СПП. Этот подход отражает закономерный процесс роста цены СПП с улучшением его качества. Очевидно, что СПП высокого качества требуют существенно больших интеллектуальных затрат, что должно найти отражение в более высоких ценах по сравнению с менее качественными программами. Описанная выше методология получения общей количественной оценки качества СПП дает возможность непосредственной реализации этого подхода в рамках схемы регрессионного анализа.

Продемонстрируем этот подход на примере анализа специализированных СПП по анализу временных рядов.

П р и м е р.

Исследование СПП по анализу временных рядов проводилось в 1993 г. в Центре «Стат- Диалог» ведущими специалистами в данной области. Оценке подлежало одиннадцать СПП (10 из США и последний из РФ):

1. Rats 3.0 (VAR Econometrics);
2. SPSS+ 4.0 (SPSS, Inc.): mod. BASE,TRND,GB;
3. Minitab 7.0 (Minitab, Inc.);
4. Micro-TSP 6.5 (Quantative Micro Software);
5. SYSTAT 5.0 (SYSTAT, Inc.): mod.BASE;
6. Autobox Plus (AFS Co, Inc.);
7. PC-90 (BMDP, Inc.): 11 mod.;
8. SAS 6.06 (SAS Institute, Inc.): mod.BASE,ETS;
9. Forecast Pro (Scientific Systems, Inc.);
10. Statgraphics 2.6 (STSC, Inc.);
11. Mesosaur 1.1 (“Stat-Dialogue'', JV).

Оценка качества СПП по анализу временных рядов проводилась по описанной выше методике оценки СПП. При оценке функционального наполнения учитывалось наличие следующих процедур:

регрессия:

специализированная регрессия:

временные ряды:

Соотношение цены и общей оценки качества СПП по анализу временных рядов приведено на рис. 2, полученном по данным за 1993 г. [32]

Рис. 2

Среди всех рассмотренных здесь СПП заметно выделяются пакеты Autobox Plus и Mesosaur. Высокая цена первого нуждается в дополнительном исследовании, а очень низкая цена второго объясняется тем, что СПП из России являлись (да и до сих пор являются) диковинкой на западном рынке СПП, поэтому для захвата сегмента на новом рынке фирма-продавец пакета Mesosaur выбрала агрессивную ценовую политику.

Цены же остальных девяти СПП согласуются с выдвинутым предположением об отражении новой ценой качества СПП.

Наличие факта «насыщения» в зависимости цены рассматриваемых СПП от оценки их качества отражает то обстоятельство, что, с одной стороны, программа худшего качества имеет большее поле для усовершенствований и требует относительно небольших затрат. С другой стороны, попытки улучшить почти доведенную до идеала программу требуют кардинальных изменений и значительных интеллектуальных затрат. Это должно было бы привести к резкому росту цены при затратном подходе, однако, в рыночных законах типа «спрос-предложение» цена остается при этом ограниченной сверху подходящей горизонтальной асимптотой.

Таким образом, для любого специализированного СПП по анализу временных рядов, чье появление планируется на рынке, мы можем (на основании экспертных оценок показателей функционального наполнения, управления данными, качества графики, дружелюбия, легкости обучения и степени интеллектуализации) определить общую оценку его качества. По этой общей оценке уже нетрудно предложить цену, которая будет служить ориентиром в выработке дальнейшей стратегии.


*) Форма продажи программного обеспечения через торговую сеть: покупатель не подписывает традиционного лицензионного соглашения, но на него накладываются определенные обязательства после того как он разорвал внешнюю пластиковую упаковку с дискетой, на которой записана программа, а также специальным сертификатом, подверждающим его право пользования.

 

4. ОБЗОР ПАКЕТОВ ПО СТАТИСТИЧЕСКОМУ АНАЛИЗУ ДАННЫХ

Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином виде задачи статистического анализа данных, в среде DOS, OS/2 или Windows (версии 3.x или 95).

По-видимому, из западных универсальных пакетов наиболее известны и хорошо отработаны компьютерные системы SAS, SPSS, SYSTAT, Minitab, Statgraphics (или, по другому, STSC). Учитывая мнение, высказанное в [13], по-видимому, несколько в стороне от них можно поставить популярный в РФ пакет Statistica/W (его 3-я версия когда-то называлась CSS: Statistica [13]).

Из инструментария, активно используемого в мире в области анализа данных, в основном программистами (разработчиками и исследователями), наиболее известны библиотека численных и статистических методов IMSL (у нее есть конкурент по численным методам — NAG), а также интерактивная среда со встроенным ООП-языком программирования +.

«Полу-специализированными» (по классификации) и «полу-универсальными», по-видимому, можно считать российские пакеты STADIA, ОЛИМП и белорусский пакет РОСТАН. К этому же классу, скорее всего, следует отнести и американские пакеты ODA, WinSTAT, Statit, UNISTAT, Multivariance 7, JMP, SOLO, STATlab.

Кроме того, встречаются и явно специализированные пакеты по классификации и снижению размерности, как отечественные: КЛАСС-МАСТЕР, КВАЗАР, PALMODA, Stat-Media, STARC — так и зарубежные, например, MVSP.

Довольно широко известными являются пакеты, которые решают смежные с классификацией задачи. Ими являются американские системы BMDP/W [14], SigmaStat [15], Statistix, TURBO Spring-Stat-Win, а также отечественный пакет «Статистик-Консультант для Windows».

Кроме того, на рынке имеются статистические экспертные системы, например, СТАТЭКС, Statistical Navigator Pro. Среди нестатистических пакетов, решающих задачи классификации, можно отметить пакеты PolyAnalyst, ДА-система, АРГОНАВТ, ЛОРЕГ [16], пакет ОТЭКС [17] и разнообразные нейросетевые пакеты [5, 6, 7].

4.1. Универсальные (интегральные) статистические пакеты общего назначения

Все универсальные статистические пакеты, упоминаемые ниже, импортируют или экспортируют данные формата ASCII, dBASE, Lotus 1-2-3. Кроме того, они способны компоновать данные для анализа из различных файлов, осуществлять выборку подмножеств данных, их ранжирование или сортировку по тем или иным условиям. Наконец, всегда имеется возможность отредактировать данные в среде пакета и добавить описательный текст к анализируемым наборам данных (файлам).

Сводная таблица 1 с общей информацией об основных пакетах приводится ниже. Почти все эти пакеты доступны российскому покупателю.

Таблица 1
Общие сведения об универсальных пакетах и сведения о минимальных аппаратных требованиях к ним

Стат. система

Версия

Окруж.

МП/Част.

VHP

RAM

Фирма-продавец

User

Цена

SAS

6.11
6.07

W
D

386/33

65*
44

8***
4

SAS Institute, Inc.

H

850

Statgraphics+
Statgraphics+
Statgraphics

1.0

7.0

W
D
D

386/33

286/12

14.5
8.5
6.1

4
4
1

Manugistics, Inc.

M-L
M
M

1048
995
995

MINITAB

10.0
7.0

W
D

386/16
286/12

12
4

4
1

MINITAB Inc.,
[7], [38]

M-L

895

SYSTAT

6.0
6.0

W
D

386/33

8

4

SPSS, Inc.

H

995
995

SPSS/PC

7.0

W

486/50

65**

8

SPSS, Inc.

H

980

BMDP
Dynamic

 

D

 

 

 

SPSS, Inc.

H

695

STATISTICA

5.1

W
D

386/33

13

4

StatSoft, Inc.

H-M

995
795

IMSL-C
(Num)
Object Suite

2.0
1.0

W
W

 

 

 

Visual Numerics

H
H

700
700

S-Plus

W
D

 

 

 

 

StatSci

H
H

1450
1195

Примечания и обозначения:

1. Окруж. — сокращение от «Окружение»: W — Windows, D — MS-DOS;

2. Размеры в Мб: VHD — место, занимаемое на винчестере; RAM — операт. память;

3. МП — основной микропроцессор; Част. — его тактовая частота в [МГц];

4. User — квалификация типичного пользователя: H (high) — статистик-профессионал M (middle) — «есть базовые статистические знания»; L (low) — «отсут. базового уровня»; H-M — промежуточный;

5. Цены указаны в [ $ ]: цена лицензионной копии СПП взята из каталогов [5, 6, 7]};

6. Цены для SAS и SPSS указаны для базовых модулей на рынке в РФ; кроме того, SAS требует ежегодную оплату лицензии. С другой стороны, достаточно полная конфигурация SPSS (модуль Base + комплект из семи модулей) стоит $4290; Каждый из дополнительных модулей SAS или SPSS стоит, как правило, от $350 до $750. Цена на STSC+/W указана на комплект: «Базовый модуль» плюс «Модуль многомерного анализа».

7. Для всех универсальных пакетов разработчики весьма настоятельно рекомендуют использовать сопроцессор для операций с плавающей точкой (80387) или же использовать микропроцессор типа 80486-DX или Pentium; J.A.Wass [15] рекомендует использовать микропроцессор AT486-DX2-66 или более мощный, как минимум 16 Мб памяти и математический сопроцессор, если основной процессор типа 80386.

8. * для модулей BASE, STAT, GRAPH;

** включая файл «подкачки» на диске;

*** дополнительно рекомендуется файл «подкачки» на диске размером 15 Мб.

Ниже приводится пример использования в США методологии NSTL оценки качества СПП применительно к шести первым (из приведенных в табл. 1) статистическим пакетам общего назначения и, отдельно, применительно к тем их модулям, которые решают задачи статистического анализа временных рядов (по состоянию на 1991 год). Приведенные в таблице 2 результаты, с одной стороны, дают общее представление о принятом на Западе шесть лет назад рейтинге этих пакетов и модулей, а с другой стороны, демонстрируют работоспособность самой методологии.

Таблица 2
Результаты тестирования лучших зарубежных статистических программных продуктов общего назначения
*) (данные 1991 г.)

Название
пакета

Разно-
образие

Скорость
работы

Качество
выход-
ных
форм

Легкость
исполь-
зования

Легкость
обучения

Общие оценки мощ-
ности

Общие
оценки
удобства исполь-
зования

Интег-
ральная оценка

SYSTAT

7,8

7,3

6,1

8,1

7,1

7,5

7,9

7,7

SAS

7,9

6,2

5,9

7,3

6,5

7,3

7,0

7,2

STATGRAPHICS

6,3

3,3

8,0

8,6

8,6

5,8

8,7

7,2

SPSS/PC+

6,7

6,4

5,0

6,8

6,9

6,4

6,8

6,6

PC-90 (BMDP)

7,0

2,4

5,0

5,5

4,5

5,8

5,1

5,5

MINITAB

4,7

9,1

4,8

5,6

4,6

5,7

5,2

5,5


*) "SOFTWARE DIGEST (Ratings Report)", vol.8, number 5, 1991. The Independent Comparative Ratings Report for Selecting IBM PC Business Software. 13

Как мы видим из табл. 3, SYSTAT в то время являлся бесспорным лидером как по общим оценкам «мощности» и «удобства использования», так и, соответственно, по интегральной оценке качества. Лидеры по отдельным базовым свойствам:

1) по разнообразию средств: SAS (7, 9) и SYSTAT (7, 8);

2) по легкости использования: STATGRAPHICS (8, 6), SYSTAT (8, 1);

3) по скорости вычислений: MINITAB (9, 1) и SYSTAT (7, 3)

Представляют интерес для отечественного пользователя и результаты тестирования отдельных компонентов этих систем. Так, по одному из важнейших (в плане функционального наполнения) компонентов: «анализу временных рядов» интегральные оценки распределились следующим образом.

4.1.1. SAS

Общая информация. Система SAS существует и развивается с 1976 г. и работает на самых различных платформах под управлением одной из 12-ти операционных систем (ОС). Фирма-разработчик SAS в 1995 г. занимала 13-е место в мире (и 14-е в 1994 г.) среди ведущих разработчиков разнообразных программных продуктов, имея 3200 сотрудников, поддерживающих более 3 миллионов пользователей в 120 странах.

По сути, SAS сегодня является мощным комплексом из свыше 20-ти различных программных продуктов, объединенных друг с другом «средствами доставки информации» (Information Delivery System или IDS, так что весь пакет иногда обозначается как SAS/IDS). Одной из последних версий для Windows является версия 6.11 [15].

Если позиционировать SAS как товар на рынке статистического программного обеспечения, где одни сконцентрировались на графике, а другие на удобстве управления, то SAS прежде всего статистическая программа.

То есть основным «козырем» SAS является его непревзойденная мощность по набору статистических алгоритмов. Эту оценку мощности следует воспринимать лишь на фоне других универсальных СПП. Это не значит, например, что по богатству и качеству методов статистического анализа временных рядов соответствующий раздел SAS превосходит ряд других специализированных пакетов, например, широко известный отечественный пакет MESOSAUR.

Кроме того, SAS предоставляет пользователю возможность подключения его оригинальных алгоритмов.

Традиционно сложилось, что в СССР, а затем и в СНГ основными пользователями системы являются предприятия ВПК, крупные бизнесмены (некоторые крупные банки, включая Центробанк, биржи, торговые фирмы), некоторые атомные станции, крупнейшие медицинские и геофизические центры, крупные государственные структуры.

Под понятием IDS разработчик SASа понимает, что ее пользователю достаточно поставить на свой компьютер кроме ОС систему SAS и этим ограничиться для 100%-й информатизации деятельности любой фирмы (все остальные функции типа задач, решаемых на основе Excel, Word, любой из СУБД и др. полностью возьмет на себя SAS/IDS).

SAS/IDS — это интеграция весьма разнообразных возможностей доступа к данным и управления ими, средств анализа данных, способов представления информации и генерации отчетов. Система имеет модульную структуру и легко может быть сконфигурирована под специфические особенности ее пользователя.

Модули SAS, связанные с классификацией. В плане классификации и снижения размерности, и непосредственно связанных с ними задач, из системы SAS/IDS можно использовать следующие компоненты (модули системы):

Универсальные программные продукты. Это BASE SAS — ядро системы с встроенным языком программирования 4GL и языком работы с базами данных SQL, средства управления данными, поддержки индексов для баз данных, возможностями доступа к широкому набору форматов данных, процедуры описательной статистики и генерации отчетов.

Модуль FSP обеспечивает полноэкранный доступ к данным, ввод, редактирование, преобразование данных, генерацию отчетов и деловую переписку.

Модуль GRAPH содержит деловую, научную, рекламную графику, различные шрифты и карты. Дружественные к пользователю средства рисования и редактирования поддерживают создание сложных графических элементов, таких как сложные графики, трехмерные поверхности, разнообразные столбиковые или круговые диаграммы с любой степенью параметризации. Например, можно различными способами выделять группы данных или выполнять вращение системы координат (при этом будут синхронно изменяются изображения во всех открытых окнах).

Модуль STAT включает в себя многофункциональный набор статистических процедур анализа данных.

Дополнительные продукты, работающие под любой ОС. Модуль IML представляет собой интерактивный матричный язык программирования для выполнения углубленных математических, инженерных и статистических расчетов. Этот язык дает возможность математику легко программировать свои собственные процедуры, используя язык, близкий к языку линейной алгебры.

Модуль LAB обеспечивает пользователю экспертную поддержку. В частности, здесь система подсказывает пользователю, выполняются или нет предположения, лежащие в основе того или иного метода анализа данных.

Продукты, работающие, в частности, под Windows 3.1, OS/2. Модуль ASSIST является средством для облегчения интерактивного доступа пользователей к различным возможностям системы SAS/IDS.

Модуль EIS является меню-управляемым инструментом разработки и поддержки мощных интерактивных исполняемых информационных систем методом объектно-ориентированной технологии. С помощью этого модуля легко настроить систему на свои данные и формы представления результатов.

Модуль ACCESS дает возможность строить отдельные интерфейсы для связи SAS/IDS с самыми разнообразными CУБД (ADABAS, DB2, ORACLE, SQL/DS и др.).

Модуль INSIGHT представляет собой в высокой степени интерактивный инструмент для графического анализа данных.

Ясно, что из вышеописанных модулей — «кирпичей» можно строить любые, «сколь угодно высокие дома», однако процесс освоения технологии строительства, самого строительства, а также получения лицензии на «право застройки» потребует немалых интеллектуальных и материальных затрат.

Достоинства и недостатки пакета. Основными достоинствами SAS являются мощное интеллектуальное ядро, поддержка всех пяти архитектур клиент-сервер, возможность доступа и интеграции данных из любых источников и наличие объектно-ориентированной технологии быстрой разработки приложений.

При этом, благодаря исключительной гибкости и переносимости системы, приложение, созданное в одной из ОС может быть перенесено на любую из платформ, поддерживаемых SAS/IDS, начиная от суперЭВМ типа CRAY до Mainframe или рабочей станции (правда при этом, оно будет требовать для работы системную часть SASa).

В практическом плане [15], SAS сообщает пользователю, какие переменные определены, какого они типа, какие переменные являются активными, какой тип модели Вы бы хотели использовать для анализа, и специальные требования на используемый метод вычислений. Формирование отчетов нетрудно, если пользователь владеет соответствующими командами пакета.

Главные недостатки системы — громоздкость, большие трудности в освоении, высокие требования к статистической квалификации пользователя, жесткие требования к аппаратной части ПЭВМ, большой ее размер на диске. Особенностью пакета является и его дороговизна (см. примечания к табл.1), которая, правда, имеет тенденцию к снижению: в первый год выше $800 за каждый модуль и потом за него каждый год чуть более $300.

Из небольших недостатков, кроме высокой стоимости и необходимости владения специальной литературой, можно отметить следующие [15]. В подсистеме объяснения (Log system) просто сообщается, что при вводе команды Вы пропустили символ «;» и не приводится никакой контекстной, более эффективной помощи.

Второй, более существенный недостаток касается документации. Автору [15] не понравился уровень изложения статистической теории в руководствах SAS. Некоторые объяснения здесь требуют достаточной изощренности и опытности со стороны пользователя в области статистики. Правда в самых последних изданиях документации, фирма SAS начала браться за эту проблему и появилось много независимых от SASa публикаций на эти темы.

4.1.2. SPSS для Windows

Общая информация. Пакет SPSS стал известен в научном и деловом мире, будучи реализован на больших машинах. Основными пользователями его «пакетного варианта» традиционно были ученые, работающие в академических институтах и университетах, а также в разнообразных приложениях математической статистики, например, в области контроля качества [14].

Как и SAS, пакет предназначен в первую очередь для статистиков-профессионалов, так как имеет достаточно мощный аппарат статистического анализа, вполне соизмеримый по мощности с SAS.

Благодаря покупке фирмой SPSS компаний BMDP и SYSTAT, а также переориентации разработчиков в последние годы на платформу Windows, программа SPSS версии 6.1 для Windows 3.1 и версий 7.0 и 7.5 для Windows 95, стала в настоящее время одним из лидеров среди универсальных статистических пакетов. В частности, версия 7.0 является призером редакции журнала PC Magazine.

Однако, как и все мощные универсальные пакеты, SPSS, «любит хорошее железо» ( см.табл.1 ): процессор должен быть 486DX-2 и выше, для его использования рекомендуется 16 Мб оперативной памяти, а на винчестере модули Base и Professional Statistics для управления данными и с алгоритмами классификации потребуют, как минимум, 65–80 Мб (вместе с файлами «подкачки» — swap files).

Да и цена достаточно полного комплекта системы SPSS (SPSS Base + набор из 7 модулей) впечатляет ($4290 для версии 6.1 или 7.0).

Особенности версии 7.0 в плане интерфейса и классификации. SPSS для Windows 95 версии 7.0 отличается разнообразными возможностями по управлению данными и манипулированию полученными результатами, по работе с электронными таблицами. SPSS-7.0 предоставляет достаточно удобную графику (более 50 типов диаграмм), а также развитые средства подготовки отчетов. Эта версия отличается возросшими производительностью, скоростью вычислений и расширенным функциональным наполнением. Аналитические параметры отображаются на экране в виде простых и ясных меню и диалоговых окон. С введением новой панели инструментов потребуется лишь один щелчок мышки для запуска часто используемых процедур.

Усовершенствование в направлении легкости обучения достигается введением нового обучающего средства Навигатор. Навигатор, по сути, выполняет в SPSS интеллектуальную функцию, объясняя пользователю, какую лучше статистику применить в каждом конкретном случае или как ввести данные в данном подразделе. Во многом за счет этого средства, можно сфокусировать свое внимание собственно на анализе данных, не заботясь о механизме его выполнения. Новая контекстно-ориентированная справочная система содержит пошаговые инструкции для наиболее важных операций.

Для эффективного применения пакета для классификации и снижения размерности, как минимум, нужны методы из модулей SPSS BASE и Profess. Statistics. Существенно же повысить точность и/или эффективность классификации и прогноза может применение части (или всех) из модулей Advanced Statistics, CHAID и Neural Connection.

Первый модуль содержит, в частности, модели логистической регрессии, а также ряд методов, смежных с классификацией. Модуль CHAID находит значимые связи и решает задачи иерархического кластерного анализа, в результате чего строятся дендрограммы. Последний модуль реализует подход с позиций нейросетей.

На основе DDE и OLE технологий фирмы Microsoft, а также стандарта ODBC-2.0, в SPSS также решены вопросы обмена с другими Windows-приложениями и выполняется связь с большинством форматов баз данных. Так, можно, не выходя из среды WinWord-6.0, одновременно работать в среде SPSS и, наоборот, очень легко переносить полученные тестовые или графические результаты из SPSS в документ системы Word.

Достоинства и недостатки версий 6.1 и 7.0. По мнению разработчиков пакета, после SAS, в своей полной конфигурации SPSS для Windows является пакетом с наиболее высоким значением параметра мощность: он обладает весьма полным набором статистических (всего их более 60-ти) и графических процедур, а также процедур создания отчетов. Также, создатели пакета гордятся интерфейсом SPSS с пользователем, считая его очень простым и удобным. Кроме того, традиционно пакет отличается высокой точностью вычислений.

Однако, за повышенные комфорт и мощность требуется заплатить немалые суммы. Чтобы сориентировать читателя в ценах на модули, приведем некоторые из них. Так, модули «Углубленная статистика» и CHAID стоят в США около $500 и $700 (и, соответственно, $550 и $740 при покупке у дистрибутора в РФ; нейромодуль же стоит почти тысячу USD). Набор из модулей для решения задач классификации в составе SPSS BASE и Profess. Statistics для версии 6.1 или 7.0 будет стоить около $1100 в США [5] и $1530 при покупке у российского дистрибутора). Достаточно же полный комплект SPSS, как уже отмечалось, продается этим дистрибутором за $4290.

Версия 7.5. В марте 1997 г. Фирма SPSS представила на российском рынке новую версию пакета 7.5 для Windows 95 (NT) [39]. В ней базовый модуль устлан функциями факторного, кластерного и дискриминантного анализа, а также инструментами вычисления близости между наблюдениями (или переменными), что раньше входило лишь в дополнительные модули.

Работа с версией 7.5 существенно облегчена. Так, поддержка сценариев позволяет настраивать интерфейс, связывать сценарии с пиктограммами панели инструментов (пунктами меню), активизировать заданные последовательности действий, интегрировать пакет с другими приложениями, разрабатывать новые приложения, создавать контекстно-зависимые справочные системы.

Благодаря средству ОДВС, расширено число приложений, с которыми версия 7.5 может обмениваться исходными данными. Кроме того, можно импортировать SYSTATовские файлы, экспортировать таблицы и текст в формат ASCII. Пакет также может легко интегрироваться с Internet-технологией.

SASS 7.5 Base поставляется с руководством на русском языке. Кроме того, есть русификация на уровне интерфейса пользователя и навигатора результатов.

Для работы с версией 7.5 требуется ПЭВМ с ОС VS Windows 95 или NT, имеющий процессор 486 DX, 12 мб RAM) и монитором VGA (или более мощный). Он занимает на диске 55 мб и защищен аппаратной «заглушкой» (электронным ключом). Минимальная цена версии 7.5 составляет $980 за одно рабочее место. SPSS предлагает лицензии на год, три года и локальные лицензии для образовательных и научных учреждений. Приобретение последней дает право продавать копии пакета сотрудникам и студентам по любой цене. В числе дополнительных модулей оставлены модули Tables, Trends, Exact Tests, Nenral Connection и Diamod.

4.1.3. SYSTAT

Общая информация. Эта система универсального характера разработана одноименной фирмой, которая с сентября 1994 г. «поглощена» корпорацией SPSS. Пакет SYSTAT отличается от ряда других универсальных систем типа SAS, SPSS, BMDP тем, что он изначально был спроектирован под платформу IBM PC. Главное достоинство пакета, как впрочем и пакетов SAS и SPSS, исключительно широкий диапазон и глубина проработки функционального наполнения. Здесь есть широкие возможности и для слабо подготовленного в статистике пользователя и для достаточно искушенного статистика.

Фирма SYSTAT была совсем недавно одним из лидеров — производителей высококачественного статистического программного обеспечения, часто привлекающей к разработке известных специалистов- статистиков.

В результате более 150 учебных заведений во всем мире готовят у себя специалистов на основе наукоемких продуктов этой фирмы. Число ее зарегистрированных пользователей еще два года назад перевалило за 200 тыс. Пакет SYSTAT имеется в двух версиях — под MS-DOS и MS-Windows платформу (есть также версия 5.2.1. и для «MAKов», см. [38].

Ряд лет пакет был одним из лучших среди универсальных пакетов углубленного статистического анализа. Например, он был рекордсменом 1990-го года на конкурсе редакции журнала PC Week. Журнал Software Digest (Rating Report), издаваемый лабораторией NSTL, назвал SYSTAT в мае 1991 г. самым лучшим статистическим пакетом универсального характера (general-purpose). Редакция PC Magazine отмечала высокое качество статистических алгоритмов пакета, его явное доминирование в области планирования экспериментов. Также она, как и журнал InfoWorld, отмечала его великолепную графику, по которой еще недавно пакет являлся одним из лучших в своем классе. Однако, с современных позиций просматривается уже определенное отставание в графике в режиме «высокого разрешения» [38].

Windows-версия пакета 5.04 довольно подробно описана в [15] и кратко в [14], а 6-я DOS-версия кратко анализируется в [18]. В приложении к эконометрике пакет разобран в работе Ben White («SYSTAT» //Economic Journal, 1992, vol. 102. № 415). Имеются и учебные версии пакета, называемые MYSTAT [19] и BUSINESS MYSTAT (см. о них The Economic Journal,1990, vol.100, June).

Последние 6-е версии пакета для среды MS-Windows (выпуск 1996 г.) и для среды MS-DOS (выпуск 1995 г.) являются первыми версиями пакета, с тех пор как фирму SYSTAT купила корпорация SPSS, Inc.

Разработчики пакета считают, что SYSTAT-6.0 для среды Windows хорошо сбалансирован по соотношению «мощность/удобство» (см. [7], с.107).

О документации на SYSTAT. Документация пакета превосходна [15], [38] и включает в себя четыре тома. Это ясно и хорошо написанное руководство «Как начать работу», а также руководства по разделам «Графика», «Статистика». Есть и небольшое «Руководство по данным».

Второй и третий том являются скорее большими по объему книгами, которые дают читателю углубленный взгляд на то, что можно делать и как это можно выполнить в среде пакета. Второй том, к счастью, очень ясно описывает, как работать с графикой в пакете. Руководство по статистике читается с удовольствием и многие статистические объяснения достаточно хороши. Оно начинается с обзора методов и включает ссылки на хорошо подобранную библиографию. Учитывая большое число иллюстративных примеров и рекомендации по диапазонам применимости предлагаемых методов, можно сказать, что в методическом плане руководство не уступает добротному учебному курсу по статистическому анализу данных. Инструкции по пошаговой работе, как правило, полезны и точно ведут к цели, а указатель просто превосходен и очень полезен для пользователя, начинающего работу с SYSTAT.

Возможности SYSTAT по управлению данными. Эти возможности мы описываем, следуя [38], для версии SYSTAT 5.2.1. Пакет использует затабулированное окно для ввода данных и их редактирования. Самая верхняя строка таблицы с данными задает имена переменных, которые обязаны иметь н е б о л е е, ч е м 8 символов и оканчиваться на символ $, если данная переменная (признак) имеет неусловную природу. Ввод данных осуществляется без каких-либо ухищрений.

Предоставляемые возможности по преобразованиям данных легка в использовании. Однако, результаты таких преобразований являются «статистическими»: однажды вычисленные, данные уже не преобразуются, если Вы вдруг впоследствии внесли изменения в исходные данные. Функциональные имена в окне преобразований являются кодами, например, XDF и XCF обозначают плотность и кумулятивную функции распределения случайной величины хи-квадрат.

Пропущенные символьные значения кодируются в виде пробелов; пропуски в числовых признаках кодируются как самое отрицательное число и появляются в редакторе как периодические вещественные числа.

Улучшения версии 6.0 в плане легкости использования. Пакет управляется через легко используемое меню (версия для Windows) или с помощью команд, которые в версии 6.0 были улучшены и упрощены. В DOS- версии также есть возможность управления через меню, управляемое мышкой в текстовом режиме монитора. При этом выдавая графику, DOS-версия пакета переводит монитор из текстового режима в графический и обратно, что считается небольшим недостатком пакета в плане интерфейса с пользователем [18]. Автор [18] вообще считает, что не стоило выпускать версию, управляемую из среды DOS.

Для удобства вызова наиболее частых статистических процедур, в SYSTAT введены клавиши QuickStat. Рабочая таблица с данными легко активизируется и ясна на интуитивном уровне [15]. Продвижением вперед в шестой версии является уход от потолка в 256 переменных, включаемых пользователем в число активных признаков.

Графика в пакете SYSTAT-6.0. Пакет обладает прекрасными возможностями отображения на экране исходных данных и полученных результатов разведочного анализа, имея в своем распоряжении около 30-ти различных способов графического отображения: гистограммы, ящики с «усами», стебли с листьями [4], иконки, 2-D и 3-D диаграммы рассеяния и т.д. Кроме того, имеются матрицы диаграмм рассеяния, графики функций и географических карт. В рекламных материалах [5] подчеркивается, что 6-я версия пакета доминирует среди аналогов по разнообразию типов графиков.

SYSTAT версии 6.0 является единственным статистическим пакетом, который дает возможность легко комбинировать координатные оси, поверхности, контуры, диаграммы рассеяния и иконки на любой карте. Также небольшой изюминкой этой версии пакета является возможность комбинации ядерной оценки одномерной плотности, оконтуривания и использования других графических объектов внутри матриц с диаграммами рассеяния (см. [5], с.57).

Кроме того, пакет позволяет порождать и изображать сложные поверхности, что полезно для визуализации сложных функций. В версии 6.0 нажатием кнопки мыши легко вращать даже сложные 3-D графики с координатными осями по отношению к плоскости экрана [5]. Эта же возможность сохраняется и при обработке данных в режиме «реального времени».

Для многих графиков имеются специальные средства типа стрелки, с тем чтобы исследовать точки-выбросы, ключи с диапазонами для режима «лупа» или «лассо», для исследования выделенного фрагмента данных. Графика пакета гибкая, легко управляемая и объектно ориентированная. Есть возможности интерактивных графических преобразований данных, что очень удобно при разведочном анализе. Также имеются средства разработки презентаций.

SYSTAT имеет опцию «Графика высокого разрешения», которая обеспечивает вполне современный уровень графических средств. К сожалению, этот режим несовместим с современными версиями драйверов the Apple Laser Writer и не поддерживается в модели изображений Queck Draw разработчиком Macintosh [38].

Функциональные достоинства SYSTATа. SYSTAT обладает хорошей и заслуженной репутацией в плане его точности, используя много превосходных алгоритмов, которые описаны в его третьем томе документации. Он имеет достаточно обширное меню с функциональными алгоритмами, включая описательную и непараметрическую статистику, корреляцию, кластерный анализ, проверку многомерных гипотез для общей линейной модели (MGLH) и таблицы сопряженности. Пакет дает возможность замечательной работы во всех областях статистики [38], но особенно он силен в области дисперсионного анализа и планирования экспериментов (примеры см. в [15]). Аналогичное лестное мнение о непревзойденности пакета по ряду относительно редких методов статистического анализа высказывается в [18].

В версии 6.0 появилось множество дополнительных процедур для дискриминантного анализа, матричной алгебры, логлинейных моделей, планирования экспериментов, структурного анализа и карт контроля качества [18]. Также были добавлены робастные (устойчивые) алгоритмы, дающие точные и корректные результаты при почти вырожденных данных. Кроме того, эта версия предоставляет пользователю наиболее широкие возможности анализа общей линейной статистической модели.

Критические замечания к пакету. По мнению [14], некоторое неудобство работы с пакетом связано с тем обстоятельством, что часть операций доступна лишь из командной строки. Часто в качестве несущественного недостатка версии 5.04 пакета упоминается отсутствие хорошего редактора отчетов, так же как ограничение на число переменных в данных [15] (в версии 5.04 их можно было иметь не более 256, но в версии 6.0 это ограничение уже было снято [5]). Иногда объяснение в руководстве пользователя дается для упрощенного варианта меню, а детали используемого статистического метода даются только как инструкции к командной строке. Число десятичных разрядов вещественного числа нельзя фиксировать у данной переменной в рабочей таблице, а надо обязательно зафиксировать на всю таблицу целиком. При импорте файлов в версии 5.2.1. возникают проблемы, если в файле есть хотя бы одна переменная — признак с длиной имени, превышающей 8 символов [38].

Некоторые другие разделы меню содержат в себе меньше, чем это было бы нужно для оптимального дружественного интерфейса с пользователем, который характерен для некоторых графических редакторов. В частности, в [15] относительно версии 5.04 делается замечание к надоедающим исчезновениям главного меню при попытках управлять программой из определенных подменю.

Также, несколько важных статистических методов решительно не являются дружественными к пользователю (в [15] приводится пример по непарному t-критерию и простому однофакторному дисперсионному анализу).

Однако, по мнению [15], [38], несмотря на ряд этих небольших неудобств, SYSTAT является превосходной и весьма ценной программой. Правда, если Вы работаете на «МАКе», то для выдачи на принтер графики высокого разрешения, Вам необходимо дополнительно использовать специальные программные средства.

4.1.4. MINITAB

Сейчас распроcтраняется версия 10.0 для среды MS-Windows этой системы и уже появилась его улучшенная 32-х разрядная версия 11.0 [15]. Кроме рассматриваемых платформ, пакет также работает на Macintosh [20], [38] в среде MS-DOS, на рабочих станциях и других компьютерах.

Пакет развивается более 20 лет и широко известен в США, где он является одним из основных учебных пакетов. Во многом правда, это объясняется тем, что пакет в свое время захватил этот сегмент рынка, а вовсе не его исключительными свойствами.

Он хорошо продуман по разделу описательной (дескриптивной) статистики, хорошо сконструирован и управляется с помощью очень удобного меню, или, по желанию пользователя, через команды, составлять которые помогают диалоговые окна пакета. Часто используемые команды можно запускать и по их первой букве. Общее число команд превышает 200 [20]. Можно составлять и специальные макросы для выполнения последовательностей команд.

Импорт/экспорт данных из других Windows-приложений делается через стандартный буфер обмена (то есть последовательным выбором команд в меню двух пакетов типа Cut/Copy Paste to/From). В пакете имеются разнообразные возможности по управлению данными.

Документация пакета превосходна [15, 20, 38] и включает в себя три тома: 28-страничное руководство для быстрого освоения, 240-страничное руководство пользователя и справочное руководство. Последнее содержит множество примеров и превосходные указатели.

Таким образом, пакет ориентирован на неспециалистов в области математической статистики, в частности, на студентов университетов. Пользователь Minitab может легко и быстро решать практически все типовые задачи, в основном из области одномерного анализа и анализа временных рядов [20]. Фирмой Minitab, Inc. хорошо налажены поддержка пользователей и обмен опытом через Группу Пользователей Minitab. Кроме того, фирма весьма дешево продает мини-руководство по пакету для тех студентов, которые, возможно, его не имеют, но хотят больше о нем узнать в рамках своих учебных курсов.

В плане многомерного анализа 8-я версия пакета явно не являлась лидером, но тем не менее, она позволяет находить главные компоненты или же проводить стандартный линейный или даже квадратичный дискриминантный анализ [20]. Однако, многомерный анализ был усилен в более поздних версиях.

Так, в версии 10.0 были добавлены алгоритмы факторного и кластерного анализа (см. табл.1 из [15]). Кроме того, эта версия позволяет получать множество хороших и сложных полноцветных графиков. Именно за графику критиковалась ранее 8-я версия пакета для «Макинтошей», особенно в режиме высокого разрешения [38]. В плане характеристики мощность Minitab-10.0 достаточно силен и разнообразен, поэтому первые четыре буквы пакета скорее надо поменять на Maxi.

Недостатком пакета является отсутствие формул для статистик в справочном руководстве, что затрудняет анализ значимости влияния различных факторов на принимаемые решения [15]. Но, с другой стороны, этот справочник изобилует ссылками на стандартные статистические учебники [20].

Автор [15] полагает, что недостатки Minitab не очень существенны, и что он является пакетом с умеренным соотношением «качество/цена». Более критично оценивается 8-я версия пакета в [38]. «Скованность многоплатформной совместимости, статичные и непригодные для компоновки графические изображения на экране монитора, интерфейс с пользователем через командную строку, — все это характеризует Minitab как нечто старомодное».

4.1.5. Statgraphics

Общая информация. Пакет предназначен в основном для тех пользователей, которые уже имеют определенный опыт в статистике [21]. Особенно это касается модуля с многомерными методами. Для корректного их использования, пользователь должен иметь базовые знания по статистике и знать допущения и ограничения тех или иных статистических критериев и многомерных методов [15].

Однако в самой последней версии пакета Statgraphics+ для Windows (версия 1.0) (ниже обозначенный для краткости STSC+/W) и эти требования к пользователю постепенно начинают ослабляться [7, c.105]. Разработчики пакета считают его одним из самых легких в обучении. Например, журнал PC Magazine (11 May, 1993) отозвался о нем весьма лестно.

Statgraphics хорошо известен российскому пользователю (иногда он обозначается STSC). Пакет был изначально разработан для платформы IBM PC и нацелен, в первую очередь, на графические возможности компьютерной статистики. Однако, постоянное его совершенствование в плане функциональных алгоритмов и способов управления данными существенно усилило его базовую характеристику мощность, что сильно повысило его конкурентоспособность.

Так, по данным за 1990 г., пакет занял по общему рейтингу второе-третье место, поделив их вместе с мощным пакетом SAS. Но уже к осени 1995 г., по признанию Sortware Digest (издание фирмы ), пакет STSC был признан одной из наиболее эффективных интегрированных систем статистического анализа данных на ПЭВМ.

Его важнейшим «плюсом» считается удачное соединение математического аппарата обработки данных с современной интерактивной графикой [15, 21]. Другие, менее существенные его достоинства — это широкие возможности взаимодействия с электронными таблицами и СУБД (типа dBASE и ее «потомков»), а также с разнообразной периферией. Обмен с таблицами в Windows-версии выполняется через стандартный буфер обмена (Windows clipboard).

В плане классификации и смежных с нею задач, пакет содержит такие разделы, как Дескриптивная статистика, Разведочный анализ, Многомерный анализ. Кроме того, STSC имеет еще 8 крупных разделов по методам математической статистики.

В нашей стране широко распространилась 3-я версия пакета (см. [22, 23]), сильно устаревшая к настоящему времени. Поэтому, следуя [15, 21] и [7, c.105], опишем эволюцию пакета STSC более подробно.

Эволюция версий пакета STSC. Начиная с версии 4.0, пакет можно использовать как библиотеку аналитических и графических функций для других прикладных программ. Нетрудно подключить и свои оригинальные процедуры, если написать их на встроенном языке пакета APL*Plus.

В версии 5.0 была полностью переработана документация, а также был заметно улучшен встроенный редактор данных, который позволяет формировать и работать с разнообразными рабочими таблицами.

Начиная с версии 6.0 в STSC введен манипулятор мышь, использование которой наряду с простым и удобным интерфейсом, делают процесс работы пользователя с пакетом легким и приятным. Манипулируя мышкой, легко получить информацию о точках на графиках, удалять из активных данных отдельные объекты или группы точек, просматривать в интерактивном режиме результаты расчетов в графическом виде. Интерфейс настолько удобен, что щелчком мышки изменяются атрибуты изображений, производится вращение графика в пространстве 3-D и т.д. DOS-версия пакета STSC Plus-5.0 (версия для машин класса 386 и выше), работает в пять раз быстрее версии 4.0. В ней же сняты ограничения на размеры исходных данных. В версии 6.0 также несколько улучшена документация.

В настоящее время можно приобрести DOS-версию 7.0 (выпуск 1993 г.), а также более современную в плане интерфейса и возможностей версию 1.0 Statgraphics+ для среды Windows (выпуск 1994 г.) или для MS-DOS. Применительно к тематике статьи, в этих двух версиях усовершенствован механизм работы с матрицами, значительно развиты процедуры комбинирования текста и графики, кроме того есть возможность импорта файлов из популярной программы Excel, входящей в состав комплекса Microsoft Office фирмы Microsoft. Как и версии 6.0, интерфейс здесь весьма привлекателен и легок в использовании, а также знаком типичному пользователю, работающему в среде MS-Windows.

Описание версии STSC+/W с фокусировкой на классификацию. STSC+/W — пакет, построенный по модульному принципу.

Базовый модуль содержит ряд общих процедур, а также процедуры линейной регрессии. В разделе описательной статистики можно проанализировать одну или несколько переменных, подогнать те или иные теоретические функции распределения, получить интересующие Вас статистики. Есть возможность рассчитать коэффициенты корреляции Пирсона и ранговой корреляции Спирмена, но других средств ранжирования переменных нет.

Традиционно пакет имеет обширные и весьма гибкие графические возможности: в наличии не только 2-D — цветные, но и 3-D — графики, диаграммы прямоугольников с контактами, графики на сетке, частотные гистограммы, диаграммы рассеяния, столбчатые и круговые диаграммы. Кроме широкого диапазона графических средств, в пакете легко настроить те или иные параметры, нужные для выдачи графика на экран или на любое внешнее устройство, включая цветной принтер. Работу с графиками легко освоить, так как многое понятно даже на интуитивном уровне. Таким образом, именно блестящая графика является «нишей пакета» на рынке универсальных пакетов.

Продвинутый многомерный анализ вынесены, как и ряд других разделов статистики, в дополнительные модули. Всего их четыре: контроль качества, планирование экспериментов, временные ряды и многомерные методы.

В базовом модуле средства создания отчетов слабые, в частности, нельзя в одном отчете объединить текст и графику. Дополнительные модули усиливают средства создания отчетов.

Встроенная система справки содержит простой в употреблении словарь, не являющийся полностью гипертекстовым. Так, определение некоторых статистических функций порой «зацикливается на некоторых цепочках».

Интересной новинкой в STSC+/W является введение сеанса работы StatFolio, внешне напоминающего папку. В этой «папке» объединяются исходные данные, а также примененные к ним аналитические процедуры, полученные выходные графики (в виде пиктограмм). Таким образом, в STSC+/W сеанс StatFolio, а не набор исходных данных (файл), является объектом рассмотрения. Аналогичный folio-прием используется в другой широко известной программе SigmaStat-2.0 [15]. Сеансы можно комбинировать по два или в большем количестве.

Так, например, если Вы желаете выполнить анализ новых данных, то просто добавьте их в выбранный сеанс. В результате пакет STSC+/W перерисует все ранее выбранные в сеансе диаграммы, но уже для новых данных. Аналогично, в сеанс можно включать или удалять те или иные методы анализа данных.

О недостатках пакета. Небольшими недостатками STSC+/W являются нечеткости в его справочной системе и выдача результатов расчетов с точностью до 4–5 значащих цифр [21]. Другие его недостатки упоминаются в [15]. Так, некоторые особенности пакета, которые делают его легким в использовании для подготовленного пользователя, могут заводить «не в ту степь», неопытного или слабо обученного пользователя. Есть и более серьезные минусы.

Например, пакет в разделе планирование эксперимента с пропусками в переменных выдавал явные ошибки. Или пакет некорректно работал при проведении парных сравнений на основе -критерия. В плане корректности вычислений, по-видимому, пакет несколько уступает своим ближайшим конкурентам SYSTAT и SPSS.

Другой причиной огорчений автора [15] была документация, содержащая превосходные ссылки и почти удовлетворительные указатели. Огорчения же относились к документации на дополнительные модули. Хотя многие тесты там хорошо объясняются, однако ясность и глубина изложения материала явно недостаточны. Там же приводится пример к документации на модуль по контролю качества. Документация на модуль многомерного анализа сразу же активно использует те или иные методологии кластерного анализа, вовсе не объясняемые на многих ее страницах. Эту вынуждает неподготовленного пользователя обучаться основам статистики самостоятельно, чтобы корректно использовать блок многомерных методов.

4.1.6. BMDP Dynamic

Это более производительная версия пакета PC-90, который пять лет назад являлся популярной реализацией широко известного пакета для больших машин BMDP [24]. Версия работает в защищенном, 32-х разрядном режиме микропроцессора [6].

4.1.7. STATISTICA/W

Общая информация. По мнению авторов [14, 38], пакет не стоит использовать пользователю-новичку в статистике, т.к. предполагает владение статистической терминологией.

На рынке, кроме последней версии 5.1 для MS Windows 3.x, также доступна его DOS-версия Statistica/DOS. Имеются и их упрощенные модификации, содержащие в начале слово Quick: Quick-Statistica/W и аналогично для DOS. В США распространяется также версия 4.1 для «Макинтошей» (цена — $695). Выделяются графические возможности этого СПП.

О мощности пакета Statistica/W. Ряд авторов считает, что пакет Statistica for Windows (ниже Statistica) является хорошо сбалансированным по соотношению «мощность/удобство» [14, 25]. Наличие достаточно широкого спектра функциональных алгоритмов делает его достаточно привлекательным для статистиков- профессионалов. Однако, относительно распространена точка зрения, в соответствии с которой удобство работы с этим пакетом оценивается весьма невысоко [38], см. Также ниже. В частности, Statistica по своей структуре как бы состоит из нескольких связанных между собой «мини-пакетов». Эти «мини-пакеты» взаимодействуют друг с другом, имея одинаковый формат системных файлов. Так, если Вам нужен раздел линейной регрессии, то Вы должны покинуть окружение главного модуля СПП и выйти в окружение модуля («мини-пакета») линейной регрессии.

В плане функционального наполнения пакет, например, по сравнению с программой STSC+/W, отличается бо'льшим разнообразием, включая в себя и те разделы анализа, которые STSC содержит лишь в дополнительных модулях (поставляемых за дополнительную цену). Например, он включает в себя ряд непараметрических методов анализа, методы многомерного анализа: дискриминантного, факторного кластерного логлинейного и др.

Отсутствуют методы планирования экспериментов, графика по методам контроля качества. В целом пакет Statistica по мощности уступает и SAS, и SPSS, и SYSTAT’y.

Особенности управления пакетом. Опишем, следуя [14, 38], характеристики удобства управления пакетом. Данные легко ввести в среду пакета, относительно легко отредактировать, создать новые переменные («признаки»), выбрать отдельные наблюдения или «вырезать» подмножество данных по строкам и/или по столбцам таблицы «объект-признак». Благодаря обширной панели инструментов, для выполнения большинства задач достаточно несколько щелчков мышки, так как почти для всех функций пакета здесь имеются пиктограммы. Кроме того, щелчком правой кнопки мышки можно вызвать дополнительные подменю, которые существенно ускоряют работу с пакетом.

Если Вы забыли задать ту или иную переменную или параметр метода, то пакет тут же заметит это, и сделает запрос к пользователю с необходимой подсказкой.

Интересной особенностью пакета является настройка функций под экран, открытый в данный момент времени. Так, при загрузке программы в память машины в активном окне возникает список модулей («минипакетов»), доступных пользователю в данный момент времени. Отсюда пользователь может самостоятельно решить, какого сорта анализ ему необходимо сейчас выполнить. Список модулей и порядок их следования в окне могут быть определены пользователем, что дает ему дополнительные удобства в гибкости настройки.

Statistica имеет возможность работы в пакетном режиме, используя свой командный язык SCL. Можно использовать и наборы команд, объединяемые в последовательности или макросы. Используемые в пакете макрокоманды идут несколько дальше стандартных Windows-макросов. Например, с помощью макрокоманд удобно готовить презентации. Кроме того, пакет дает средства составления отчетов.

Связь с другими Windows-приложениями. Благодаря поддержке DDE, нетрудно выполнить те или иные командные сценарии изнутри других приложений. Например, можно в Excel написать макрос, который запускает пакет Statistica. После добавления в макрос специальных SQL-команд можно импортировать в пакет данные.

В версии под Windows, как всегда (например, как для SPSS или STSC+/W), использование OLE технологии обмена между Windows-приложениями позволяет легко интегрировать результаты, например, WinWord и Statistica.

Графика и документация в пакете Statistica. Наиболее сильной стороной пакета является графика и средства редактирования графических материалов. Представлены сотни типов графиков: типа 2-D или 3-D (имеются даже графики типа 4-D), матрицы и пиктограммы. Есть возможность разработать свой дизайн графика и добавить его в меню.

Средства управления графиками включают в себя работу одновременно с несколькими графиками, изменение размеров сложных объектов, расширенные возможности рисования с добавлением художественной перспективы и рядом специальных эффектов, разбивку страниц и быструю перерисовку. Например, 3-D графики можно вращать, накладывать друг на друга, сжимать или увеличивать. Передовая анимационная техника, примененная в версии 5.0 и относящаяся скорее к области искусства, позволяет Вам увидеть на графиках, какие точки там изменились под влиянием изменений в одной из переменных.

Кроме того, пакет имеет трехтомную документацию в 3000 страниц и краткое руководство. В экранный справочник входит почти вся информация печатной документации. Содержащиеся в документации и экранном справочнике рекомендации полезны, но порой недостаточно полны, а порой — чересчур детальны. Кроме того, они не всегда стыкуются с иерархическим стилем пакета [38].

Критика пакета Statistica версии 3.0 и фирмы StatSoft. В плане критики пакета стоит упомянуть работу [13] Л.Уилкинсона, президента фирмы SYSTAT, касающуюся версии 3.0 пакета Statistica, которую он в свое время разослал 40 тыс. своих пользователей.

На 26 страницах этой брошюры Л.Уилкинсон выявляет непорядочность руководства (и/или нечестность персонала) фирмы StatSoft по отношению к фирме SYSTAT. Pawel Lewicki, президент фирмы StatSoft, взаимно выпустил в свет брошюру на 48 с., где он оправдывается или выдвигает встречные обвинения к фирме SYSTAT [26].

Л.Уилкинсон в [13] приводит много примеров, иллюстрирующих то, что третья версия пакета была плохо оттестирована и поэтому приводила иногда к некорректным или даже к неверным результатам.

В связи с этим, Л.Уилкинсон не ставит этот пакет в один ряд с другими универсальными пакетами класса brand name: SAS, SYSTAT, SPSS, Statgraphics, к которым можно также отнести библиотеку IMSL [24].

С другой стороны, независимые авторы, например [14], или Алан Фридланд, явно или неявно называют 5-ю версию пакета Statistica «блестящим мастером на все руки» [25]. Однако, учитывая холодность стиля последнего критика по отношению к SYSTAT [18], можно заподозрить его в симпатиях к StatSoft и, тем самым, в его необъективности в другую сторону.

4.1.8. StatView и Super ANOVA

С 1985 г. Пакет StatView является бестселлером для Макинтошей в области анализа данных. Почему? Потому, что он легок в освоении и в использовании. Гибкий и интуитивно ясный графический интерфейс с пользователем, традиционный для «Маков», позволяет Вам провести анализ Ваших данных подходящим способом.

Разработчик (фирма «Abacus Conceptr») представляет свой СПП как интегрированную систему для анализа данных и презентаций, ориентированную на исследователей и аналитиков. По мнению [38], StatView версии 4.1 является хорошим, и возможно даже превосходным средством для решения этих задач, особенно для данных малого—среднего размера (меньше 1000 наблюдений).

Super ANOVA является самостоятельным СПП, предназначенным для линейного моделирования на Макинтошах. Но, поскольку, оба СПП могут легко обмениваться данными, то мы, следуя [38], рассматриваем их вместе.

В StatView имеются два основных типа документов для данных и для их анализа. Первый тип имеет вид электронных таблиц. Документы для анализа могут комбинировать таблицы, текст, графику, с тем, чтобы можно было создать отчеты на основе документов первого типа.

Один из авторов [38] очень рекомендует StatView для проведения на Макинтошах разведочного и статистического анализа данных, а также для подготовки графических материалов для научных выступлений.

StatView использует интерфейс типа электронных таблиц для ввода данных и манипуляций над ними. Имеющиеся преобразования данных на основе заданных Вами формул, основываются на более, чем 150-ти встроенных арифметических, алгебраических, тригонометрических, статистических и других функциях. Преобразования могут быть статистическими или динамическими. В последнем случае изменение входных данных автоматически отслеживается в преобразованных данных. Поддерживается обработка данных с пропущенными значениями. Имеются возможности извлечения подвыборок, сортировки или разбиения данных на подмножества.

В функциональном плане, StatView предлагает дескриптивную статистику, частотные распределения, вычисления процентных точек, t-критерии, доверительное оценивание, анализ корреляций и ковариаций, регрессию (простую, множественную, полиномиальную, пошаговую), дисперсионный анализ, анализ таблиц сопряженности, непараметрические методы и разведочный факторный анализ.

Возможность доступа к любому виду анализа обеспечивается графическим пользовательским интерфейсом. Всего имеется четыре вида базовых компонент для окон: стандартные «маковские» падающие вниз меню, иерархическая палетта анализа, палетта переменных и окно анализа результатов.

Super ANOVA, другой продукт этого же разработчика, имеет аналогичный пользовательский интерфейс. С точки зрения обычного пользователя, конечно, предпочтительнее было бы проинтегрировать оба продукта в один.

По своим графическим возможностям, StatView является выдающимся пакетом для графического представления данных. Так, автор [38] активно использует пакет, как зарегистрированный пользователь, с целью научной графики. Пакет включает все традиционные для таких СПП 2-D графики. Но его возможность создавать графики, разбитые внутри окон вывода по категориальной переменной, особенно полезна и удобна. В [38] на рис. 9 приводится пример такого графика в виде набора «ящиков тьюки с усами». В графике даются разнообразные возможности форматирования манипуляций и редактирование графических изображений, осей и пр. Автор [38], тем не менее, указывает на те немногие места в графике пакета, которые желательно было бы усилить.

Обмен через буфер с другими Windows-предложениями, такими как Word или Mac Draw, работает очень хорошо.

Оба пакета очень удобны и хороши при автоматизированном, однотипном анализе данных, проводимом Вами на нескольких наборах данных.

В целом, 465-страничная документация StatView очень хороша. Примерно половина ее посвящена деталям ввода данных, их импорта/экспорта, управления данными и проведения анализа данных. Вторая часть посвящена детальному обсуждению методов статистического анализа, поддерживаемых в пакете. В большинстве случаев, обсуждение включает обзор методов, рекомендаций, когда полезен тот или иной метод, предположений, как организовать и преобразовать данные, чтобы достичь наилучшего использования того или иного метода, обсуждение результатов. Также приводятся примеры работы с выборочными данными.

Документация по Super ANOVA объемом 322с. Имеет то же общее качество, что и у StatView.

В настоящее время, Sci TECH Int. Распространяет новую версию 4.5 StatView. Она включает в себя средства для анализа данных типа времени жизни и для контроля качества, возможности обмена с файлами типа *.xls программы MS-Excel, многочисленные улучшения в плане легкости использования (более широкий набор шаблонов, доступных из меню). Также добавлены функции форматирования колонок в таблице данных и средства строкового программирования.

4.2. Инструментарий для разработчиков и исследователей,
ключающий мощную статистическую компоненту

К этому классу ПП можно отнести пакеты библиотечного типа IMSL и SSP, интерактивную среду S-plus, а также широко известные пакеты Mathcad-6.0 (фирма Math Soft) и Mathematica Enhanced версии 2.20 (фирма Wolfram Research), содержащие разнообразные математические и статистические средства и имеющие модульную структуру (анализ временных рядов, модули финансового анализа, разведочного анализа, решения дифференциальных уравнений, цифровой обработки сигналов и др.).

Например, последний пакет имеет язык программирования высокого уровня, который позволяет математику записать то или иное уравнение в привычном ему виде и быстро решить его, намного опережая по скорости разработки программирование задачи на ФОРТРАНЕ или С. Встроенные в Mathematica «электронные ноутбуки» позволяют легко организовать Ваш текст, результаты вычислений и графику в выразительные технические отчеты и презентационные материалы. Так же легко получить 2-D и 3-D графики и выполнить другие способы визуализации данных. (Подробнее о последних двух пакетах см., например, [34, 35, 36]).

4.2.1. IMSL

Пакет IMSL по сути является библиотекой процедур и ориентирован прежде всего на исследователей и на разработчиков прикладных программных продуктов.

IMSL можно использовать в виде библиотеки исходных текстов на Фортране-77 или на C. Библиотеки пакета IMSL можно использовать отдельно или же с подключением графической библиотеки Exponent Graphics-2.1 или другой объектно-ориентированной библиотеки на языке C++, называемой Object Suite (версии 1.0).

Последняя библиотека составлена из математического и графического модуля. Первый, кроме математических функций, поддерживает также разработку объектно-ориентированного интерфейса с пользователем. В табл. 1 указана цена только на математический модуль из Object Suite.

Пакет Exponent Graphics-2.1 стоит на 20 % дороже, чем библиотека IMSL-C (Num.), например, связка IMSL-C Numerical Labs плюс IMSL Exponent Graphics, разработанная для среды разработчика MS-Visual C++, для платформы Windows NT поставляется разработчикам software за $1195 [27].

IMSL состоит из двух больших разделов: Math/Library и Stat/Library, — кроме которых к ней также можно подключать графику. Последняя представлена либо мощной библиотекой графических функций Exponent Graphics-2.1 или же графическим модулем из библиотеки Object Suite.

IMSL-библиотеки вычислительных и статистических модулей на C разработаны на основе аналогичных модулей широко известной библиотеки IMSL на Фортране, имеющей в мире за 25 лет ее существования более 250 тысяч пользователей [24], использующей ее на самых разных платформах.

IMSL содержит исчерпывающе полный набор математических и статистических функций, и, в частности, по набору первых даже конкурирует со специализированной вычислительной библиотекой NAG. IMSL реализует идею построения своего software из «больших готовых кирпичей», используя на практике международное разделение труда. Это сокращает время Вашей разработки на 95%.

Документация на библиотеку имеется в бумажном варианте и в электронном виде. В последнем случае она может быть вызвана в любой момент времени в виде гипертекста с сотнями примеров использования исходного кода. Более того, аналогично тому как это делается в Turbo — инструментальных системах, можно копировать в буфер и «выдавливать» из него (Paste) куски исходного кода из примеров непосредственно в разрабатываемый Вами модуль.

Здесь же уместно упомянуть про библиотеку SSP программ на ФОРТАНЕ, широко известную среди пользователей IBM/360 и EC ЭВМ [33].

4.2.2. S-Plus

S+ представляет собой интерактивную среду, которая включает в себя полноценный графический анализ данных и S язык программирования, который является расширяемым и удобным для использования. Среда S+ ориентирована аналогично библиотеке IMSL.

S язык разработан в AT&T Bell Labs и является единственным объектно-ориентированным языком, специально предназначенным для анализа данных. Именно поэтому получаемые результаты имеют неограниченную свободу при проведении исследований, анализа и моделирования данных в науке и технике.

S+ может быть очень полезной для статистика-аналитика, умеющего составлять свои программы на основе объектно-ориентированной технологии. S+ имеет в своем составе более 1650 функций, включая регрессию и дисперсионный анализ, многомерные методы, временные ряды, анализ сигналов и др. Имеются и современные робастные (устойчивые) методы. В плане классификации имеются современные непараметрические методы: древообразные модели классификации, модели целенаправленного проецирования данных на плоскость, обобщенные аддитивные модели. Пакет имеет мощные средства визуализации, а также добавочные модули, ориентированные под анализ сигналов или временных рядов, планирование эксперимента, анализ пространственной статистики.

Среда S+ описана подробнее в книге авторов R.Becker и J.Chambers, а также в статье J.Hallman в Journal of Applied Econometrics, 1993, vol.8, № 2.

 

4.3. Специализированные пакеты по классификации и снижению размерности

Пакеты этой группы позволяют существенно экономить место на винчестере и другие ресурсы пользователя. Они весьма удобны, если прикладная задача пользователя попадает «именно под их компетенцию». Специализированные пакеты по классификации:

1. либо предоставляют этот раздел прикладной статистики с максимально возможной полнотой;

2. либо включают новейшие и мощные методы, редко встречающиеся в универсальных пакетах;

3. либо обеспечивают предлагаемому методу наилучшие характеристики по скорости или точности вычислений и другим ресурсам.

Диапазон изменения размеров специализированных пакетов может быть довольно широким — от отдельных модулей до мощных пакетов с хорошо развитым сервисом, которые дают возможность эффективно решать определенный круг задач в области классификации и снижения размерности.

Из пакетов стран СНГ пакетов можно назвать КЛАСС-МАСТЕР, Stat-Media, PALMODA, КВАЗАР, PolyAnalyst и STARC. Из зарубежных — программы MVSP и CART.

Таблица 3
Классификационные и "смежные" с ними пакеты и их аппаратные требования

Стат. система

Версия

Окруж.

МП/Част.

VHP

RAM

Фирма-продавец

User

Цена

Класс-мастер

2.0
1.0

W
D

386/33
286/12

4
2

4
1

Научное изд-во
"ТВП".

M

320
300

МЕЗОЗАВР

2.0

W

386/33

 

4

Та же

M

520

САНИ

1.0

D

286/12

1

1

Та же

H

300

STADIA

6.0
5.0

W
D

386/33

5
0.4

4
1

Информатика
& Компьютеры

H-M
H-M

500
250

Stat-Media

1.1

D

286/12

1

1

ЗАО "Полихимэкс"

M-L

250

STARS

4.0

D

 

 

 

ТОО "Data-Center"

H-M

 

КВАЗАР

1.0

D

 

 

 

ИММ УрО РАН

H

 

PALMODA
ЛОРЕГ

1.0
1.0

D
W

286/12
386/33

2
10

1
4

ВЦ РАН

H
H

300
350

PolyAnalyst

2.0

O

386/40

 

4

ЗАО "Megaputer"

L

185
0

ОЛИМП

1.21

W
D

386/33
286/12

 

4
1

ЗАО "CPS"

M-L

500
300

Стат.-Консульт

3.0

W

386/33

3

4

ТОО "Тандем"

M-L

 

РОСТАН

1.0

D

286/12

2

1

БГУ

Н

 

СТАТЭКС

1.0

D

286/12

 

1

РМиПК Казах.

L

 

UNISTAT

4.0

W

386/33

 

4

UNISTAT Ltd.

H-M

795

SOLO

 

W

 

 

 

[6]

H-M

695

Multivariance 7

 

D

 

 

 

[5]

H

200

ODA

 

D

 

 

 

[5]

H

499

MVSP

 

D

 

 

 

[5]

H

100

CART

 

W

 

 

 

[6]

M-L

795

BMDP New Syst.

1.0

W

 

 

 

SPSS, Inc.

H-M

795

BM-STAT

 

D

 

 

 

Intern. Software

H

220

DATA DESK

4.2

W

 

 

 

Data Description, Inc.

H

625

SAM-86

 

 

 

 

 

Open Training Ltd.

H-M

 

STATMOST

 

W

 

 

W

DataMost Europe

H-M

 

POWERSTAT

 

 

 

 

 

Multi-Health Syst.

H

395

NCSS + Adv.Stat
То же & Graphs

 

D
D

 

 

 

[7]

H

224
323

SigmaStat
То же + SigmaPlot

2.0
3.0

W
W

486/33

8

8***

Jandel Scientific

M-L

495
795

StatXact

3.0

W

 

 

 

 

H

495

JMP

3.1.6

W

 

 

 

SAS Institute, Inc.

M-L

695

STATISTIX

 

D

 

 

 

[5]

H

495

Statit

 

W

 

 

 

[5]

H

359

STATlab

1.1

W

386/33

2

4

SciTech. Internat.

H-M

895

WinSTAT

 

W

 

 

 

[5]

H

195

TURBO Spring

 

W

 

 

 

[5]

H-M

469

Stat. Navigator

 

D

 

 

 

[5]

L

149

STAREX

 

 

 

 

 

Far Communicat.

L

90

Stat View

4.1

W

 

40

 

Abacus Concepts, Inc.

 

595

Примечания и обозначения:

А) см. примечание к табл. 1;
Б) "O" в колонке Окруж. означает OS/2 Warp фирмы IBM;
В) порядок преречисления (сверху вниз): пакеты из РФ, пакеты из ближнего, дальнего зарубежья

4.3.1. КЛАСС-МАСТЕР

Пакет имеется в двух вариантах: версия 1.0 для DOS и версия 2.0 для оболочки Windows 3.1. Одно из основных назначений пакета — решение задач кластерного анализа пользователем с низкой статистической квалификацией. Кроме того, имеется и достаточно мощный набор смежных с кластер-анализом методов. В отличие от многих пакетов, таких как SYSTAT, SPSS, SAS и др., в которых пользователь должен выбрать в меню конкретный метод кластерного анализа (например, агломеративный, метод k-средних и т.п.), в данном пакете пользователь выбирает не метод, а различные виды кластерной структуры (например, дендрограмма, нечеткие или четкие кластеры). Поэтому функциональные разделы меню относятся скорее не к особенностям методов, а в значительно большей степени — к свойствам структуры кластеров. Эти свойства могут быть естественным образом осмыслены пользователем с предметно-содержательной точки зрения.

Такой подход позволил снизить требования к статистической квалификации пользователя пакета, особенно в области кластерного анализа.

Поскольку версия 2.0 «Класс-Мастера» существенно продвинута вперед относительно версии 1.0, то ниже опишем только ее.

Пакет импортирует/экспортирует данные стандартного формата ASCII или DBF и представляет их в виде таблицы «объект-признак», — поддерживая признаки трех типов (числовые, номинальные или булевские). Имеется очень удобный встроенный редактор данных, работающий по «одному щелчку мышки» и допускающий широкий набор манипуляций с объектами, а также с признаками.

Пакет включает оригинальные разработки его авторов и содержит в функциональном плане следующие методы:

  • Описательная статистика
Гистограмма
Одно и двух-факторные таблицы сопряженности
  • Предсказание (т.е. прогноз значения целевого признака, причем в первом и последнем методе — количественного типа, и в оставшихся — номинального типа):

Линейная регрессия
Линейный и квадратичный дискриминантный анализ
Логистическая регрессия
Логическое описание
Дерево решений
Восстановление пропущенных значений

  • Конструирование (создание новых признаков)

Главные компоненты
Кластер-анализ по методу
k-средних
Расщепление смеси m-мерных нормальных распределений ( m = 1,K,5)
Агломеративная классификация с построением дендрограммы
Кластерный анализ с использованием теории нечетких множеств

Все результаты вычислений выдаются либо в виде набора цифр (в текстовом режиме), понятного без документации лишь человеку со специальной статистической подготовкой, либо в графическом виде, который интуитивно ясен даже неспециалисту.

Существенным плюсом пакета в функциональном плане является его очень хорошая, среди пакетов по классификации, мощность по набору классификационных средств. Однако, по-видимому, из-за «широты замаха» в версии 2.0 не удалось проработать ряд из этих средств достаточно глубоко.

Благодаря поддержке DDE и OLE, пользователь легко может интегрировать результаты, например, WinWord и КЛАСС-МАСТЕР 2.0. Также, за счет стандартных средств MS-Windows, легко решаются проблемы с принтерами, размерами данных и системой подсказок.

4.3.2. Stat-Media

Название пакета расшифровывается как статистические средства (второй вариант — статистический метод дискриминантного анализа). По своей идеологии пакет разработан на основе подходов, изложенных в [3].

Он предназначен для решения задач классификации с учителем (статистический подход к задаче распознавания образов), включая снижение размерности и визуализацию данных, а также ряд смежных разделов (иногда лишь элементов) разведочного, компонентного анализа, проверки гипотез, анализа данных смешанной природы и др. При этом, за счет ряда математических или алгоритмических ухищрений ([3, 28, 29] и др.), пакет работает лучше многих аналогов в ситуациях «большой размерности», когда число признаков соизмеримо с объемами обучающих выборок.

Пакет импортирует ASCII и DBF-файлы и легко управляется через систему динамических меню с активным использованием манипулятора мышь. Кроме того, специально для банковских приложений сделан импорт TXT-таблиц, создаваемых популярной банковской программой АФСКБ версии 2.1 (фирма ИНЭК). Имеется документация (76 с., 22 рис.), набранная в системе LATEX, в которой подробно разобран классический пример с ирисами Р.Фишера.

Положительными чертами пакета является его высокая эффективность: скорость, компактность, работа в 32-х разрядном защищенном режиме микропроцессора protected mode), — а также широкое использование графики, элементов интеллектуализации [1, 3] и реализация ряда оригинальных алгоритмов.

Недостатками версии 1.1 является отсутствие встроенного редактора данных (правда, для редактирования ASCII файлов из пакета легко вызвать стандартный DOS-редактор edit.com, поддерживающий Мышь) и довольно слабые средства манипуляции данными. Кроме того, пакет не имеет встроенных средств выдачи результатов в отчет или на бумагу.

Применительно к самой классификации, Stat-Media отличается реализацией набора параметрических дискриминантных функций, как линейных, так и классической квадратичной. Линейный случай включает в себя хорошо известную функцию Андерсона-Фишера и ряд ее модификаций: блочно-диагональную и диагональную дискриминантные функции, а также регуляризованную, основанную на ридж-оценках матрицы ковариаций признаков.

Кроме того, реализованы различные критерии оптимальности решающего правила, включая метод минимизации риска, в котором учитываются стоимости ошибок 1-го и 2-го рода.

В Stat-Media, в отличие от многих других пакетов, легко сравнивать результаты различных классификаторов, причем качество решающего правила можно оценивать, кроме традиционной переклассификации, методом «скользящего экзамена», имеющего оценки вероятностей ошибок классификации либо с меньшим смещением, либо вообще несмещенные.

Весьма важным для практических приложений функциональным элементом пакета является анализ чувствительности основных решений, касающихся классификации нового наблюдения.

Кроме того, пакет можно использовать в двух вариантах его работы: собственно «настройка» (построение решающего правила и оценка его по точности) и «прогноз» (использование заранее настроенного пакета). На этапе настройки с пакетом должен работать специалист класса H или даже M (см. примечание к табл.1). На втором этапе Stat-Media может использовать неспециалист в статистике (в анализе данных), работающий автономно от «настройщика» пакета.

4.3.3. PALMODA (ЛОРЕГ)

Название пакета для DOS-версии расшифровывается как ПАраметрические Логические МОДели Анализа данных. Версия для MS-Windows 3.1 названа разработчиками ЛОРЕГ.

Пакет предназначен для анализа данных и распознавания образов, решения задач классификации и прогноза, поиска логических закономерностей и поддержки принятия решений в условиях неопределенности.

Пакет отличается, кроме реализации классического параметрического линейного дискриминанта Р.Фишера, наличием оригинальных методов, развитых в ВЦ РАН в школе Ю.И.Журавлева (так называемый «тестовый» или «комбинаторно-логический» подход к распознаванию образов).

Тестовый подход реализуется методом вычисления оценок, алгоритмом голосования по представительным наборам, методами оптимальных признаковых окрестностей, локального голосования и статистического взвешенного голосования. Для распознавания также возможно применение коллектива распознающих алгоритмов.

Методы «классификации без учителя» (кластерный анализ) реализуют алгоритмы, основанные на покрытии выборочных точек гиперсферами, видео-логический метод и разбиение на классы коллективами алгоритмов.

Логические закономерности PALMODA ищет в виде конъюнкций интервалов значений признаков. Кроме того, пакет позволяет получить логические описания классов в виде дизъюнктивной нормальной формы (специального представление булевской функции от булевских аргументов), а затем минимизировать эту форму, тем самым, построив минимальные («кратчайшие») описания.

Полученные результаты могут выводиться на экран в наглядном виде. Визуализации могут быть подвергнуты эмпирические логические закономерности классов или логические описания на фоне обучающих и новых данных (для тех или иных подпространств признакового пространства).

Также можно визуализировать информационные веса признаков и результаты собственно распознавания (распределение данных по классам, меры принадлежности, оптимальные решающие правила).

4.3.4. STARC

Общая информация. Пакет имеет как DOS, так и Windows 3.1x - версию. Он состоит из модулей (как сервисных, так и базовых) для решения задач:

  • классификации «с учителем» (ALPO, BOX,LOGIC, RECOGNIZER);
  • кластерного анализа и сжатия данных (CLUSTERING, DISCRETE-CLUSTERING, COMPRESSION);
  • статистических вычислений и графики (STATISTICS, STAT.GRAPHICS);
  • преобразований признаков (PREPARATION, SYNTHESIS).

Аналогично постановкам задачи, принятым в КЛАСС-МАСТЕР, STAT-MEDIA и PALMODA, в пакете STARC объекты задаются в виде таблицы «объект-признак» и интерпретируются как точки в многомерном признаковом пространстве.

Ниже опишем, что делают основные модули пакета.

Модули для классификации с учителем. Модуль ALPO автоматически разделяет различные классы набором гиперплоскостей, проходящих относительно координатных осей под некоторыми углами (необязательно параллельно координатным плоскостям). Он использует методы линейного отделения классов (как в исходном пространстве, так и в его подпространстве, получаемом после минимизации активных признаков), а также глобальную и локальную стратегии уточнения для декомпозиции области признакового пространства.

По мнению разработчиков (Д.Гайнанов и др.), этот модуль является особенно ценным в пакете, так как он дает возможность строить классификаторы, которые сравнимы по качеству с классификаторами, получаемыми в нейросетях линейного типа и использующих прямые связи нейронов (feed forward). По сравнению с алгоритмами обучения нейросетей с обратным распространением ошибок (back propagation), в которых при их настройке используется градиентный метод оптимизации коэффициентов связи нейронов, алгоритм настройки модуля ALPO основан на оригинальной теории алгебраического решения специальных систем линейных неравенств, развитой Д.Гайнановым в 80-е годы. В связи с этим, всегда гарантируется успешный процесс обучения для любых обучающих выборок, на 100 % — в разделимых с помощью набора гиперплоскостей.

В модуле BOX классы разделяются гиперплоскостями, проходящими взаимно-перпендикулярно друг к другу. Здесь также применяется интерактивная глобальная или автоматическая локальная стратегия уточнения для декомпозиции области признакового пространства. В модуле LOGIC делается покрытие различных классов в бинарном признаковом пространстве «наиболее большими структурными элементами», принадлежащими гиперкубу в этом пространстве (его ребрами, гранями или вершинами). При этом используется интерактивная и автоматическая стратегия покрытия классов.

Модули для кластерного анализа и сжатия данных. Модуль CLUSTERING реализует классические методы кластерного анализа, и связанных с ним подзадач:

– иерархический агломеративный алгоритм с 11-ю вариантами метрик;
– алгоритм метода
k-средних [
3];
– прямой и обратный кластеринг;
– кластерный анализ либо для векторов, либо для признаков;
– выбор одной из шести возможных метрик;
– визуализация результатов кластер-анализа с помощью дендрограмм, проекций на плоскости, таблиц;
– интерактивная и автоматическая пометка кластеров для последующего сжатия.

Модуль DISCRETE CLUSTERING реализует быстрый иерархический алгоритм для дискретных данных с локальной метрикой:

– агломеративный алгоритм Chaudhury;
– кластерный анализ либо для векторов, либо для признаков;
– интерактивная и автоматическая пометка кластеров для последующего сжатия.

Модуль COMPRESSION реализует специальные методы кластер-анализа, ориентированные для автоматического сжатия данных. Это алгоритм средних с вычислением расстояния, зависящего от классов и от положения векторов. Кроме того, в этом алгоритме можно задавать один из шести способов вычисления расстояния.

Оставшиеся модули пакета STARC. В статистических модулях находятся важнейшие статистические характеристики и предлагается большое число информативных статистических графиков. В модуле PREPARATION имеется возможность выполнить те или иные арифметические преобразования исходных признаков.

В модуле SYNTHESIS, кроме арифметических, делается более широкий набор преобразований над признаками: дискретизация непрерывных признаков или преобразование дискретных качественных признаков в бинарные, состоящие из наборов нулей и единиц.

В сервисных модулях можно вводить и редактировать различные базы данных, проверять формат данных, активизировать те или иные подмножества данных, формулировать задания на командном языке пакета, генерировать по Монте-Карло те или иные тестовые данные и формировать отчет по работе пользователя с конкретными данными.

4.3.5. КВАЗАР

Пакет разработан в отделе исследования операций Института математики и механики УрОРАН и предназначен для решения задач классификации на ПЭВМ [27]. Его название получается из слов «Комплекс Вычислительных Алгоритмов для Задач Распознавания». Его версии отработаны с 1977 г. еще на больших машинах.

В пакете для ПЭВМ реализован подход к распознаванию образов, основанный на применении теории линейных неравенств и так называемого метода комитетов для системы линейных неравенств. Метод комитетов хорош для ситуаций, когда классы могут быть разделены кусочно-линейными решающими правилами безошибочно (то есть когда они не пересекаются в признаковом пространстве). Кроме оригинальных алгоритмов, основанных на применении аппарата линейных неравенств и комитетных конструкций, в пакете используются и некоторые другие алгоритмы (метод главных компонент, элементы разведочного анализа данных и др.).

4.3.6. PolyAnalyst

Эта программа, работающая под управлением OS/2 Warp фирмы IBM, умеет автоматически обнаруживать знания, скрытые в базах данных. Научное направление, к которому относится программа, называется Data Mining and Khowledge Discovery («добыча данных и обнаружение знаний»). Программа работает с данными произвольного типа: вещественными или целыми, логическими или качественными.

Она умеет:

– находить многофакторные зависимости в данных в виде аналитических формул, структурных правил и алгоритмов;
– выводить по обучающим примерам правила для классификации новых данных.

Выводимые программой законы имеют разнообразные формы и включают в себя алгебраические операторы, функции, циклы, условные конструкции.

Poly Analyst относится к относительно новому направлению искусственного интеллекта, называемому «символическими методами извлечения знаний из баз данных» (data mining & knowledge discovery) или «ДМ-технологией».

Особенностями этих методов, по мнению разработчиков, является то, что процессу поиска знаний сопутствует процесс их тщательной верификации. Кроме того, в этих методах процесс выбора показателей-признаков автоматизирован. Наконец, важно то, что все результаты формулируются в удобной для человека текстовой и графической форме.

ДМ-технология дает возможность использовать ретроспективные данные об исследуемых объектах для построения набора функций полезности, которые интересуют пользователя в конкретной его задаче. Далее из этого набора выбирается оптимальная функция, приводящая к оптимальной стратегии принятия решений о поведении исследуемого объекта. Заслугой авторов, по их мнению, является эффективное решение задачи оптимизации стратегии.

Наиболее важной частью программы Poly Analyst является модуль синтеза функциональных преобразований на внутрисистемном функциональном языке программирования.

4.3.7. MVSP

Эта программа, названная от слов Multi-Variate Statistics Program, дает возможность легко и недорого выполнить анализ данных. Она выполняет анализ главных компонент и проецирование на плоскость, натянутую на пару двух доминирующих компонент, производит анализ соответствий, кластерный анализ с 18-ю различными метриками и выбором одного из различных подходов к группировке[5].

О финансовых приложениях программы PolyAnalyst можно прочесть в[37].

4.3.8. CART

Пакет предназначен для автоматического разведочного анализа данных и работает на многих платформах. Пакет строит классификационные и регрессионные деревья на основе пионерской и единственной программы для DOS, предназначенной для анализа данных в на основе метода древообразных структур. CART автоматически строит и минимизирует такие деревья, которые похожи на дендрограммы. Пакет является превосходным продуктом по сравнению с аналогами типа CHAID (из пакета SPSS) или Knowledge Seeker.

Исчерпывающая документация на 292-х страницах содержит консультационное и полное описание CART-анализа для новичка, а также ряд разделов для опытного пользователя. Приводятся примеры работы с пакетом, подробно разобранные от начала до конца.

4.4. Некоторые другие специализированные и универсальные СПП

Это пакеты STADIA, ОЛИМП, РОСТАН, американские программы NCSS, Multivariance7, ODA, UNISTAT, SOLO, STATIT, WinSTAT, STATlab, Stat View, JMP, канадский пакет POWERSTAT и европейские BM-STAT, DATADESK, SAM-86, STATMOST.

По сравнению с универсальными им не хватает функциональной мощности последних (по статистическим методам).

4.4.1. МЕЗОЗАВР(MESOSAUR)

Компьютерная система разработана и продается в СССР, СНГ и зарубежом с начала 90-х годов. Сейчас выпущена в свет ее вторая версия для среды Windows. Версия1.2 была признана в 1992 г. на престижной ярмарке CEBIT в Германии лучшим ПП, разработанным в СНГ. В области финансов и экономики пакет используют Администрация Президента РФ и некоторых областей России, ряд ведущих банков (включая Центробанк) и финансовых компаний.

Программа МЕЗОЗАВР предназначена для анализа временных рядов и предоставляет пользователю интеллектуализированную интерактивную графическую среду для проведения такого анализа. В форме временных рядов могут выступать самые разнообразные данные в экономике, демографии, технике, медицине и многих других областях.

В программе реализованы различные алгоритмы сглаживания временных рядов, выделения в ряде сезонных колебаний, выполнения спектрального анализа и частотной фильтрации. Кроме того имеются разнообразные модели и методы:

– линейные и нелинейные модели тренда, -авторегрессионные модели,
– множественная линейная регрессия, робастная и пошаговая регрессия,
– нелинейная регрессия,
– модель Бокса-Дженкинса (ARIMA) с экспертной поддержки,
– обнаружение моментов разладки (изменения характеристик) временных рядов.

Также программа имеет возможности обработки пропущенных значений, преобразования данных, использования встроенного редактора данных типа «электронной таблицы» и графического редактора, вычисления основных статистик (среднее, дисперсия, АКФ, периодограмма и др.), развитые возможности интерактивного анализа данных и результатов, архив построенных моделей и справочную подсистему по терминологии и методам анализа временных рядов.

Программа импортирует/экспортирует данные ASCII, dBASEIII+, Lotus 1-2-3 и SYSTAT форматов.

DOS и Windows — версии отличаются легкостью использования.

В Windows версии дополнительно реализованы возможности обмена данными с другими приложениями оболочки Windows, а также возможность экспорта в буфер обмена (clipboard) графических результатов пакета.

Документация содержит ряд примеров широко известных данных (ARIMA — модель для ежемесячных данных по авиаперевозкам, анализ ряда ежемесячных наблюдений над температурами и др.), которые достаточно подробно разобраны для читателя.

4.4.2. САНИ (SANI)

DOS — версия программы распространяется с 1990 г.

Программа САНИ предназначена для анализа данных, содержащих переменные, измеренные в интервальной, ординальной или номинальной шкалах. Кроме многих классических методов программа также включает ряд оригинальных процедур. В первую очередь программа была ориентирована для решения задач социологии, но также она может быть полезна в экономике, биологии, медицине и других областях, где возникают качественные данные. Имеется в виду случай, когда значения переменных являются не числами, а категориями, классами или градациями.

В функциональном плане программа имеет блок разведочного анализа и основной блок моделирования. Подсистема разведочного анализа позволяет выполнять детерминационный анализ данных, в интерактивном графическом режиме представлять категориальные данные, изменяющиеся во времени, представлять данные в удобном для восприятия виде (гистограммы, графы, парные и многомерные группировки, одновременное представление объектов и переменных в виде точек в пространстве), проводить анализ таблиц сопряженности, «мостеллеризацию», простой и множественный анализ соответствий и кластерный анализ. Эти методы позволяют выявить аномальные наблюдения, возможные группы в данных, сформировать рабочие гипотезы.

В подсистеме построения моделей можно проверять гипотезы, касающиеся таблиц сопряженности (о симметрии, квази-симметрии, независимости и квази-независимости), измерять и сравнивать взаимосвязь признаков, выявлять и моделировать структуру зависимости. Также в этой подсистеме можно анализировать данные, изменяющиеся во времени: определять траекторию объектов, выявлять однородные группы, характеристики типа «среднее время для перехода из одного состояния в другое», моделировать процесс эволюции.

Управление данными включает импорт ASCII файлов с таблицей «объект-признак», импорт таблиц сопряженности и таблиц с матрицами переходов. Кроме того есть возможность вырезания подвыборок из исходной таблицы и создания новых переменных. Программа САНИ также имеет мощный встроенный редактор.

4.4.3. StatView for Windows

Этот пакет с 1985г. является бестселлером в классе СПП для Макинтошей. В последнее время он переведен разработчиками в среду Windows (версий 3.1, 95 и NT). Это в значительной степени объясняется тем, что он легок при освоении, а также в использовании. Гибкий и интуитивно ясный интерфейс позволяет пользователю относительно быстро выбрать требуемые ему методы и разделы. Управление данными дает возможности встроенного редактора электронных таблиц с более чем 160 функциями, возможности гибкой манипуляции данными, вырезания подвыборок.

Пакет сохраняет все, что появляется на экране монитора. Это позволяет, после открытия сохраненного файла, продолжить анализ с той точки процесса, в которой Вы ранее остановились. Создание шаблонов для наиболее часто используемых методов позволяет существенно ускорить процесс решения типовых задач. Всего пакет имеет более чем 90 шаблонов для математического и графического анализа данных. StatView также дает Вам мощные графические и презентационные средства. Версия 4.5 пакета включает исчерпывающий набор статистических процедур, включающих распределения частот, регрессию, корреляцию, корреляционный и дисперсионный анализ, непараметрические методы, факторный анализ, контроль качества и анализ данных типа времени жизни.

4.4.4. STADIA

Это довольно известный отечественный пакет (STADIA — от слов статистический диалог).

В плане интерфейса и внешнего вида DOS-версия пакета STADIA очень напоминает пакет STSC (Statgraphics) [21, 22, 23]. Однако, по функциональному содержанию направленность пакетов различна. Набор статистических методов выбран его авторами в STADIA исходя из следующих положений:

1. в него включены почти все наиболее часто применяемые статистические методы;
2. значительная часть этих методов изучается во многих российских вузах и, достаточно подробно описана в стандартных учебных пособиях;
3. пакет не перегружен очень новыми или сложными методами, являющимися достаточно специфическими.

Другими словами, авторы STADIA, старались собрать исторически устоявшиеся у нас методы и, в основном, избегали всяческих инноваций.

Документация и встроенный в пакет справочник по форме как бы заменяют «студенческую методичку». Они содержат краткие описания основных теоретических положений, на которых основан тот или иной метод, один или несколько примеров расчетов и ссылки на базовые, широко известные учебники.

Таким образом, STADIA полезна для тех, кто хочет иметь программу со следующими основными свойствами: она должна быть очень компактной (в этом отношении DOS-версия является мировым рекордсменом!), относительно недорогой (по мнению авторов STADIA!) и, самое главное — несложной системой, содержащей набор типовых методов математической статистики.

4.4.5. ОЛИМП

Пакет разрабатывался с ориентацией на разнообразных пользователей, от новичка до эксперта-статистика. ОЛИМП позволяет организовать полный цикл исследований по статистическому анализу данных с выполнением прогнозирования. Этот цикл начинается с ввода данных в среду пакета, их проверки и визуализации, и заканчивая проведением расчетов и интерпретацией результатов.

Более интересная (в плане классификации и смежных проблем) профессиональная версия 1.21 позволяет:

1. Импортировать и экспортировать данные основных форматов, редактировать их;
2. Подвергать данные преобразованиям;
3. Вычислять вариационные характеристики данных;
4. Проводить корреляционный, дисперсионный, компонентный, факторный анализ;
5. Осуществлять хорошо развитый линейный регрессионный анализ;
6. Выполнять собственно классификацию (кластерный и дискриминантный анализ).

В программе имеются оригинальные методы, например, бутстреп-метод для оценки среднего значения, а также закона распределения малых выборок.

Кроме того, профессиональная версия комплектуется средством работы с электронными таблицами MNCALC, которое представляет собой стандартный табличный процессор, сходный по функциональным возможностям с процессором LOTUS1-2-3.

4.4.6. РОСТАН

Пакет РОСТАН является более углубленной разработкой пакета СТАТИСТИК, выполненной ранее в Белорусском государственном университете. Он ориентирован на профессиональных статистиков и предназначен в первую очередь для робастного (устойчивого) статистического анализа данных в случае, когда нарушены модельные предположения о природе исходных данных: данные содержат «выбросы», являются зависимыми и т.д.

В пакете наряду с классическими реализованы оригинальные устойчивые алгоритмы анализа из различных разделов математической статистики (разведочный анализ, проверка гипотез, дисперсионный, корреляционный, регрессионный, компонентный, дискриминантный, кластерный анализ и временные ряды).

Пакет обеспечивает различные возможности управления данными и их преобразования, имеет встроенный редактор данных. В нем широко представлены визуализация данных и результатов.

Важной его компонентой является подсистема компьютерного обучения, включающая в себя разветвленную систему подсказок, набор тестовых примеров с интерпретацией результатов и словарь статистических терминов.

4.4.7. NCSS Statistical Software

Эта программа, называемая для краткости NCSS легка в использовании и управляется через меню. Имеется и отдельный модуль Углубленной статистики.

Базовый модуль включает управление данными, описательную статистику, t-критерии, кросс-табуляцию, дисперсионный, регрессионный, факторный, кластерный и дискриминантный анализ, повторяющиеся измерения и непараметрические критерии.

В модуле Advanced Statistics содержатся методы канонической корреляции, логистической и нелинейной регрессии, поверхности отклика, дополнительные кластерные алгоритмы, графики на вероятностной бумаге, компонентный анализ и многомерный дисперсионный анализ.

Данный продукт разработан в фирме одноименного названия. Демо-версию NCSS можно получить через Internet по адресу: WWW. NCSS. com. Описание версии 6.0.21 (для Windows) можно найти в [38], с.97.

4.4.8. ODA

Система обеспечивает наиболее адекватную модель для любой заданной конфигурации исходных данных [5]. Она включает в том или ином смысле наилучшие аналоги стандартных статистических процедур, включая широкий спектр последних. Применительно к классификации это кластерный и дискриминантный анализ, включая методы типа jack-knife (методы «складного ножа», т.е. «скользящего экзамена»), логистическая регрессия, нелинейные модели и деревья классификации. Также имеется очень много методов, смежных с классификационными.

4.4.9. SOLO

Пакет для углубленного статистического анализа, содержащий широкий класс статистических методов [6, 19]. Из классификационных и близких к ним методов содержит модель логистической регрессии, многомерное шкалирование и анализ соответствий, дискриминантный и кластерный анализ. Методы для углубленного анализа данных реализованы в виде дополнительного модуля. Пакет разработан для пользователя, который довольно редко обращается к статистическому анализу данных. В нем используется графика с высокой разрешающей способностью (режим монитора SVGA). Есть также версии для DOS и Windows 95. При этом DOS-версия дешевле версии для Windows 3.1 на $200.

4.4.10. STATlab Pro

Пакет полезен для графического анализа данных (используется более 60 типов графиков). Он имеет модульную структуру и имеется на многих платформах. Содержит методы описательной статистики, регрессию, корреляцию, анализ таблиц сопряженности, развитый аппарат проверки гипотез, метод главных компонент, анализ соответствий, факторный и дискриминантный анализ [7].

В пакете нет ограничений на число переменных и наблюдений, он импортирует файлы формата ASCII, dBASE и Excel. В новой версии 1.1 используется графический интерфейс с пользователем, кластерный анализ, непараметрические критерии проверки гипотез и множественная регрессия. Для обмена данными с другими Windows-приложениями используется стандарт ODBC.

4.4.11. UNISTAT

Достаточно мощный и легкий в использовании пакет для пользователей знакомых с процессорами электронных таблиц типа программы Excel фирмы Microsoft [5] (пакет UNISTAT содержит оригинальный табличный процессор похожий на Excel). В частности, пакет может быть использован как «примочка» к Excel или же работать в автономном варианте.

UNISTAT версии 4.0 включает в себя широкий диапазон описательной статистики, линейную и нелинейную регрессию, дисперсионный анализ, проверку гипотез, временные ряды и многомерный анализ. Последний, в частности, содержит разделы кластерного, дискриминантного, компонентного и факторного анализа, методов многомерного шкалирования и других традиционных методов.

Пакет содержит более 150-ти 2-D и 3-D графиков с возможностью полноэкранного редактирования и внесения примечаний. Допускает использование командных макросов.

Он разработан с использованием технологии OLE2, что позволяет легко обмениваться результатами с любым из средств комплекса Microsoft Office.

Подсистема помощи содержит более 80 примеров, опубликованных в периодике.

4.4.12. STATIT

Этот пакет дает широкие возможности интерактивного анализа данных с богатой графикой. Доступ и управление данными решаются на основе технологий Motif. Пакет также имеет версии для Windows 95, UNIX и Windows NT. Имеется достаточно широкий спектр методов статистического анализа.

4.4.13. WinSTAT

Пакет дает полные преимущества Windows c падающими меню, диалоговыми окнами, поддержкой мыши и средствами вырезания и вставки. Включает описательную статистику, t-критерии, корреляционный, дисперсионный, факторный, кластерный и дискриминантный анализ, временные ряды и графику.

4.4.14. Multivariance 7

Это работающая с хорошей скоростью методо-ориентированная система для регрессионного, дисперсионного и ковариационного анализа, включая многомерные методы [5]. В частности, она содержит методы дискриминантного и компонентного анализа, анализа канонических корреляций и анализа данных о продолжительности жизни. Интересно, что в Европе, пакет продается за $315 [19]. Также имеется версия пакета для студентов.

4.4.15. JMP

JMP версии 3.1 для Windows является инструментарием для «статистического открытия» [5, 38]. Пакет предназначен для исследователей, аналитиков, статистиков. Основная ориентация пакета — статистическая графика, поэтому он может служить хорошим инструментарием для проведения разведочного статистического анализа данных [4]. Пакет обеспечивает богатую, интегрированную, графическую среду для различных методов прикладного статистического анализа, включая кластерный анализ и планирование эксперимента.

В пакете хорошо развит интерактивный графический анализ, его результаты динамически соединяются с исходными данными. В частности, при выделении мышкой точки на одном из графиков, она автоматически выделяется на всех других.

В JMP-3.1 принят скорее подход с вычислением и последующим представлением пользователю полного набора имеющихся средств анализа и графики по выбранной задаче, чем подход с ведением его по всей технологической цепочке последовательности шагов. JMP привлекает исключительно широким диапазоном методов многомерной линейной модели, включая пробит- и логит-анализ.

Функциональные возможности в меню «анализ» включают в себя: распределения и подгонка зависимостей; очень мощный блок для построения и анализа линейной модели; построение и анализ нелинейной модели (включая пробит- и логит-регрессию); анализ матрицы рассеяния, главные компоненты, факторный анализ; анализ данных типа времени жизни; планирование эксперимента.

JMP имеет меню «Графика» с широким выбором средств графического анализа. Имеется хорошее управление графиками, а также — возможности их редактирования. В [38] приводятся примеры выдачи графики на принтер.

Документация хорошо написана, содержит примеры, иллюстрирующие почти все особенности JMP. Правда, в [38] высказывается пожелание большей детальности документации.

Пакет JMP в версии 3.1.6 разработан для Windows 3.1 (и более поздних), Windows NT, Windows 95, а также для Macintosh (680Ѕ0 и Power).

4.4.16. BM-STAT

Пакет предназначен как для обучения студентов, так и для исследователей. Он имеет интерфейс, дружественный к пользователю, и управляется через меню. Функциональные модули включают в себя управление данными, их преобразования, цветную графику, блок описательной статистики, работу с таблицами сопряженности, анализ корреляций, параметрические и непараметрические методы статистики, а также методы регрессионного, дисперсионного, компонентного, факторного, кластерного и дискриминантного анализа данных.

4.4.17. DATA DESK

Этот СПП был изначально разработан, как программное средство для Макинтошей и предназначен, в основном, для проведения разведочного анализа данных, а также для обучения этому разделу компьютерной статистики. Пакет использует тип интерфейса, близкий к «Маковскому» значительно в большей степени, чем другие статистические пакеты. Он построен так, чтобы разведочный анализ был удобным и легким в управлении. Пакет имеет хорошую скорость работы и весьма компактен.

Средства разведочного анализа, такие как «вычищение части данных» (brushing) и «разрезание на слои» (slicing), а также связывание через «горячие клавиши» (hot links) для одних и тех же данных всех относящихся к ним графиков и изображений, — все это выделяет данный пакет в области интерактивного разведочного анализа данных. В дополнение к этому, так называемые «гипервзгляды» (hyperviews) позволяют пользователю активизировать список дальнейших действий, которые могут производиться либо через иконку в окне результатов, либо указанием почти на любой элемент на экране. Например, «гипервзгляды» дают возможность в рамках линейной регрессии, построить регрессию сразу после выдачи диаграммы рассеяния или показать график остатков, относящихся к уравнению регрессии.

Любые операции с преобразованиями данных применяются к признакам на основе синтаксиса, похожего на тот, что используется в языках программирования. Полученный результат преобразований хранится в автоматически создаваемой переменной, так что данное преобразование может быть проделано всего один раз. В меню предлагается широкий набор стандартных преобразований. Оригинальным здесь является применение динамического преобразования признака типа Бокса-Кокса, в котором экспонента управляется через операцию «скольжения». Это легко делается с помощью мышки (в статье [38] приводится пример; см. в ней рис.1). Если Вы проделали некоторое преобразование, то на «автомате» все активные окна, в которые входит данный признак, будут тут же пересчитаны, но уже для преобразованных данных.

Многомерные методы представлены относительно слабо. Правда, неплохо представлены методы многомерного дисперсионного анализа и многомерной линейной модели. Имеются также главные компоненты и иерархический кластер-анализ. Однако большинство других многомерных методов в версии 4.2 отсутствует.

Сильной чертой пакета является его графические возможности, относящиеся именно к разведочному анализу данных. Особенно выделяется здесь пакет в плане использования цвета и символов, техники «тащи и роняй» (drag-and-drop), «горячего сцепления» (hot links) данных из различных окон. Однако, единственными многомерными графиками являются матрицы с диаграммами рассеяния и график с возможностью вращения осей координат. Пропущен при разработке и ряд других традиционных графиков (лица Чернова и др.).

Пакет включает блок общей статистики, таблицы сопряженности, t-критерии и доверительное оценивание, линейные модели. Имеется профессиональная версия, в которой есть возможность вращать 3-D диаграммы рассеяния. В журнале American Statistician, 1987, vol. 41, No. 4, pp. 314-317, а также в [38] пакет описан подробнее.

Документация на пакет представлена основательно хорошо написанными двумя томами. В них описана как методология, так и статистика и способы управления пакетом. Однако, оперативная документация, построенная по принципу гипертекста, трудна в использовании.

Сейчас появилась последняя версия 5.0. Новое здесь — включение «шаблонов», которые дают возможность через технику «тащи и урони» перемещать новые наборы данных к ранее записанным результатам анализа и далее использовать нужные Вам модули. Статистическая подсистема включает в себя в этой версии нелинейную и логистическую регрессию, а также «оконтуривание» диаграмм рассеяния.

4.4.18. SAM-86

Этот английский пакет управляется через меню и реализует ряд разделов многомерного анализа [19].

4.4.19. STATMOST

Это норвежский пакет для среды Windows 3.1x, использующий все ее преимущества (MDI,DDE и OLE). Пакет имеет мощное управление данными, всесторонний набор методов статистического анализа и графики.

Диапазон методов широк: от разведочного анализа данных до построения математической модели данных, от множества статистических критериев до анализа временных рядов.

Графика включает 2-D и 3-D деловые и научные диаграммы, включая возможность подстраивать все атрибуты графиков по желанию пользователя.

4.4.20. POWERSTAT

Процедуры этого канадского пакета включают базовую статистику, графику, регрессионный, дисперсионный и многомерный разделы анализа данных, кросс-табуляцию. Он имеет мощные процедуры манипуляции данными. Пакет может обмениваться данными с версиями пакетов SPSS, BMDP, SAS и др. для больших машин.

4.5. Пакеты и программы, решающие смежные с классификацией задачи

Кратко рассмотрим ниже лишь некоторые из них. Мы выбрали российский пакет «Статистик-Консультант», американские СПП Sigma-Stat, BMDP, STATISTIX, StatXact -3. Кроме того, статистические функции есть в популярной программе Excel из знаменитого семейства программ Microsoft Office фирмы Microsoft.

4.5.1. «Статистик-Консультант»

Первая версия программы распространяется с 1993 г. и изначально была разработана для среды MS Windows.

Управление данными включает импорт/экспорт файлов форматов ASCII, dBASE и Paradox, возможность анализа данных с пропусками, транспонирование, слияние, сортировку данных и их редактирование с возможностью задания новых переменных по вводимой аналитической формуле.

Графическая часть пакета включает графический просмотр данных (в том числе с наложением доверительного интервала мат.ожидания и сравнением столбцов), корреляционные диаграммы и поля, графики остатков, а также 2-D и 3-D — анализ данных. В последнем случае можно выполнять вращение системы координат и окрашивать поверхности с учетом изменения освещенности при поворотах.

В функциональном отношении пакет содержит методы описательной статистики (законы распределения, частотные гистограммы, элементарные статистики), корреляционного и компонентного анализа, углубленные методы линейного и нелинейного регрессионного анализа, а также — факторного анализа. В области теории линейного регрессионного анализа пакет содержит оригинальные результаты авторов и их коллег из Карельского НЦРАН.

Для удобства работы и освоения пакета, кроме традиционной справочной подсистемы, также имеется экспертная система. Она помогает пользователю выбрать подходящий метод решения его конкретной задачи, задать оптимальные для активных данных значения параметров, а также выполнить проверку статистических гипотез.

4.5.2. BMDP для Windows

Этот пакет, называемый в каталоге [6] BMDP New System Pro, и обозначаемый ниже для краткости BMDP, специально был разработан для Windows фирмой BMDP, которая была хорошо известна специалистам, работающим на больших машинах. В последние годы эта фирма является дочерней компанией корпорации SPSS.

BMDP отличается простотой использования [14]. Программа поддерживает широкий набор импортируемых форматов: QuattroPro, Symphony, SAS, SPSS, BMDP/DOS, Excel 4.0 и Lotus1-2-3. Так, при импорте данных в среду программы, надо указать, как организованы данные (что является разделителем: пробелы, абзацы или метки) и какой тип каждой переменной. Это можно сделать и позже, дважды щелкнув мышкой на заголовке столбца.

Важным плюсом пакета в управлении данными является связь объектов. Это обеспечивает большие удобства при установлении соответствия между точками или другими элементами графиков и ячейками электронных таблиц. Так, при исключении точек-«выбросов» из данных, график будет перерисован и результат будет немедленно предъявлен на экране.

Построить график или диаграмму крайне просто: задайте его тип и с помощью «буксировки» выберите подмножество желаемых Вами данных. Доступны диаграммы рассеяния, гистограммы, столбчатые или блочные диаграммы, графики остатков в моделях регрессии. Однако, 3-D- и точечные графики и круговые диаграммы в версии 1.0 отсутствуют.

В функциональном плане реализованы следующие статистические методы:

1. вся описательная статистика (средние, и , медиана, дисперсия и др.);
2. регрессия (множественная, одновременная и пошаговая, линейная и нелинейная);
3. корреляционный и стандартный дисперсионный анализ (только без пропусков в ячейках).

BMDP управляется только через меню и не имеет командного языка. Через окно Transform к имеющимся преобразованиям можно добавлять свои.

Документация (500с.) — высококачественная, экранное учебное руководство доступно из меню основной программы (help) или извне (есть пиктограмма). Экранный справочник отличается широтой и детальностью. Система справки поделена на две части: статистическую и процедурную, так что легко переходить от одной подсистемы к другой.

Хотя возможности BMDP по сравнению с аналогами несколько ограничены (нет операции транспонирования, корреляционный анализ недостаточно развит, слабые средства генерации отчетов и манипуляции графиками), базовый набор средств по управлению данными и функциональных средств вполне может обеспечивать потребности многих пользователей.

4.5.3. TURBO Spring-Stat-Win

Интерактивный, меню-управляемый, модульный пакет с широким набором статистических процедур, с 2-D и 3-D графикой и встроенной экспертной системой [5]. DOS-версия имеет ту же цену, что и Windows-версия.

4.5.4. STATISTIX

Этот пакет, наряду с более известным пакетом Minitab, был признан одним из лучших в США в 1989 г. в группе пакетов «базовой статистики» [30]. В нем предлагается довольно широкий спектр средств статистического анализа [5, 19]: описательная статистика, t-критерии, дисперсионный, регрессионный и компонентный анализ, проверка гипотез, временные ряды, графика, анализ таблиц сопряженности, логистическая регрессия.

Пакет в конце 80-х годов считался компактным и недорогим [19] для пакетов данного класса с управлением через меню, однако к настоящему времени недорогим его не назовешь [5].

Пакет рассчитан, в основном, на сопровождение прикладных НИР и имеет хорошо написанное «Руководство пользователя».

4.5.5. SigmaStat

Этот пакет является превосходным примером целенаправленной программы, которая в своем классе методов является, скорее всего, самой лучшей [15].

Руководство пакета написано очень хорошо, содержит много методических повторений, что очень удобно для неопытного пользователя. Вся информация, необходимая для данной темы, целиком собрана в одном из разделов руководства, что также удобно для читателя.

Кроме того, имеются подробные обсуждения той или иной статистики, лежащей в основе конкретного метода вычислений. Хотя такое обсуждение обычно делается лишь на базовом статистическом уровне, оно настолько прозрачно, что читатель может быть удовлетворен, что он имеет адекватное понимание концепций или применений данного метода.

Преимущества SigmaStat проявляются в интерфейсе с пользователем, а также в его Консультанте (Advisor), который особенно полезен для начинающего пользователя. По форме Консультант представляет собой диалоговое окно, которое через серию вопросов побуждает пользователя активно мыслить и действовать, что должно приводить пользователя к нужным статистическим методам.

В случае же, если пользователь уверенно себя чувствует в окружающем его меню и в процедурах, то он может выбрать нужные ему методы непосредственно из меню.

Выдаваемые на экран аналитические результаты прозрачны и прекрасно объясняются. Вместо тупой выдачи гор цифр, чаще всего мало полезных человеку на этапе интерпертации полученных результатов, SigmaStat объяснит Вам на ясном английском языке, почему и что в данном результате является важным.

Резюмируя, можно сказать, что очень сильной стороной пакета является присущая ему комбинация легкости использования, усиливаемой для новичка превосходными алгоритмами отбора часто используемых статистических методов, с очень хорошей документацией.

В плане характеристики мощность пакет явно не претендует на то, чтобы считаться универсальным. Но в то же время его методы достаточно разнообразны. Они сфокусированы, кроме традиционной описательной статистики, на задачах регрессионного и дисперсионного анализа, а также включают много непараметрических тестов (см. табл.1 из [15]). Пакет имеет много встроенных преобразований данных и небольшой подраздел программирования, в котором пользователь может задать оригинальные преобразования.

С другой стороны, если Вы дипломированный статистик, и хотите выполнять достаточно утонченные методы или методы, понятные лишь посвященным, то пакет SigmaStat явно не для Вас. Кроме того, из-за его целенаправленности и специализации по методам, многие наиболее часто используемые многомерные методы, такие как многомерный дисперсионный анализ или кластерный и дискриминантный анализ отсутствуют, так же как и методы планирования экспериментов, ковариационный анализ или анализ случайных процессов (временных рядов).

В качестве критики, в [15] делается замечание к графической подсистеме пакета, несмотря на то, что по сравнению с версией 1.0 она была несколько усилена.

Действительно же приятно будет работать с SigmaStat 2.0 в плане графики, если дополнительно к нему купить интерактивный графический пакет SigmaPlot, который правда, стоит, как сам SigmaStat. Оба пакета объединяются друг с другом в единую среду, легко обмениваясь между собой данными. Примеры использования связки из двух пакетов приводятся в прекрасной книге «Primer of Biostatistics» (ее автор Slanton Glantz).

Есть и DOS версия пакета, которая стоит на $100 дешевле версии для Windows 3.1x.

4.5.6. StatXact-3

Это самый полный пакет статистического анализа, ориентированный прежде всего на анализ малых выборок на основе точных (не асимптотических) непараметрических статистических методов. Пакет имеет специальные версии для стыковки его с универсальными пакетами SYSTAT и SPSS. Имеется и DOS и Windows — версия.

4.5.7. MS-Excel 5.0

Как известно, это очень популярный в России пакет для работы с электронными таблицами и деловой графики для среды Windows 3.1 (для среды Windows 95 имеется существенно более мощная 7-я версия пакета, которая использует все плюсы 32-х разрядной OC Windows 95).

Поскольку пакет хорошо известен большинству пользователей ПЭВМ, опишем его статистические функции. Подробнее о других его возможностях можно прочесть, например, в [31]. Статистические функции пятой версии относятся, в основном, к разделу описательной статистики (среднее, медиана, мода, минимумы и максимумы, ранжирование, дисперсия, стандартное отклонение, тренд и др.).

4.6. Статистические экспертные системы

Эти программы отличаются наличием базы знаний и механизмом логического вывода из имеющихся знаний новых знаний [1]. Примерами таких программ по теме нашей статьи являются казахстанский пакет СТАТЭКС, американский Statistical Navigator Pro и английский STAREX. Интересные сведения по статистическим экспертным системам читатель найдет в [30].

4.6.1. СТАТЭКС

Два главных отличия пакета, содержащего признаки экспертной системы:

– она ориентирована не на методы, а на цели анализа данных (последние предлагаются системой в процессе работы с нею);
– пользователь может совершенно не разбираться в механизме обработки данных, но должен четко понимать содержание его данных и общую цель анализа.

Другие специфические черты:

1. диалог ориентирован на пользователя - новичка в статистике;
2. профессиональный статистик может в специальном режиме работы пакета непосредственно обратиться к методам анализа, используя названия последних;
3. результаты анализа выдаются в виде контекстно-ориентированных экранов, содержащих комментарии, что позволяет рассматривать их как готовые решения;
4. база знаний представляет собой набор правил, связанных со свойствами и особенностями применения статистических методов; база данных позволяет хранить их в виде «куба»: таблица «объект-признак» и «время»;
5. реализован режим «Why?», предназначенный для объяснения мотивов принятого СТАТЭКС решения;
6. система имеет множество разъяснений и графиков.

В функциональном плане в СТАТЭКС реализованы следующие группы методов:

1. расчет стандартных статистических 1–D-характеристик;
2. классификация объектов (комбинационная группировка, кластерный анализ), а также многомерное шкалирование и визуализация;
3. выявление и анализ статистических зависимостей признаков (корреляция, группировка признаков, главные компоненты и визуализация);
4. установление зависимостей между целевым показателем и влияющими на него факторами (регрессионный анализ, индексный анализ и распознавание образов);
5. прогнозирование (эконометрические модели).

Большинство методов СТАТЭКС наряду с классическими содержат оригинальные результаты ее авторов (И.Д.Мандель и др.).

4.6.2. Statistical NavigatorPro

Этот пакет помогает неспециалисту в математической статистике провести квалифицированный анализ имеющихся у него данных. Он консультирует пользователя по использованию более, чем 200 различных методов, включая многомерный анализ и классификацию [5, 38].

Statistical Navigator задает ряд вопросов относительно цели исследования данных и их характера, сопровождая каждый из вопросов серией подсказок. Пакет фокусирует внимание пользователя на ключевых моментах, подчеркивая, что необходимо принять во внимание для принятия верного решения.

4.6.3. STAREX

Эта английская экспертная система, основанная на базе знаний, позволяет пользователю выбрать подходящий для его данных статистический метод. Информация о широком диапазоне статистических понятий и терминов доступна пользователю в виде гипертекста [19].

 

ЗАКЛЮЧЕНИЕ

  1. Предлагается методология сравнения качества различных пакетов программ статистического анализа, решающих прикладные задачи в рамках того или иного направления (например, в области «классификации и снижения размерности» или в области «анализа временных рядов»). Методология является развитием и определенной коррекцией известной методики NSTL. Основные направления развития и коррекции: введение в блок-схему оценки качества СПП дополнительного базового свойства «Степень интеллектуализации», а также разработка существенно иного подхода к определению «весов» детализированных характеристик СПП и оценке «весов» тех или иных базовых свойств.
  2. В вопросе выбора того или иного продукта на рынке СПП предлагается связывать общую оценку качества данного продукта, получаемую на основе предложенной методологии, с его ценой. Это позволяет обоснованно выбирать тот или иной пакет на основе диаграммы «Цена — Качество» (ее пример см. на рис. 2).
  3. На основе описанного выше подхода пользователь может сопоставлять, с позиций интересующей его прикладной задачи, нужные ему модули универсального пакета с конкурирующими специализированными пакетами. Примеры такого сопоставления для СПП по анализу временных рядов приводятся в разделах 3 и 4.
  4. В обзорном виде освещена интеллектуальная компонента СПП, введение которой в пакет позволяет пользователю иметь автоматизированные статистические консультации в постановке задачи, в правильном применении того или иного метода в умении обходить типовые статистические «ловушки», в интерпретации промежуточных и финальных результатов анализа.

 

ЛИТЕРАТУРА

[1] Айвазян С.А. Программное обеспечение персональных ЭВМ по статистическому анализу данных. Компьютер и экономика: экономические проблемы компьютеризации общества. М.: Наука, 1991, с.91–107.

[2] Aivazian S.A. Model and Method-Oriented Intelligent Software for Statistical Data Analysis. — In: Model-Oriented Data Analysis System. Springer-Verlag: N.–Y., 1987, pp.153–158.

[3] Прикладная статистика: Классификация и снижение размерности: Справ.изд. /Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. М.:Финансы и статистика, 1989, 607 c.

[4] Тьюки Дж.У. Анализ результатов наблюдений. Пер.с англ. М.: Мир, 1981, 693 с.

[5] SciTECH: Software for Science. — Vol. 33.

[6] SciTECH: Software for Science. — Vol. 31.

[7] SciTECH: Software for Science. — Vol. 27.

[8] Aivazian S.A. On a Methodology of Testing & Comparative Analysis of Statistical Software /Sixth Internat. Conference on Probab. Theory & Mathemat. Statistics (the lecture from the 2-nd July, 1993). Vilnius, 1993.

[9] Айвазян С.А. Интеллектуализированные инструментальные системы в статистике и их роль в построении проблемно-ориентированных систем поддержки принятия решений. «Обозрение прикладной и промышленной математики», том 4 (1997), № 2. М.: Научное изд-во ТВП.

[10] Gale W.A., Hand D.J., Kelly A.E. Statistical Applications of Artificial Intelligence/In: Handbook of Statistics, 9: Compretational Statistics. Edit. by C.R.Rao. North-Holland Publ., 1993.

[11] Айвазян С.А. Об опыте применения экспертно-статистического метода построения неизвестной целевой функции. В кн: «Многомерный статистический анализ в социально-экономических исследованиях». М.: Наука, 1974, с.56–86.

[12] Козырев А.Н. Рынок программного обеспечения в СССР, лицензионные и авторские договоры, цены. — «Мир ПК», 1989, №3.

[13] Wilkinson L. The Truth about StatSoft and CSS:STATISTICA: False Advertising, Plagiarism, Wrong Results. — Evanston, IL : SYSTAT, 1991, 25 p.

[14] Статистические и математические системы. — «Тысячи программных продуктов»: Каталог, 1995, №2, с.88–92.

[15] Wass J.A. How Statistical Software Can Be Assessed. — Scientific Computing & Automation. 1996 (October), p.14–24.

[16] Интеллектуальные программные системы, которые помогают мыслить творчески и талантливо. М.: Издание «МЕТОД», 1996, 64 c.

[17] Лбов Г.С. Анализ разнотипных данных: ОТЭКС. Новосибирск.

[18] Fridlund A.J. Powerful SYSTAT Limited by Outdated Interface. — InfoWorld. 21-st Oct., 1995, vol.17, №40, p.99.

[19] Fridlund A.J. CTI Catalogue of Economics Software: STATISTICAL ANALYSIS. 21 p.

[20] Schervish M.J. MINITAB. — CHANCE: New Directions for Statistics and Computing. 1993, vol.6, №1, p.54–61.

[21] Дюк В.А., Мирошников А.И. Эволюция STATGRAPHICS. — «Мир ПК», 1995, №12, с.32–34.

[22] Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. 2-е изд. М.: Инфра-М, 1997.

[23] Макаров А.А. STADIA против Statgraphics, или Кто ваш «лоцман» в море статистических данных. — «Мир ПК», 1992, №3, с.58–66.

[24] Сильвестров Д.С. Программное обеспечение прикладной статистики. - М.: Финансы и статистика, 1989.

[25] Fridlund A.J. Sophisticated STATISTICA Is a Slick Jack-of-all-trades. — InfoWorld. 30-th Oct., 1995, p.106.

[26] Marshall E. Statisticians at Odds over Software Ownership. — Science, 1992, 10 January, vol.255, p.152–153.

[27] Казанцев В.С. Задачи классификации и их программное обеспечение (пакет КВАЗАР). М.: Наука, 1990, 136 с.

[28] Сердобольский В.И. О минимальной вероятности ошибки в дискриминантном анализе. — ДАН СССР, 1983, №5, c.1066–1070.

[29] Барсов Д.А. Минимизация ошибки классификации при использовании смещенных дискриминантных функций. Статистика. Вероятность. Экономика. М.: Наука, 1985, с.376–379.

[30] Векслер Л.С. Статистический анализ на персональном компьютере. — «Мир ПК», 1992, №2, с.89–97.

[31] Kox O. Excel-5.0: английская и русская версии. Пер. с нем . СПб: BHV-Петербург, 1994, 270 с.

[32] Кузнецов С.Е., Халилеев А.А. Обзор специализированных статистических пакетов по анализу временных рядов: научный отчет. М.: Центр «Стат-Диалог», 1993.

[33] Сборник научных программ на ФОРТРАНЕ. Пер с англ., вып. 1. М.: Статистика, 1974, 316 с.

[34] Сейтер Ч. Математика без слез. — «Мир ПК», 1990, №2, с.23–42.

[35] Дьяконов В.П. Автоматизация математических расчетов с помощью системы MathCAD. — «Мир ПК», 1991, №8, с.43–49.

[36] Алексеев О. MathCAD — математический пакет для инженерных расчетов. — Компьютер–Пресс, 1993, №10, с.25–29.

[37] Киселев М.В. Data Mining в управлении портфелем ГКО–ОРФ. — Банковские технологии, декабрь 1996, с.86–88.

[38] Stein P.G., Matey J.R., Pitts K. A Review of Statistical Software for the Apple Macintosh. — The American Statistician, 1997, Feb., vol.51, №1, pp.67–82.

[39] Шанчев Р. SPSS-7.5 прокладывает курс в океане данных. — PC Week, 1997, №12 (86), с.6.