СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА НЕКОТОРЫХ СТАТИСТИЧЕСКИХ СИСТЕМ

Примечание. Статья была написана в 1999 году и с тех пор появились новые версии почти всех статистических программ, упоминаемых в ней. в основном, развитие шло по пути увеличения модулей статистической обработки данных, упрощению работы с программой и "украшению" интерфейса. В целом, несмотря на эти изменения точка зрения автора на роль различных систем изменилась мало. Появилась русская версия Statistica и SPSS, хотя резкого облегчения обработки данных для пользователя это не принесло (все равно надо знать основы статистики, а если вы знаете, что такое факторный анализ, то написано в меню "Факторный" или "Factor" - разница небольшая). Самым большим удивлением был выпуск SAS Learning Edition, базирующийся на Enterprise Guide. Система позволяет использовать SAS даже новичку, графический движок резко улучшился, а результаты можно экспортировать в HTML, RTF или PDF(кстати, экспорт в HTML в эпоху World Wide Web поддерживают многие системы). Однако вместе с меню идет жесткая структура и ухудшение работы для специалиста - конечно, всю эту систему меню можно отключить и пользоваться просто улучшенной версией SAS v. 8.0. Однако повторюсь, что описанные ниже про- и контра остаются действительными и они предлагают некоторые опорные точки для ориентировки в море статистическизх программ. И еще. Мы не анализировали специализированные статистические пакеты, типа тех, что могут посчитать только t-тест и дисперсионный анализ. Имя им легион и большинство - дипломные работы студентов-третьекурсников. Мы также достаточно настороженно относимся к "авторским" разработкам (самостоятельно созданные неким ученым программы для статистического анализа), поскольку очень часто помимо просто ошибок они содержат недостаточно проверенные алгоритмы - коммерческие программы имеют за плечами опыт тысяч пользователей, которые отыскивали все возможные ошибки своей кровью и потом. Наконец, MS EXCEL не является программой статистической обработки данных, что бы не писали некоторые авторы. Он неудобен для обработки, в нем мало статистических подпрограмм и в прошлом в нем отмечались - пусть и незначительные - ошибки в алгоритмах. Если читатель хочет использовать MS EXCEL, он может на этом остановиться и дальше время не тратить. Для всех остальных - добро пожаловать в мир больших статистических программ!

Одной из важнейших задач при подготовке любой научной статьи является статистический анализ данных. Сейчас на рынке имеется большое количество компьютерных программ, которые позволяют проводить такой анализ. Обилие систем, создатели которых утверждают, что их программа является наилучшей для обработки данных, а также отсутствие у большинства врачей достаточного времени для освоения нескольких пакетов приводит к усложнению процесса выбора. В настоящей статье делается попытка сравнить несколько систем статистического анализа, доступных в России, акцентируя внимание на их полноту и простоту для начинающих.

Для сравнения были выбраны универсальные пактеты статистических программ (табл.1), работающие под управлением ОС Windows 95, такие как SAS for Windows 6.12 (SAS Institute Inc.), SPSS 8.0 (SPSS Inc.), S-Plus 4.5 (Mathworks), Systat 7.0 (SPSS Inc.), NCSS 7.0 (NCSS), STATA 5.0 (Stata corp.), Statistica 5.11 (Statsoft Inc.) и Statgraphics Plus 2.1 (Ma nguistics, Inc).

Таблица 1. Основная характеристика пакетов статистических программ

Программы

Версия

Объем

Наличие версии для MS-DOS*

Пользовательский интерфейс (основной / дополнительный)

SPSS

8.0

70 Мбайт

+

Система ниспадающих меню / командная строка

SAS

6.12

221 Мбайт

++

Командная строка / Система кнопок и всплывающих меню $

Statistica

5.11

24 Мбайт

-

Система ниспадающих и всплывающих меню /-

NCSS97

7.0

27 Мбайт

-

Система ниспадающих меню и закладок /-

S-Plus

4.5

64 Мбайт

-

Система ниспадающих меню / командная строка

STATA/StatTransfer

5.0

5 Мбайт

++

Командная строка / Система ниспадающих меню $$

SYSTAT

7.0/8.0

24 Мбайт

?

Система ниспадающих меню / командная строка

MINITAB

12

22 Мбайт

?

Система ниспадающих меню / командная строка

STATGRAPHICS+

2.1

13 Мбайт

++

Система ниспадающих меню / -

* - (+) – имеется устаревшая версия (не функционирует под управлением Windows)

(++) – имеется устаревшая версия, функционирующая под управлением Windows

(?) – автору не удалось познакомиться с версией для MS-DOS

$ - требуется установка дополнительного модуля SAS/ASSIST, входящего в комплект поставки

$$ - требуется установка дополнительной системы QuickSTATA, бесплатно доступного с Web- сервера фирмы

В обзор не были включены ряд других известных систем, таких как GAUSS, GENSTAT, GLIM (из-за их недостаточной распространенности в России), SigmaStat, StatXact и LogXact (из-за недостаточного охвата статистических процедур). Кроме того, два распространенных математических пакета - MatLab и Mathematica - не были включены в обзор из-за отсутствия графического интерфейса пользователя в сочетании с более узким спектром статистических процедур.

Из перечисленных выше статистических систем лишь две (Statistica и Statgraphics) изначально создавались для IBM-совместимых ПЭВМ, причем первая из них была разработана уже с расчетом на графическую среду Windows. Stata, Systat и S-plus - относительно "молодые" многоплатформенные системы (DOS, UNIX и/или Macintosh), поддерживающие широкий набор графических команд, однако из-за совместимости с текстовой средой UNIX в значительной степени полагающиеся на командную строку при управлении системой. SAS и SPSS были разработаны в эпоху больших ЭВМ и поэтому их ядро продолжает носит отпечаток тех лет. Данный отпечаток в меньшей степени выражен для SPSS (поскольку развитие этой системы вне среды персональных компьютеров прекращено), и весьма значительно для SAS.

Краткая характеристика систем приведена ниже (табл.2 и 3).

Таблица 2. Поддерживаемые форматы экспорта-импорта данных и графики, а также возможности расширения статистических систем

Программы

Доступ к файлам других форматов / число поддерживаемых форматов (различные форматы одной программы считаются за один)

Возможности расширения системы / наличие готовых дополнительных подпрограмм

Графика / экспорт результатов/ графики

SPSS

SPSS*, SYLK, Excel, dBASE, Lotus, Systat, ASCII ( с разделением символом табуляции), любых текстовых форматов с описанием

7

Макросы, развитый командный язык/ ++

+++/RTF, текст/cgm, pict, eps, tiff, wmf, bmp

SAS

SAS*, dBASE, Excel, Lotus, ASCII ( с разделением символом табуляции, запятыми (csv) или пробелами),

5

Макросы, развитый командный язык/ +++

++ /RTF, текст/bmp, emf, jpeg, gif, tiff, ps, eps, pbm, dib

Statistica

Lotus, Quattro, Excel, Paradox, ASCII ( с разделением символом табуляции, запятыми (csv), точкой с запятой или пробелами)

5

Командный язык, макросы/ -

++++/ текст/wmf, bmp

NCSS97

Access, ASCII, BMDP, Clone, dBASE, Excel, Gauss, Lotus, NCSS*, Paradox, Quattro, SAS, SigmaPlot, SOLO, S-Plus, SPSS, STATA, Symphony, Systat

19

-

+++/rtf/wmf

S-Plus

ASCII, Excel, Lotus, dBASE, Paradox, Quattro, SigmaPlot, Systat, SAS, SPSS, STATA, MS Access, Gauss, MatLab, S-Plus*

15

Развитый командный язык, скомпилированные дополнительные модули/ +++

++++/rtf, текст/bmp, eps, wmf, gif, GEM, jpeg, HPGL, pcx, tiff, targa

STATA/StatTransfer

Lotus, Access, dBASE, ASCII, Excel, Gauss, MatLab, Paradox, Quattro, SAS, S-Plus, SPSS, STATA, Systat

14

Развитый командный язык / +++

++/текст/-

SYSTAT

Excel, DIF, Dbase, Lotus, BMDP, Symphony, ASCII, SPSS

9

Развитый командный язык / +

+++/ текст, rtf (версия 8)/eps, jpeg, cgm, bmp, pict, wmf

MINITAB

Minitab*, Excel, Quattro, Lotus, Symphony, dBase, ASCII

7

Командный язык, макросы/ +

+++/ текст/jpeg, tiff, bmp,

STATGRAPHICS+

Statgraphics*, Execustat, dBASE, DIF, Lotus, Excel

6

-

+++/текст/wmf

* - устаревшие или транспортные форматы

RTF – rich text format, wmf – Windows Metafile, bmp – Windows Bitmap, cgm – CGM Metafile, gif – Compuserve GIF, eps – Encapsulated PostScript, ps – Postscript, dib – Device-independent bitmap, tiff – Tagged Image Format, HPGL – Hewlett-Packard Graphics Language, pbm – Portable Bitmap, pict – Macintosh PICT, jpeg – joint picture expert group

 

Statistica. Данная система задумывалась как полная статистическая система для пользователей персональных компьютеров не привыкших к работающим в пакетном режиме ранних версий SAS или SPSS. С самого начала эта программа обладала развитым графическим интерфейсом и опиралась на поддержку высококачественной графики для анализа данных. Система состоит из ряда модулей, работающих независимо. Каждый модуль включает определенный класс процедур (например для кластерного анализа или анализа выживаемости). Графики в данной системе строятся как из общего меню, так и из подменю процедур, что очень облегчает начинающим выбор адекватного графического представления данных. Почти все процедуры являются интерактивными, т.е. для запуска обработки необходимо выбрать из меню переменные и ответить на ряд вопросов системы. Это очень удобно для начинающего пользователя, однако резко замедляет деятельность опытного и не позволяет эффективно повторять одну и ту же процедуру несколько раз. Автоматизация возможна при помощи командного языка (Statistica Command Language) интерпретатор которого доступен из любого модуля. Мастер команд (Command Wizard) резко облечает составление программы, сводя программирование к выбору соответствующих пунктов меню. Однако на самом деле интерпретатор работает с языком макропоследовательностей, т.е. он просто автоматизирует действия пользователя, а не обращается напрямую к ядру системы, поэтому после запуска на выполнение вызываются отдельные модули и на экране начинают мелькать отдельные окна и подменю. Кроме того, необходимо (в отличии от других систем) включить сохранение результатов, иначе они пропадут. Встроенный язык программирования (Statistica Basic) не смотря на название по своей структуре похож на Паскаль и не получил значительного распространения, поэтому дополнительные подпрограммы, созданные третьими сторонами практически отсутствуют. Жесткая структура также не позволяет использование дополнительных модулей.

Statistica является относительно небольшой программой, занимая около 24 Мбайт и обладает одной из наилучших систем подсказки. Возможности экспорта и импорта данных развиты достаточно, но без особых дополнений (табл.2). Работать с графикой в этой программе удобно и легко, смена названий и подписей проходит без проблем.

Statistica обладает очень широкой палитрой статистических методов. Так, например, в версии 5.11 появились три дополнительных модуля, один из которых - дендрологическое моделирование, является оболочкой для хорошо известной программы QUEST выполняющей моделирование по алгоритмам дискриминантного разделения и CART. Для сравнения хочется отметить, что продукт фирмы SPSS для дендрологического моделирования никогда не входил в комплект полной поставки системы (приобретался отдельно) и до недавнего времени базировался на устаревшем алгоритме (CHAID).

Вместе с версией 5.11 можно приобрести интегрируемый в нее пакет нейросететвого моделирования Statistica Neural Networks. Этот пакет по своим возможностям явно превосходит аналогичные модули, доступные для S-Plus или SPSS (NeuroSolutions), однако его стоимость практически равна стоимость всей остальной системы.

Таким образом Statistica является одной из наиболее простых для неподготовленного пользователя систем, с наименьшим периодом овладевания ее возможностями и удачным набор графических аозможностей. К недостаткам системы можно отнести ее малую расширяемость, отсутствие модулей третьих фирм и пользователей, а также недостаточно эффективный командный язык.

STATA. Stata является весьма развитой системой статистической обработки данных, существующей на всех основных операционных системах – MS DOS, Windows 3.1, Windows 95 и UNIX . По своей сути эта программа является ни чем иным, как интерпретатором языка программирования статистических задач. Отсюда проистекают все положительные и отрицательные стороны системы. К явно положительным относятся расширяемость, наличие большого количества программ, написанных пользователями системы (служба технической поддержки фирмы выпускает журнал, содержащий программы, написанные как сотрудниками корпорации, так и пользователями), полная совместимость процедур, созданных на разных платформах и легкость программирования собственных статистических программ. Понятно, что все эти достоинства необходимы, в первую очередь, профессионалам в области статистической обработки данных, но вряд ли произведут большое впечатление на начинающих.

Надо отметить, что оригинальная версия даже не имеет пользовательского интерфейса, а полностью управляется при помощи командного языка (зато эта программа является самой маленькой из представленных в обзоре). Для того, чтобы облегчить использование STATA студентами была разработана оболочка StataQuest, которая добавляет к системе меню и диалоговые окна, позволяющие осуществлять простой доступ к ряду статистических процедур. Однако, поскольку StataQuest разрабатывалась для студентов (и базировалась на урезанной версии STATA 4), она включила доступ лишь к основным процедурам (правда, включая основные виды множественной регрессии, дисперсионного анализа, непараметрической статистики и корреляционного анализа). Кроме того, в STATA встроены достаточно полные графические возможности. Существует большое разнообразие графиков, которые можно использовать для визуализации и визуальной оценки данных, включая различные варианты гистограмм, Box-Plot, точечных и столбиковых диаграмм, диаграмм рассеяния и т.п. Графики обычно бывают двух типов – высокого разрешения (которые используют графические возможности системы) и низкого разрешения – когда для рисования используются обычные текстовые символы. Следует отметить, что графики высокого разрешения можно сохранять только в одном из бвух форматов – собственном формате STATA и в формате WMF. Последний позволяет использовать изображения в других программах, например MS Word или MS PowerPoint.

STATA позволяет использовать в командной строке условия, например, рассчитывать суммарные статистики не по всей анализируемой группе, а по определенному поднабору данных. Полно представлены различные методики регрессионного анализа, анализ выживаемости и факторный анализ (хотя отсутствуют алгоритмы наклонного вращения факторных нагрузок). Сильной стороной системы является целый набор команд для анализа эпидемиологических данных, включая прямую и непрямую стандартизацию, оценку исследований по типу случай-контроль и когортных исследований.

Несколько удивительным является отсутствие среди реализованных алгоритмов кластерного анализа.

В целом STATA ориентирована на пользователей, обладающих некоторыми знаниями как в области статистической обработки данных, так и в программной реализации статистических алгоритмов. Для этой категории пользователей она представляет мощный, быстрый и компактный инструмент. Вместе с тем чисто текстовой вывод таблиц, сложность доступа к командам и отсутствие полномасштабного графического интерфейса пользователя делает эту программу недостаточно подготовленной для начинающего.

Statgraphics + . Данная система была разработана еще для персональных компьютеров, работающих под управлением MS DOS. В те времена она открыла перед пользователями, уставшими от командной строки SAS и SPSS систему меню, четкую графику высокого разрешения, большие возможности по экспорту графических изображений в сочетании с достаточно полным набором статистических алгоритмов.

Однако на компьютерах, оснащенных операционной системой Windows, Statgraphics уступил свои позиции в качестве “статистической системы N 1 для начинающих” пакету Statistica (достаточно упомянуть тот факт, что для DOS было выпущено 5 версий Statgraphics, в то время как для Windows пока выходит лишь третья версия). Вместе с тем до сих пор Statgraphics сохраняет свою приверженность ориентировке на начинающих пользователей в сочетании с мощными возможностями по визуализации данных.

Следует заметить, что структура Statgraphics достаточно сильно отличается от таковой в Statistica или SPSS. Дело в том, что процедуры в данной программе сгруппированы по типам анализа, а не по особенностям алгоритмов. Так, пункты меню носят следующие названия – “Сравнить”, “Проанализировать связи”, “Описать” – что значительно облегчает выбор нужных процедур, например в сравнении с таким пунктом меню, как “Базовая статистика”.

При этом методики параметрической и непараметрической статистик обычно находятся в одном пункте меню и могут быть использованы при просмотре опций данного типа анализа. После каждого анализа идет краткий комментарий того, что было получено и даются предложения по использованию дополнительных методик. Активно используются опции, вызываемые нажатием правой кнопки мыши.

Если исследователь привык работать с другими программами, которые задают вопросы до тех пор, пока не смогут однозначно выполнить поставленную перед ними задачу, работа в Statgraphics может показаться несколько неуклюжей. Однако для тех, кто начинает работу с этой программы, данный подход может показаться естественным – выбрать тип анализа, указать переменные, затем получить комментарий по поводу данных и первоначальные результаты, а после этого выбрать уточняющие методики анализа.

Также надо указать, что одной из наиболее сильных сторон Statgraphics являются его возможности по визуализации данных.

S-plus . S-plus является, наверное, одной из самых развитых систем статистического анализа, находящихся на рынке. Основой S-plus является язык с аналогичным именем, разработанный более десяти лет назад в лабораториях АТТ. Это язык, специально предназначенный для анализа и исследовательской работы в области статистики. Современные версии S-plus базируются на ядре языка (реализованном в виде динамической библиотеки) и графическом пакете Axum, который также отвечает за графический интерфейс пользователя. Как видно из табл. 3, S-plus является наиболее всеобъемлющим пакетом. Именно он наряду со стандартными методами анализа включает дендрологическое моделирование, нечеткий кластерный анализ и ряд других дополнительных возможностей. S-plus позволяет подключать дополнительные модули уже в скомпилированном виде, поэтому расширение системы не составляет труда и достаточно широко доступны дополнительные модули для робастной статистики, нейросетевого моделирования и ряда других типов анализа. Конечно, работа с дополнительными модулями не столь удобна, как со встроенными, однако возможность их бесплатного получения из Интернет является очень привлекательной.

Графика всегда была одной из сильных сторон S-plus, предоставляя пользователю широкий выбор различных высококачественных диаграмм и позволяя достаточно легко манипулировать ими. Не случайно поэтому, S-plus широко используется в Северной Америке для обучения студентов статистике.

Недостатки S-plus являются продолжением его достоинств. Естественным следствием полноты системы является ее медлительность. Для нормальной работы необходим процессор класса Pentium MMX и 32 Мбайт оперативной памяти. Естественно, он будет работать и на более слабых машинах, однако скорость падает весьма заметно. Достаточно отметить, что на Р-60 S-plus требуется почти две минуты для того, чтобы загрузиться.

Существует и ряд других недостатков. Отсутствие в меню возможности расчета непараметрических коэффициентов корреляции вызывает некоторое удивление. Кроме того, вывод данных в S-plus не всегда удобен для интерпретации. Так, например, команда корреляционного анализа выдает столбцы значений коэффициентов с точностью до восьмого знака после запятой, однако без расчета достоверности коэффициентов или вспомогательных статистик.

Использование командной строки (а значит и полностью всех возможностей S-plus) требует изучения языка. Надо заметить, что использование командной строки несколько сложнее, чем в SAS, SPSS или Stata.

S-plus является системой, рас c читанной, в основном, на профессионалов в области статистической обработки данных, исследовательской работы в области статистики и обучению студентов-статистиков. Поэтому данная система является очень мощной, настраиваемой и расширяемой. Вместе с тем, значительные требования к аппаратной части компьютера, сложность в использовании командной строки (для доступа к специальным возможностям) делают S-plus менее привлекательным для начинающих пользователей-непрофессионалов.

Minitab. Одна из старейших систем обработки данных для персональных компьютеров - Minitab - явно утрачивает свои лидирующие позиции. Несмотря на достаточно большой набор статистических процедур, отсутствуют те из них, которые являются стандартом и необходимы для анализа биомедицинских данных. Так, например, отсутствие непараметрических коэффициентов корреляции вообще трудно объяснимо. Графика в этой системе достаточно развитая, однако диалоговые окна, через которые необходимо пройти, чтобы вызвать график, никак нельзя назвать интуитивными. Вообще пользовательский интерфейс Minitab является одной из наиболее слабых его сторон. Наползающие друг на друга поля, "съеденные" метки и т.п. придают программе незаконченный вид.

Minitab имеет свой командный язык и имеется ряд макросов, расширяющих возможности системы. Вместе с тем среди этих макросов нет тех, которые кардинально бы расширяли возможности системы и их число явно уступает таковому для Stata или SAS.

Большим преимуществом системы является возможность получить бесплатную полную версию системы, которая ограничена 30 днями работы. Ни одна из других систем (исключая Statgraphics) не предлагается в качестве столь полного продукта для тестирования.

В целом можно отметить, что Minitab расчитан на начинающих пользователей и может ими успешно использоваться, однако он явно уступает по своим возможностям и тщательности проработки Statistica

SAS . Одна из старейших и наиболее часто используемых систем статистической обработки данных - SAS - начинала свой путь на больших ЭВМ и до сих пор имеет наиболее широкий охват различных компьютерных платформ. SAS имеет программно-модульную структуру, что означает, что существуют специализированные модули обработки данных (статистика - STAT, поддержка принятия решений - OR, графика и т.п.), а внутри модуля имеются программы выполняющие эту обработку. SAS практически не попала под влияние среды Wind ows и поэтому версии для этой операционной системы выглядят также, как и для других сред. Более того, основным способом общения с системой является командная строка.

Графический интерфейс пользователя поставляется в отдельном модуле - SAS/ASSIST - и не предоставляет доступа не только что ко всем возможностям системы, но даже к их большей части. Дело в том, что этот модуль является оболочкой не для всей системы, а лишь для блока общего анализа данных и поэтому полнота охвата процедур ограничена. Справедливости ради следует отметить, что на рынке существует распространяемая бесплатно оболочка для SAS - Overstat, которая превращает эту программу в систему, более привычную для пользователя Windows, с полностью настраиваемыми меню и диалоговыми окнами. Данная программа рассчитана на работу с более ранними версиями SAS (6.03-6.04), однако может использоваться и для новых версий.

Из всех проанализированных систем только сочетание Overstat-SAS может быть, хотя бы частично, русифицировано. Хотя S-Plus и STATA имеют возможность настройки диалоговых окон и меню, использование символов верхней половины таблицы кодов в них затруднено.

Сильной стороной SAS являются ее возможности по обработке данных и полнота представленных процедур. Графики, предлагаемые системой достаточно впечатляющи, однако не могут сравниться с генерируемыми S-Plus или Statistica.

Еще одной сильной стороной SAS является ее расширяемость. Система включает командный язык, язык работы с матрицами (IML) и поддержку макро. Неудивительно поэтому, что на рынке можно найти достаточно большое количество готовых подпрограмм и макросов для решения различных статистических задач.

Каждая процедура SAS имеет множество опций, которые позволяют выполнять дополнительные тесты и специфицировать дополнительные модели. Естественно, полное и гибкое использование всех этих возможностей требует знания командного языка или создание детальных меню в Overstat.

Ряд авторов считает, что SAS продолжает нести с собой наследие старых компьютерных систем в том, что результаты анализа обычно очень многословны. Система старается рассчитать и распечатать все известные ей тесты, поскольку при работе на старых машинах не могло быть большего разочарования для аналитика, как получив долгожданную распечатку обнаружить, что он забыл заказать тот самый тест, который ему был нужнее других. Чтобы избежать этого SAS выводит результаты всех тестов.

В целом следует отметить, что SAS является наиболее гибкой и развитой системой обработки данных, которая особенно хорошо подходит для профессионалов в обрасти анализа данных, однако может быть использована и начинающими, если они воспользуются оболочкой Overstat или SAS/ASSIST.

SAS была одной из двух систем, представленных в нашем обзоре, которая смогла достаточно просто справиться с задачей последовательного использования процедур импорта файла, корреляционного анализа по Спирмену и факторного анализа полученной корреляционной матрицы

SPSS. SPSS является, наряду с SAS одной из старейших систем статистического анализа данных. Однако, в отличие от SAS компания, производящая эту программу всегда была в значительной степени ориентирована на непрофессионалов и поэтому уже с ранних версий для персональных компьютеров (SPSS PC+) программа полагалась на разветвленную систему меню. При этом система меню была лишь оболочкой (front-end) для ядра программы, управляемого командным языком. Использование меню приводило к автоматическому формированию команд для SPSS, которые затем необходимо было передать командному процессору (тот же принцип используется и Overstat). В ходе эволюции SPSS принцип "общения" оболочки с ядром оставался прежним, однако становился все более и более скрытым от пользователя. Так, в последних версиях SPSS, для того, чтобы увидеть команды, сформированные оболочкой необходимо специально сообщить системе о своем желании.

Длительное время ядро SPSS оставалось без изменений, однако в версии 7.5 один из основных компонентов - общая линейная модель (GLM) был переписан.

Кроме того, фирма-производитель отказалась от развития SPSS на платформах, отличных от Windows, что привело к возможности создать систему, имеющую столь привычную для пользователей Windows, сокращая, таким образом, время на обучение пользователей.

Сейчас SPSS включает большое количество статистических процедур, возможности по манипуляции данными и создания графиков. Проработка статистических алгоритмов чрезвычайно тщательная и позволяет хорошо контролировать процесс обработки данных. Большинство опций доступна из меню и диалоговых окон, что выгодно отличает SPSS от оболочек SAS.

Вместе с тем, SPSS уступает ряду других статистических систем по нескольким параметрам. Во-первых, политика фирмы направлена на то, что многие дополнительные модули (нейросетевого моделирования, дендрологического моделирования и т.д.) существуют в виде отдельных программных продуктов, которые интегрируются в систему благодаря стараниям пользователя (и не могут вызываться в прямом виде из командного процессора). Во-вторых, различные модули могут давать результаты в несовместимом формате (корреляционные матрицы, полученная при помощи модуля продукт-моментной корреляции и ранговой корреляции имеют разный формат и формат ранговой матрицы не распознается, например, процедурой факторного анализа).

Система подсказки в SPSS довольно рудиментарная, и отличается в худшую сторону от подсказки в Statistica, а Statistical Coach не идет ни в какое сравнение со Statistical Advisor в Statgraphics.

NCSS. Система NCSS является относительно молодой и мало распространенной, однако это с лихвой компенсируется полнотой охвата статистических процедур внутри одной программы (без дополнительных модулей). По количеству предлагаемых процедур NCSS напоминает S-plus, предлагая большое количество процедур кластерного анализа, детальную описательную статистику, графики и многие другие статистические методики. Внешний вид программы также напоминает S-plus, особенно диалоговыми окнами с закладками для выбора параметров процедур. Явным достоинством системы является то, что все ее возможности доступны из ниспадающих меню, а сопровождающая программу система подсказки содержит набор пошаговых инструкций с примерами, позволяющий быстро овладеть ее основными возможностями. Результаты, генерируемые программой автоматически сохраняются в rtf-файле, который затем легко прочитать и редактировать любым современным текстовым редактором. Сами результаты организованы таким образом, что их легко просматривать и анализировать. Аналогично SAS система по умолчанию рассчитывает большое количество статистик, позволяя охватывать их всех одним взглядом.

Недостатки системы частично кроются в том, что она создавалась при помощи Visual Basic - отнюдь не самого быстрого языка программирования. Следствием оказывается очень большое время загрузки программы и исполнения на относительно маломощных компьютерах. Кроме того, генерируемые программой графики не могут редактироваться. Однако в остальном NCSS является весьма привлекательной системой для начинающих пользователей.

SYSTAT . Данная программа позиционируется как полномасштабная статистическая система для исследователей. SYSTAT существует в версиях для пользователей обоих основных типов персональных компьютеров - на платформе Windows и Macintosh. Структура SYSTAT очень похожа на структуру всех остальных программ, базирующихся на ядре командного интерпретатора с оболочкой в виде меню и панели кнопок. Вместе с тем, по целому ряду параметров SYSTAT действительно является очень удобной для исследователей системой. Во-первых эта программа предлагает весьма широкий набор статистических процедур в рамках одного модуля, достаточно компактного и быстрого. Данная система была одной из первых, включивших дендрологическое моделирование в структуру встроенных команд. Кроме того, SYSTAT поддерживает специальный набор процедур для статистического распознавания сигнала. Анализ опросных данных позволяет проводить классический анализ (расчет коэффициента альфа Кронбаха) и логистический анализ. Имеется и множество других примеров мощности системы SYSTAT. Появившаяся недавно на рынке версия 8.0 обладает дополнительными возможностями, включая несколько более эстетичный дизайн и - что очень важно - почти полнофункциональную демо-версию, которая работает на протяжении 60 дней и ограничена только объемом выборки (менее 250 наблюдений). Недостатков у этой системы немного, к ним можно отнести отсутствие модулей расширения, не очень интуитивные диалоговые окна выбора опций анализа и отсутствие форматированных таблиц в стиле SPSS. Недостаточно хорошо организован и модуль непараметрической статистики. Так, большинство тестов для связанных совокупностей вынесены в отдельные пункты меню, а вот для независимых – вообще отсутствуют. Доступ, например, к критерию Мэнна-Уитни, осуществляется через дисперсионный анализ рангов по Крускалу-Уоллесу. Так же не вполне интуитивна и организация результатов параметрического дисперсионного анализа. Количество тестов сравнения post hoc меньше, чем в Statistica, однако включает стандартную процедуру Бонферрони, которая исключена из Statistica.

В целом система SYSTAT является мощным и удобным инструментом для начинающих пользователей и пользователей среднего звена.

 

 

Программы

 

SPSS

SAS

Statistica

NCSS

S-Plus

STATA

Systat

Stat-graphics+

Mini-tab

Система подсказки

++

+++

++++

+++

+++

++

++

++

++

Наличие “советника”

+

-

+

-

-

-

-

+$$

-

                   

Описательная статистика

+

+$

+

+

+

+

+

+

+

Дисперсионный анализ/сравнение групп

+

+$

+

+

+

+

+

+

+

Корреляционный анализ

+

+$

+

+

+

+

+

+

+

Нелинейная регрессия

+

+$*

+

+

+

+$

+

+

+

Кластерный анализ

+

+$

+

+

+

-

+

+

+

Факторный анализ

+

+$

+

+

+

+$

+

+

+

Непараметрическая статистика

+

+$

+

+

+**

+

+

+*

+^

Анализ временных рядов

+

+$

+

+

+

+$

+

+

+

Анализ выживаемости

+

+$

+

+

+

+$

+

-**

+^

Дизайн эксперимента и контроль качества

-

-

+

+

+

-

+

+

+

Дендрологическое моделирование

-****

-***

+

-

+

-

+

-

-

Нейросетевое моделирование

-****

-

-****

-

-***

-

-

-

-

Кластерный анализ на основе нечетких множеств

-

-

-

+

+

-

-

-

-

Построение характеристических кривых

-

-

-

+

-

+**

+

-

-

* - присутствует в виде отдельных опций анализа

** - имеются лишь отдельные компоненты

*** - доступны в виде макросов

**** - доступны в виде отдельно приобретаемых модулей, которые могут быть интегрированы с основной системой

$ - большая часть опций доступна лишь через командный язык

$$ - полный комментарий, объясняющий результаты анализа и возможности дополнительной обработки

^ - отсутствует ряд стандартных опций (ранговые коэффициенты корреляций, моделирование по Коксу)

 

Сравнивая различные статистические программы следует учитывать, что практически все они обладают набором стандартных процедур. Алгоритмы, используемые программами, по большей части, стандартные и различий при использовании той или иной программы нет (было бы удивительно, если бы они существовали). Поэтому на первое место выходят различия в пользовательском интерфейсе, полнота охвата современных статистических методов, программируемость, наличие дополнительных модулей расширения и легкость использования полученных графиков и таблиц в других программах. Не все перечисленные выше требования могут выполняться одновременно. Так, например, программируемость и расширяемость обычно плохо сочетаются с полнотой пользовательского интерфейса. Вообще достаточно четко проявляется правило - чем более разработан пользовательский интерфейс и графическая подсистема, тем "тяжелее" приложение. На одном полюсе находятся в этом отношении STATA и SAS - управляемые преимущественно из командной строки, но зато с большим количеством легко подключаемых и используемых дополнительных модулей. На другом - Statgraphics+, NCSS и Statistica, которые имеют чрезвычайно привлекательный интерфейс, полный и удобный для начинающих, однако при почти полном отсутствии дополнительных (бесплатных) модулей и подпрограмм.

Те, кто по ходу своей работы сталкивается с необходимостью применять необычные статистические подходы или хочет воспользоваться идеями, созданными и реализованными другими людьми, должен обратить свое внимание на системы, управляемые из командной строки. SAS является наиболее разработанной программой этого класса с большим количеством готовых подпрограмм, широким охватом процедур и языком манипулирования матрицами, что чрезвычайно удобно для написания статистических программ.

Наличие обоочек для SAS (собственный ASSISST и бесплатный OverStat) позволяет легко создавать сложные задания для обработки данных и анализировать их достаточно быстро (все системы, работающие в пакетном режиме позволяют обсчитывать данные быстрее, чем системы, основанные на меню). Stata несколько отстает от SAS в отношении удобства программирования (субъективный взгляд автора), обладает не столь широкими возможностями, однако это с лихвой компенсируется наличием большого количества дополнительных модулей и подписным листом, в котором пользователи приводят свои программы, расчитанные на анализ различных статистических моделей.

Естественно, эти две программы вряд ли могут быть рекомендованы для новичков в области обработки данных, которые не собираются часто прибегать к нестандартным статистическим процедурам. Это инструменты лиц, часто занимающихся анализом больших массивов данных, использующих различные статистические подходы и желающих иметь контроль над процессом обработки результатов.

Промежуточную позицию занимает SPSS, являясь одновременно и системой с мощным языком программирования и достаточно дружелюбным к пользователю интерфейсом. Вообще ряд возможностей, предлагаемых SPSS, особенно в области факторного анализа, являются самыми широкими среди всех описанных систем. Например, Statistica не предлагает методик углового вращения факторной структуры (за исключением т.н. иерархического факторного анализа), SAS предлагает только вращение по методу Promax, а вот SPSS позволяет выбирать Promax или Oblimin.

Язык SPSS достаточно прост и позволяет автоматизировать часто повторяющиеся задания, однако не всегда использование встроенных команд приводит к ожидаемому результату - например, корреляционная матрица созданной при использовании подпрограммы расчета коэффициентов Спирмена не распознается подпрограммой факторного анализа.

В целом SPSS может быть рекомендована пользователям, которые хотят иметь систему с простым, интуитивным интерфейсом, относительно развитой графикой и периодически использующих язык программирования для автоматизации более сложных заданий.

Если же речь заходит о начинающих пользователях, то им следует обратить свое внимание на Statistica или Statgraphics+. Для людей, относительно ориентирующихся в статистических методиках или начинающих изучение статистики наиболее адекватной будет использование системы Statistica. Дружелюбный интерфейс, развитая система подсказки и полнота представленных статистических процедур позволяют рекомендовать эту систему начинающим пользователям и непрофессионалам, часто использующим в своей работе статистические методы анализа.