Введение в работу с приложением SAS Analyst

SAS Institute Inc., SAS Campus Drive, Cary, NC 27513

SAS/STAT и SAS/ACCESS зарегистрированные в США и других странах торговые марки SAS Institute Inc. Другие наименования продуктов являются зарегистрированными или торговыми марками соответствующих компаний.

Copyright © 1997 SAS Institute Inc.

Введение.

Программа Analyst представляет собой инструмент анализа данных, которые предоставляют легкий доступ к основным формам статистического анализа. Данная программа предназначена как для изучающих систему SAS и для новичков, так и для исследователей и аналитиков, которые уже хорошо знакомы с системой SAS.

Графический интерфейс пользователя включает большое количество аналитических и графических заданий. Можно рассчитать описательную статистику, выполнить простое тестирование гипотез, а также провести дисперсионный или регрессионный анализ. Программа Analyst также обеспечивает некоторые задачи, которые не встречаются в виде отдельных процедур SAS - таких как определение размеров выборки и анализ мощности исследований. Кроме того, можно создать несколько типов графиков, включая гистограммы, коробчатые графики, графики рассеяния, контурные графики, графики поверхностей и вероятностные графики.

Имеется достаточно много способов ввода данных, которые следует анализировать: можно импортировать данные из других источников, можно использовать существующий набор данных SAS или ввести данные вручную. Все данные представляются в таблице, столбцы которой соответствуют переменным, а строки соответствуют наблюдениям. Можно редактировать отдельные элементы в этой таблице данных или создавать новые столбцы и строки; кроме того, можно создавать поднаборы и случайные выборки из данных, а также транспонировать всю таблицу.

К задачам можно получать доступ из ниспадающих меню при помощи панели инструментов, или через индекс наиболее часто используемых команд. Данные задачи являются не просто интерфейсом к существующим процедурам SAS, они представляют собой комбинацию собственно вызова процедуры и шага DATA необходимых для того, чтобы выполнить весь анализ целиком. В то время как пользователи не обязаны знать, при помощи какого кода SAS все это делается, тем не менее, этот код можно просмотреть и сохранить, особенно если пользователь будет заинтересован в применении его затем в своих собственных программах. Результаты анализа, графики и код SAS представляется в отдельных окнах, и все результаты представлены в виде иерархического дерева, связанного с таблицей данных, в которой весь анализ проводился. Можно сохранять как текстовый, так и графический результаты в каталоге SAS, кроме того, можно сохранить текстовые результаты в отдельном файле или напечатать их напрямую из программы Analyst.

Дополнительные возможности.

Analyst предоставляет следующие возможности для анализа данных:

Вы можете запросить большое количество графиков в окне Графики (Plots) при вызове соответствующей процедуры. Кроме таких специфичных для каждого анализа, Analyst может создать следующие графики при вызове их из меню Графиков (Graphs):

Данный документ

Данный документ предназначен в качестве введения в возможности программы Analyst и для того, чтобы предоставить начальную информацию новому пользователю. Детальная документация статистических техник может быть найдена в руководстве пользователя SAS/STAT тома 1 и 2 и "SAS/STAT - изменения и улучшения в релизе 6.12". Кроме того существует система подсказок, которая предлагает помощь при использовании ниспадающих меню и окон внутри самой программы Analyst. Самый простой способ запустить Analyst - это выбрать в меню SAS пункт Globals, а затем выбрать пункты- Анализировать Статистический анализ (Analyze ->Statistical Analysis). Вы можете также вызвать программу Analyst, напечатав команду Analyst в любой командной строке. Программа запускается и открывает пустую не поименованную таблицу, в которую можно ввести данные вручную.

Работа с данными.

Открытие таблицы данных.

Вы можете вводить данные в неподписанную таблицу, которая появляется, когда Вы запускаете программу Analyst. Для того, чтобы удалить данные из таблицы щелкните в меню File и выберете там пункт New. Введите имена переменных в качестве заголовков столбцов и введите сами данные в соответствующие ячейки под именами переменных. Щелкните по меню File для того, чтобы получить доступ к одному из следующих методов открытия набора данных.

Для того, чтобы открыть существующий набор данных SAS щелкните в меню File пункт Open, как показано на рисунке 1.

Рисунок 1. Открытие набора данных SAS.

Найдите соответствующее расположение и выберите желаемый набор данных. Щелкните по кнопке Open для того, чтобы открыть набор данных. Рисунок 2 показывает, как мы выбрали набор данных под названием HOUSES.

Рисунок 2. Открыть набор данных.

Вы также можете открыть существующий набор данных, указав имя библиотеки и название файла в этой библиотеке. Выберите в меню файл пункт -> Open by SAS name. В результате появится окно, показанное на рисунке 3.

Рисунок 3. Окно Open by SAS name.

В окне Open by SAS name выберите имя библиотеки. Те наборы данных, которые приписаны к этой библиотеке появятся в списке Tables (таблицы). Выберите интересующий Вас набор данных. Если у данного набора данных существует описание, оно появится в поле Description. Для того, чтобы открыть выбранный набор данных щелкните по кнопке OK. Рисунок 3 показывает, как мы выбрали набор данных HOUSES в библиотеке SASUSER.

Если Ваши данные были сохранены в формате, отличающемся от формата данных SAS, Вы их можете импортировать в Analyst. Для этого необходимо в меню File выбрать пункт Import, что вызовет Мастера Импорта (Import Wizard), показанного на рисунке 4. Вы можете импортировать следующие типы файлов:

·        файлы с разделителями (*.*)

·        файлы с данными, разделнными запятой (*.csv)

·        файлы, разделенные знаками табуляции (*.txt)

Если у Вас имеется программа SAS/ACCESS Вы также можете импортировать следующие типы файлов:

·        файлы dBASE (*.dbf)

·        файлы Excel (*.xls)

·        электронные таблицы Lotus 1-2-3 (*wk1,*wk2,*.wk4)

Вы можете определить и импортировать особые форматы файлов при помощи программы интерфейса с внешними файлами.

Рисунок 4. Мастер импорта.

Добавление нового столбца в таблицу.

Таблица данных HOUSES содержит переменные, которые указывают на стиль, количество квадратных футов, количество спален, количество ванных комнат, расположение и цену 15 домов. Вы можете добавить новые столбцы к таблице только в том случае, если таблица находится в режиме редактирования. Если таблица находится в режиме просмотра, Вам необходимо будет выбрать в меню Edit пункт Mode, а затем пункт Exclusive Edit как показано на рисунке 5.


 


Рисунок 5. Режим редактирования для набора данных HOUSES.

Предположим, что Вам необходимо добавить переменную, которая представляет собой цену за квадратный фут для каждого дома. Выберите в меню Data пункт Columns и пункт Add , что приведет к появлению окна - добавление столбца (Add a Column), показанного на рисунке 6.

Рисунок 6. Окно добавления столбца.

Укажите имя и метку для нового столбца. По умолчанию название переменной и метки NEW001. На рисунке 6 мы назвали эту строку PR_SQFT и сделали метку "Price per square foot" (цена за квадратный фут). После того, как Вы указали имя и метку, необходимо обозначить является ли переменная численной, или она является строковой. Кроме того вы можете указать длину или формат этой переменной. Для численных переменных Вы можете ввести также арифметическое выражение для расчета значений в этой таблице, или создать таблицу, состоящую из ранговых значений, или стандартизованных значений другого количественного столбца.

Рисунок 7 показывает окно определения формулы для столбца (Define), которое появляется, если Вы выберете пункт Computed и щелкните на кнопку Edit.


Рисунок 7. Окно ввода арифметического выражения для численного столбца.


В окне ввода выражения Вы можете использовать список других столбцов, имеющихся в этой базе данных: цифры, арифметические выражения и список функций для того, чтобы создать выражения для нового столбца в окошечке, помеченном "Price per square foot". Щелкните по кнопке OK, когда Вы полностью завершили ввод выражения. На рисунке 7 показано арифметическое выражение для нового столбца как Цена (PRICE) деленная на Площадь в квадратных футах (SQFEEТ). Щелкните по кнопке ОК, что вернет Вас в окно внесения нового столбца, а затем снова щелкните по кнопке ОК для того, чтобы создать этот новый стобец. Обновленные результаты показаны на рисунке 8.


Рисунок 8. Перерассчитанный файл данных


Анализ.

Данный раздел иллюстрирует простую линейную регрессию, которую мы можем провести, используя набор данных HOUSES. Для того, чтобы открыть окно задач простой линейной регрессии, необходимо выбрать в меню статистика раздел регрессия и далее простая (Statistics ->Regression-> Simple) как показано на рисунке 9. Само окно линейной регрессии показано на рисунке 10.


Рисунок 9. Как открыть задачу выполнения простой линейной регрессии.



Рисунок 10. Окно простой линейной регрессии.


Рисунок 10 показывает, что переменная Цена (PRICE) была выбрана в качестве зависимой переменной, переменная Площадь в квадратных футах (SQFEEТ) была выбрана как независимая переменная. В окне Графики (Plots), к которому можно получить доступ, щелкнув по кнопке Plots, Вы можете заказать график наблюдаемых результатов. Для более детальной информации по статистическому анализу смотри раздел "Статистические задания" позднее в данном документе.

Результаты организованы в виде иерархического списка на левой стороне основного окна Analyst. Щелчок по иконке в иерархическом списке открывает окно, соответствующее данному значению. При выполнении любой задачи программы Analyst формируется объект "печатный результат", а также объект, содержащий код, который привел к генерации результатов. Соответствующие объекты также создаются для каждого графика, запрошенного при проведении анализа.

Печать и сохранение результатов.

В окне результатов можно использовать правую кнопку мыши для того, чтобы вызвать список возможных для этого окна задач. Например, рисунок 11 показывает распечатку задания "простая линейная регрессия". Вместе с запросом на вызов окна "просмотреть перед печатью" (Print Preview), которая показывает, как будут выглядеть результаты после того, как они будут напечатаны. Вы также можете сохранить результаты, выбрав меню файл, пункт Сохранить как... или Сохранить как SAS файл.


Рисунок 11. Результаты простой линейной регрессии.


Вы также можете сохранить или распечатать графические результаты. Например, для того чтобы сохранить график в каталоге SAS, щелкните правой кнопкой мыши и выберите в появившемся меню пункт Файл и далее Сохранить как SAS файл (File-> Save as SAS File ....) как показано на рисунке 12. Окно сохранения показано на рисунке 13.


 


Рисунок 12. Сохранить график как файл SAS.


Рисунок 13. Окно сохранения результатов.


В окне сохранения результатов необходимо выбрать библиотеку, имя каталога для того, чтобы просмотреть, что находится в данном каталоге, выбрать существующий файл или создать новый, указав имя, и при желании описание сохраняемых результатов. На рисунке 13 указано имя SLRPLOT, который создает файл SLRPLOT.GRSEG в каталоге SASUSER. ANALYST.

Статистические задания.

Анализ выборки.

Для приведенного примера использованы данные, собранные в 1992 году в Соединенных Штатах по поводу рождаемости и смертности среди младенцев. Эти данные были опубликованы в статистическом сборнике Соединенных Штатов за 1995 год. Рождаемость и смертность приведены для каждого из 50 штатов США и федерального округа Колумбия. Штаты группируются по региону, а сами регионы делятся следующим образом:

Таблица 1.

Подразделения регионов США

Северо-восток

Средний Запад

Новая Англия

Центрально-антлантический

Центральный северо-восток

Центральный северо-запад

Мэн

Нью-Хэмпшир

Вермонт

Массачусетс

Род-Айленд

Коннектикут

Нью-Йорк

Нью-Джерси

Пенсильвания

Огайо

Индиана

Иллинойс

Мичиган

Висконсин

Миннесота

Айова

Миссури

Северная Дакота

Южная Дакота

Небраска

Канзас

Юг

Запад

Южно-антлантический

Юго-восточный центральный район

Юго-западный центральный район

Горные регионы

Тихоокеанский

Делавэр

Мэриленд

Федеральный округ Колумбия

Виржиния

Западная Виржиния

Северная Каролина

Южная Каролина

Джорджия

Флорида

Кентукки

Теннеси

Алабама

Миссисипи

Арканзас

Луизиана

Оклахома

Техас

Монтана

Айдахо

Вайоминг

Колорадо

Нью-Мехико

Аризона

Юта

Невада

Вашингтон

Орегон

Калифорния

Аляска

Гавайи

Анализ распределения данных.

Вы можете исследовать распределение Ваших данных при помощи Задачи распределения (Distributions). Щелкните по меню Статистика и выберите в этом меню раздел Описание, и далее пункт Распределения (Descriptive->Distributions....). Основное диалоговое окно задания анализа распределений позволяет Вам выбрать переменные, которые Вы бы хотели анализировать, и указать другие опции, связанные с анализом этих переменных. Вы можете сделать двойной щелчок по имени переменной, которую Вы хотите анализировать, а затем переместить ее в список переменных для анализа (Analysis), или выбрать их и щелкнуть по кнопке Analysis. На рисунке 14 были выбраны переменные BIRTH и DEATH.


Рисунок 14. Задача анализа распределений.


Вы можете убрать переменные из списка, предназначенного для анализа (Analysis), двойным щелчком по имени этой переменной, или выбором имени переменной и щелчком по кнопке Удалить (Remove). Вы можете указать различные опции, связанные с анализом переменных, нажимая на такие кнопки как Методы (Method), Графики (Plots), Подгонка (Fit), Сохранить данные (Save Data), Заголовки (Titles), Переменные (Variables). Используйте окно Методов (Method) для того, чтобы изменить то, как будут рассчитываться показатели дисперсии. Анализ распределений предлагает несколько типов графиков. Щелчок по кнопке Графики (Plots) вызывает окно, показанное на рисунке 15.


Рисунок 15. Окно графиков заданий анализа распределений.


На рисунке 15 показано, что были выбраны гистограмма и коробчатый график. Необходимо щелкнуть по кнопке ОК для того, чтобы вернуться в основное окно задания. Щелчок по кнопке Подгонка (Fit) позволяет запустить окно подгонки, которое Вы можете использовать для того, чтобы попытаться подогнать определенное параметрическое распределение к Вашим данным. Вы можете выбирать между такими распределениями как нормальное, логарифмически нормальное, экспотенциальное и распределение Вейбулла. Рисунок 16 показывает диалоговое окно с выбранным нормальным распределением.


Рисунок 16. Задание анализа распределений. Окно подгонки.


По умолчанию задание анализа распределений подгоняет под Ваши данные нормальное распределение. Вы можете ввести определенные данные самостоятельно, щелкнув по стрелочке, направленной вниз и выбрав в появившемся меню пункт - Ввести значения (Enter Values). Для других распределений Вы можете подогнать распределения с различными параметрами, рассчитанными при помощи метода максимального правдоподобия (MLE) или Вы можете ввести определенные данные для параметров каждого распределения. Щелчок по кнопке ОК возвращает в окно анализа распределений. Вы можете продолжить указания дополнительных параметров анализа в других окнах. Окно сохранения данных позволяет Вам сохранить результаты в другом наборе данных SAS, а окно подзаголовков позволяет Вам указать заголовок, который будет появляться в распечатках. Окно переменных позволяет Вам указать переменную, которая будет использоваться в качестве весовой, частотную переменную, а также переменные для группировки.

В приложении Analyst имеется два типа подсказок. Вы можете вызвать подсказку для данного типа окна, щелкнув по кнопке Помощь (Help), Вы можете также получить контекстно-зависимую подсказку, если Вы щелкните по окну Подсказки в верхнем правом угле окна и когда курсор изменит свой внешний вид на вопросительный знак, щелкнув по объекту, расположенном в данном окне. На рисунке 17 показана подсказка для задания анализа распределений в нижнем левом углу и контекстная подсказка для кнопки Analysis.


Рисунок 17. Подсказка в задании распределений.


Обратите внимание на то, что если Вы щелкните по иконке подсказок, а затем щелкните на том участке окна, для которого не предусмотрена контекстная подсказка, появится подсказка, описывающая содержание всего окна. Вы можете получить общую подсказку по поводу приложения Analyst, щелкнув по иконке подсказок на панели инструментов Analyst, или при помощи выбора пункта Подсказка (Window Help) для окон в меню подсказок самой программы Analyst.

После того как Вы ввели все необходимые параметры, можно нажать на кнопку ОК в окне задач и анализ будет выполнен. Результаты представлены графически в виде иерархического списка в основном окне программы Analyst, как показано на рисунке 18.


Рисунок 18. Организация результатов анализа распределения.


Одиночный щелчок по любой из семи иконок вызовет отдельное окно с соответствующими результатами. Результаты Moments and Quantiles of BTHDTH92 предоставляют суммарную информацию по каждой из переменных. Рисунок 19 показывает другие результаты, помеченные как подгонка распределения под BTHDT92, которые суммируют насколько хорошо каждая из анализируемых переменных соответствует нормальному распределению.


Рисунок 19. Результаты подгонки распределения.


Были созданы четыре окна графических результатов. Коробчатый график и гистограмма создаются для каждой из переменных, как и было специфицировано в окне графиков (смотри рисунок 15). Например, щелчок по объекту гистограмма для переменной рождения (Histogram for BIRTH) приводит к появлению гистограммы переменной BIRTH в новом окне, как показано на рисунке 20. В этом окне Вы можете отредактировать эту гистограмму или сохранить ее.


Рисунок 20. Создание анализа распределений гистограммы переменной BIRTH.


Нанесенная на гистограмму нормальная кривая на рисунке 20 является результатом запроса подгонки нормального распределения в окне подгонки. Статистические детали подгонки находятся в распечатке, которая названа Fitted Distributions of BTHDT92, которая также включает и детали подгонки распределения для переменной DEATH. Коробчатый график переменной BIRTH вызывается после щелчка по объекту Box plot of BIRTH. Один единственный щелчок по папке, которая помечена Distributions приводит к тому, что она закрывается и все иконки результатов скрываются и все, связанные с ними окна, также закрываются. Второй щелчок по этой папке заново ее раскрывает.

t-тест для одной выборки.

Analyst предоставляет доступ к нескольким методам тестирования статистических гипотез. Для того, чтобы выполнить t-тест для одной выборки необходимо выбрать меню статистика раздел тестирование гипотез и далее раздел t-тест одной выбоки для среднего (Statistics->Hypothesis Tests->One-Sample t-Test for a Mean .....), как показано на рисунке 21.


Рисунок 21. t-тест для средней одной выборки.


Для того, чтобы протестировать нулевую гипотезу о том, что популяционная средняя равняется 8 против альтернативной гипотезы, что популяционная средняя не равняется 8, где популяционная средняя - это смертность новорожденных в США, необходимо выбрать переменную DEATH и щелкнуть по кнопке переменные. Затем ввести 8 в окошке Нулевая гипотеза: средняя (Null:Mean), как показано на рисунке 22.


Рисунок 22. Окно заданий t-теста одной выборки.


Кнопки: Тесты, Графики, Заголовки и Переменные (Tests, Plots, Titels, Variables) внизу основного окна задания предоставляют доступ к различным опциям, которые можно использовать вместе с тестом. Необходимо щелкнуть по кнопке Тесты (Tests) для того, чтобы вызвать окно, в котором Вы можете запросить доверительный интервал и ретроспективный анализ мощности исследования. Щелчок по кнопке Plots запрашивает один или более следующих типов графиков: коробчатый график, столбиковая диаграмма и график t-распределения. График t-распределения - это график плотности вероятности t-критерия с заштрихованным регионом, который можно отвергнуть, отмеченный t-статистикой. Окно заголовки работает как уже было описано ранее и Вы также можете указать анализ по подгруппам, если Вы укажите переменную BY в окне переменных. Окно тестов показано на рисунке 23.


Рисунок 23. t-тест для одной выборки: окно выбора тестов.


Вы можете указать хотите ли Вы использовать односторонний или двухсторонний интервал для средней. Выберите интервал для того, чтобы указать, что Вы хотите двухсторонний интервал или выберите только нижнюю границу или только верхнюю границу для того, чтобы указать, что Вы хотите рассчитывать односторонний интервал. По умолчанию уровень доверительной вероятности составляет 95%. Щелкните по стрелке, направленной вниз для того, чтобы выбрать другие часто встречающиеся уровни доверительной вероятности или же введите желаемый уровень доверительной вероятности напрямую в данное окошко. Рисунок 23 показывает выбор 95% двухстороннего доверительного интервала среднего. Обратите внимание, пожалуйста, что на закладке Анализ мощности исследования (Power Analysis) Вы можете заказать ретроспективный анализ мощности данного исследования.

Щелчок по кнопке ОК сохраняет выбранные нами настройки и возвращает в основное окно задачи и после того, как мы заказываем t-распределение в окне графиков, нажатие на ОК в окне основного задания приводит к выполнению анализа.

Автоматически появляется окно Analyst как показано на рисунке 24. В нем уже имеется t-статистика, р-оценка данного теста и запрошенный 95% доверительный интервал среднего.


Рисунок 24. Результаты работы t-теста для одной выборки.


Окно графика t-распределения для переменной DEATH, показанной на рисунке 25, графически подтверждает результаты теста, показанные в окне анализа на рисунке 24. Данный график показывает критический регионы теста для уровня значимости a = 0,05 и 2,5% области на функции t-распределения заштрихованы слева и справа. Поскольку наблюдаемое значение t =2,102 заштриховано в критическом регионе, нулевая гипотеза о том, что m=8 отбрасывается на уровне значимости 0,05.


Рисунок 25. t-тест для одной выборки. График t-распределения.


Анализ двух выборок.

Analyst предоставляет несколько возможностей для анализа данных в двух выборках. Вы можете выполнить тест равенства средних, пропорций и дисперсии. Вы можете рассчитать размер выборки или выполнить анализ мощности, связанный с тестированием равенства средних двух выборок. Данные для этого примера взяты из гипопотетического примера поисковой системы во всемирной паутине.

Частоты.

Всемирная паутина предоставляет громадный объем информации, которая доступна по одному щелчку мыши. В интернете находится настолько много информации, что найти именно то, что Вам необходимо может оказаться весьма сложным делом. Несколько групп разработчиков программного обеспечения разработали программы, которые позволяют совершать поиск в интернете и они создают список Web-страниц, которые соответствуют определенному набору критериев, которые были указаны пользователем. Если поиск работает достаточно хорошо, то страница, которая может Вас заинтересовать, может находиться вначале этого списка. В данном примере один из подобных разработчиков написал новую программу с новым алгоритмом поиска. Разработчик считает, что новый алгоритм является более эффективным, и он располагает желаемую страницу значительно чаще на вершине списка потенциально интересных страниц. В терминах частот разработчик предполагает, что рnew >, чем рold, где рold - это пропорция поисковых листов, которые были возвращены старым алгоритмам, где страница, которую хотел бы пользователь, находилась наверху этого списка, а рnew - это та же самая пропорция поисковых списков, которая была создана новым алгоритмом.

Набор данных состоит из двух выборок, каждая имеет по одному наблюдению: да или нет. Ответ да указывает, что алгоритм вернул желаемую страницу на вершину списка потенциальных страниц для данного поиска, а нет - указывает на то, что в данном случае этого не произошло. Данные были собраны для 535 различных поисковых слов с использованием старого алгоритма и 409 поисковых слов с использованием нового алгоритма. Данные для новых и старых алгоритмов даны в переменных OLDFIND и NEWFIND, соответственно, как показано на рисунке 26.


Рисунок 26. Таблица данных файла SEARCH.


Вначале Вы могли бы захотеть посмотреть на частотное распределение успешных и неуспешных поисков для каждого алгоритма. В меню Статистика выберите раздел Описательные частоты (Descriptive ->Frequency Counts.....)

Выберите обе переменных и щелкните по кнопке Frequency, как показано на рисунке 27. Опции, связанные с анализом частотных таблиц, представлены в виде кнопок внизу страницы данного анализа. Окно Ввода (Input) позволяет Вам указать как сортировать переменные для данного анализа. Окно Графиков (Plots) позволяет Вам запросить горизонтальные и вертикальные столбиковые диаграммы для частотных величин. Окно Таблиц (Tables) позволяет Вам указать, хотите ли Вы чтобы были указаны не только частоты, но и проценты и кумулятивные частоты. Для того, чтобы указать заголовок для результатов, необходимо произвести щелчок по кнопке Заголовки (Titles). Кнопка Переменные (Variables) приводит к вызову окна, который позволяет Вам указать те переменные, по которым необходимо разделить наши данные на подгруппы или указать переменную, содержащую частоты для каждого наблюдения, что позволяет каждому наблюдению в исходном наборе данных представлять более чем одного обследованного.


Рисунок 27. Задача создания частотных таблиц.


Таблица частот результатов анализа файла SEARCH показана на рисунке 18 и она состоит из частотной таблицы. С первого взгляда кажется, что новый алгоритм действительно работает лучше, чем старый, поскольку успешными были 86,3% поисков с использованием нового алгоритма, в то время как с использованием старого алгоритма успешными можно было признать только 80,9% поиска.


Рисунок 29. Задача анализа частотных таблиц. Одномерные таблицы частот.


Вопрос, однако, заключается в том, являются ли данные различия статистически значимыми? Для того, чтобы ответить на этот вопрос, Вам необходимо использовать тест для пропорций на двух выборках (Two-Sample Test for Proportions...), который находится в меню Тестирования гипотез (Hypothesis Tests) в меню Статистики (Statistics). Окно данного задания показано на рисунке 29.


Рисунок 29. Тест для пропорций из двух выборок.


Тест для пропорций в двух выборках.

В данном примере исходные данные находятся в двух переменных. Выберете переменную OLDFIND и щелкните по кнопке группа 1 (Group 1). Затем выберите переменную NEWFIND и щелкните по кнопке группа 2 (Group 2). Укажите третью альтернативную гипотезу, заключающуюся в том, что pold - pnew < 0. Вы также можете указать то значение переменной, сравнение по которой Вас интересует. Щелкните на стрелку, идущую книзу и выберите да, поскольку pold и pnew представляют собой пропорцию ответов - да. Вы также можете указать опции, которые связаны с данным тестом при помощи кнопок и соответсвующих окон Интервалы (Intervals), Графики (Plots), Заголовки (Titles) и Переменные (Variables). Окно интервалов позволяет Вам запросить доверительные интервалы. В окне графиков Вы можете запросить столбиковую диаграмму и график нормального распределения. Окна заголовков и переменных используются для того, чтобы указать заголовки в распечатках, а также совершить анализ по подгруппам. Щелчок по кнопке ОК в основном окне задания приводит в выполнению теста. Результаты анализа показаны на рисунке 30.


Рисунок 30. Тест для пропорций для двух выборок: результаты.


Приведена таблица частот для "да" и "нет" для каждой переменной, а также пропорция для ответов "да" в каждой переменной. Приведенные Z-статистики, р-оценки и значения р-оценки, составляющие 0,0142 предполагают, что пропорция положительных ответов по новому поисковому алгоритму значительно больше, чем пропорция положительных ответов по старому поисковому алгоритму.

Анализ парных выборок.

Данные по рождаемости и смертности, используемые в предыдущем примере, рассматриваются как парные данные, поскольку значения переменных BIRTH и DEATH соответствуют в каждом случае одному и тому же штату. Штаты в системе обозначены двухбуквенными почтовыми сокращениями в колонке STATE. Analyst предоставляет парный t-тест, который может использоваться с целью сравнения средних двух выборок. Для того, чтобы им воспользоваться необходимо в меню Статистика (Statistics) выбрать пункты Тестирования гипотез парный t-тест для средних двух выборок (Hypotesis Tests ->Two -Sample Paired t-test for Means....).

Парный t-тест.

Для того, чтобы выполнить тест гипотезы о том, что разность средних в двух группах равняется нулю (m1 - m2 = 0) по сравнению с альтернативной гипотезой (m1 - m2 не равняется 0), где m1 - это среднее данных по рождаемости, а m2 - среднее данных по смертности. Нам необходимо указать, что переменная BIRTH принадлежит группе 1, а переменная DEATH принадлежит группе 2 и выбрать в качестве альтернативной гипотезы строку, где написано Mean (Group 1 - Group 2 ) не равняется 0, как показано на рисунке 31. Обратите внимание, что 0 значение - это значение по умолчанию для теста и это означает, что тестируемая нулевая гипотеза предполагает, что тестируемые средние равны.


Рисунок 31. Окно задания парного t- теста.


В окне Тесты (Tests) Вы можете запросить ретроспективный анализ мощности исследования, а также доверительный интервал для различий между групповыми средними. Используя окно Графиков (Plots), показанное на рисунке 32, можно запросить до четырех типов различных графиков. Окна Заголовки (Titles) и Переменные (Variables) используются для того, чтобы указать подзаголовки и переменные, указывающие на подгруппы, которые нужно анализировать по отдельности.


Рисунок 32. Парный t-тест. Окно графиков.


Вы можете выбрать коробчатый график, столбиковую диаграмму, график средних со стандартными ошибками или график t-распрелеления. На рисунке 32 указано, что мы заказали коробчатый график, столбиковую диаграмму, а также график среднего и стандартной ошибки среднего.

В окне Analyst, показанном на рисунке 33, представлены средние и стандартные отклонения и стандартные ошибки для средних обоих переменных, а также наблюдаемая t-статистика, количество степеней свободы и р-оценка теста. Р-оценка указывает на то, что имеются четкие свидетельства о том, что средние двух переменных отличаются друг от друга.


Рисунок 33. Результаты парного t-теста.



Рисунок 34. Парный t-тест: столбиковая диаграмма.


Столбиковая диаграмма на рисунке 34 показывает средние двух переменных. График средних и стандартных ошибок, показанный на рисунке 35, также позволяет сравнить две переменные. Вертикальная линия обозначает указанное количество стандартных отклонений (или стандартных ошибок среднего) выше и ниже средних из каждой переменной.

В данном случае линия простирается на два стандартных отклонения выше и ниже среднего, как показано на рисунке 35. Средние соединены линией, как было указано на рисунке 32. Вы можете заказать, чтобы для всех расчетов использовалась суммарная дисперсия, в противном случае стандартное отклонение рассчитывается по отдельности для каждой переменной. Кроме того, Вы можете запросить, чтобы вертикальная ось начиналась в нулевой точке.


Рисунок 35. Парный t-тест. График средних и стандартных ошибок.



Рисунок 36. Парный t-тест. Коробчатые графики.


Коробчатые графики переменных BIRTH и DEATH, показанные на рисунке 36, располагают индивидуальные коробчатые графики одной и другой переменной рядом друг с другом на одной и той же вертикальной оси. В коробчатом графике нижняя и верхняя часть коробок является границами первого и третьего квартилей, медиана идентифицируется линией, а среднее значение рисуется определенным символом. Усы проводятся от краев коробки к самому дальнему наблюдению, которое находится внутри интервала, в 1,5 раза превышающее межквартильные расстояния. Наблюдения за пределами "усов" индивидуально маркируются.

Анализ нескольких выборок.

Анализ нескольких выборок аналогичен анализу двух выборок, за исключением того, что вместо двух сравниваются k-независимые выборки.

Вы можете использовать дисперсионный анализ (One-Way Analysis of Variance (ANOVA)) для того, чтобы сравнивать средние k групп. В рамках этого анализа выполняется тестирование нулевой гипотезы о том, что все средние, во всех k группах, являются равными и альтернативная гипотеза о том, что не все средние равны.

Однофакторный дисперсионный анализ.

При изучении данных по рождаемости и смертности, которые использовались в предыдущем примере, мы можем, например, заинтересоваться сравнением рождаемости в четырех регионах. Для этого необходимо в меню Дисперсионный анализ (ANOVA) выбрать пункт One-Way ANOVA (однофакторный дисперсионный анализ): ANOVA->One-Way ANOVA..... Дисперсионный анализ расположен в меню Статистики (Statistics). В результате будет вызвано окно дисперсионного анализа, показанное на рисунке 37.


Рисунок 37. Окно заданий однофакторного дисперсионного анализа.


Выберите рождаемость ( BIRTН), как зависимую переменную и регион (REGION), как независимую переменную аналогично тому, как показано на рисунке 37. Тестирование гипотезы выполняется с целью выяснить, что средние всех k-выборок равны. При этом не анализируется, какие средние значимо отличаются друг от друга. Вы можете заказать методы сравнения, нажав на кнопку Means, что вызовет окно, показанное на рисунке 38 и тогда станет возможным сгенерировать более детальную информацию о различиях между средними.


Рисунок 38 Задание однофакторного дисперсионного анализа: окно средних


Щелкните по стрелке, направленной вниз в окошечке методы сравнения (Comparison Metod) для того, чтобы выбрать метод, который будет использоваться для сравнения средних. Затем выберите в окошечке Основные эффекты (Main Effects) переменную Регион (REGION) и щелкните по кнопке Добавить (Add). В табличке Разделение по ....(Breakdown) Вы можете запросить суммарную статистику для каждого уровня качественной переменной (классифицирующей переменной). Щелкните на кнопку ОК для того, чтобы вернуться в основное окно задания. Вы можете использовать другие кнопки внизу окна дисперсионного анализа для того, чтобы еще больше подстроить свой анализ. Можно использовать окно Тестов (Tests) для того, чтобы указать несколько других методов тестирования гипотезы и запросить анализ мощности исследования в окне Графиков (Plots); можно заказать любой из трех типов графиков и можно также воспользоваться окнами Заголовков (Titles) и Переменных (Variables) для того, чтобы указать заголовки для результатов, а также переменные, по которым необходимо проводить раздельный анализ.


Рисунок 39. Результаты однофакторного дисперсионного анализа.


Результаты на рисунке 39 представлены в виде таблицы дисперсионного анализа. Р-оценка равная 0,0012 (что соответствует f-статистике равной 6,26) указывает на то, что справедливость нулевой гипотезы крайне мало вероятна. Иными словами, рождаемость во всех четырех регионах не является одинаковой. Для того, чтобы посмотреть какая пара рождаемостей значимо отличаются друг от друга, посмотрите на результаты теста множественного сравнения, которые показаны в том же самом окне под таблицей дисперсионного анализа и приведены на рисунке 40.


Рисунок 40. Результаты множественного сравнения в рамках дисперсионного анализа.


Результаты, представленные на рисунке 40, указывают, что имеются две пары средних, которые отличаются друг от друга на уровне 0,05. Рождаемость в Западном регионе значимо отличается от таковой как на Среднем Западе, так и на Северо-востоке.

Анализ регрессионных данных.

Регрессионные данные возникают, когда у нас имеется одна зависимая переменная (переменная отклика) и она может быть представлена как функция одной или более количественных независимых (объясняющих) переменных. В линейном регрессионном анализе предполагается, что зависимая переменная является линейной функцией количественных независимых переменных.

Простая линейная регрессия.

При простой линейной регрессии имеется одна единственная независимая переменная. Иными словами зависимая переменная представляется в виде модели: y = bo + b1X, где X независимая переменная. Для примера: в наборе данных Домов (HOUSES) Вы можете захотеть определить, существуют ли линейные взаимоотношения между запрашиваемой ценой и площадью дома. Для этого необходимо в меню Статистика (Statistics) выбрать пункт Регрессия и далее подпункт Простая (Statistics->Regression->Simple....), тогда будет открыто окно, показанное на рисунке 41.


Рисунок 41. Окно задания простой линейной регрессии.


Выберите переменную Цена (PRICE) и щелкните по кнопке Зависимая (Dependent). Затем выберите переменную Площадь (SQFEET) и щелкните по кнопке Независимая (Independent). Затем в окошке моделей выберите Линейные (Linear). Модель для данного анализа будет представлена следующим образом: PRICE =bo + b1 * (SQFEET). Если Вы выберите модель квадратную (Quadratic) или кубическую (Cubic), тогда модель будет выглядеть следующим образом: PRICE = bo + b1SQFEET +b2 SQFEET2 или PRICE = bo + b1SQFEET +b2 SQFEET2 +b3SQFEET3, соответственно. Щелкните по кнопке графика для того, чтобы открыть окно, показанное на рисунке 42.


Рисунок 42. Окно графиков: задание простой линейной регрессии.


Для того, чтобы построить график данных выберите пункт - график наблюдаемых величин, против независимой переменной (Plot Observed vs Independent). Вы можете добавить 95% доверительный интервал для среднего независимой переменной, выбрав пункт Доверительные интервалы (Confidence limits), или Вы можете создать 95% границы предсказания для индивидуальных значений. Вы также можете использовать закладки Остатки (Residual) и Влияние (Influence) для того, чтобы запросить дополнительные графики. Щелкните по кнопке ОК для того, чтобы вернуться в основное окно заданий. Вы можете использовать другие графики внизу окна для того, чтобы еще точнее настроить Ваш анализ. В окне Тестов (Tests) Вы можете запросить анализ мощности исследования. Можно также использовать окно Статистики (Statistics) для того, чтобы запросить ковариантную матрицу и корреляционную матрицу. В окне Предсказание (Predictions) Вы можете заказать, чтобы были рассчитаны предсказанные по регрессионному уравнению данные, как для оригинальных результатов, так и для другого набора данных, а затем Вы можете либо просмотреть их, либо сохранить в новом наборе данных SAS. Кроме того, Вы можете использовать окно Сохранения данных (Save Data) для того, чтобы создать файл данных с результатами, а также окно Заголовков (Titles) для того, чтобы создать заголовки для распечатки. В окне Переменных (Variables) Вы можете заказать переменные по которым необходимо проводить отдельный анализ. Щелчок по кнопке ОК приведет к тому, что будет выполнен сам анализ. Результаты анализа показаны на рисунке 43.


Рисунок 43. Результаты простого регрессионного анализа.


Результаты представлены таблицей дисперсионного анализа, за которой следует информация об оценках регрессионных параметров. С использованием метода наименьших квадратов была получена формула PRICE = - 14982 + 67,52 * SQFEET. Малое p-значение, которое обозначено подзаголовком Prob >|T| указывает, что оба параметра значимо отличаются от нулевых значений. График наблюдаемых и независимых переменных показан на рисунке 44. Этот график включает в себя также и регрессионную кривую.


Рисунок 44. График рассеяния с нанесенной на него регрессионной кривой.


Размеры выборки и анализ мощности исследования.

t-тест для одной выборки.

Мощностью статистического теста называют вероятность отбросить нулевую гипотезу в том случае, когда альтернативная гипотеза является справедливой. Меню Размер выборки (SampleSize) предоставляет возможность расчета размера выборки и мощности нескольких типов анализов, включая t-тест для одной выборки. Выберите One Sample t- Test.... в меню SampleSize для того, чтобы вызвать окно, показанное на рисунке 45.


Рисунок 45. Анализ мощности для t-теста в случае одной выборки.


Используйте это окно для того, чтобы определить либо мощность теста для данного размера выборки, либо размер выборки, который требуется для того, чтобы получить определенную мощность исследования. В окошке, помеченном Рассчитать (Calculate), выберите что необходимо рассчитывать - мощность или размеры выборки. Вы должны указать среднюю для нулевой гипотезы, среднюю для альтернативной гипотезы и стандартное отклонение для выборки. Вы также должны указать уровень значимости (по умолчанию он принимается 0,05). В каждом из этих полей Вы можете указать несколько значений, расчеты затем будут выполнены для всех комбинаций данных значений. Если Вы рассчитываете мощность, Вы должны указать размеры выборки в окошечке, которое помечено Из (From). Вы можете также указать несколько размеров выборки, введя несколько значений в ячейки, помеченные До и Интервал (TO и BY). Если Вы рассчитываете размер выборки, Вы можете также указать значения, или последовательность значений для мощности.

На рисунке 45 значения соответствуют тем значениям, которые использовались в t-тесте одной выборки в предыдущем разделе (когда анализировалась переменная Смертность (DEATH)). Средняя альтернативная гипотеза и стандартное отклонение равны выборочному среднему и стандартному отклонению для переменной DEATH. Заказан также график мощности в зависимости от размеров выборки и при этом референтная линия должна быть проведена для значения n = 51 (это размер выборки с которой мы работали).

Результаты на рисунке 46 показывают мощность для размеров выборки от 11 до 211 ( n =11 и n = 211) наблюдений. Мощность дана для размера выборки 51 (0,540) и она является тем же самым значением, которое было бы дано, если бы Вы выполнили t-тест, как описано в предыдущем разделе, а затем бы запросили ретроспективный анализ мощности, который доступен в окне Тесты (Tests) t-теста одной выборки (One-Sample t Test).


Рисунок 46. Анализ мощности для t-теста с одной выборкой.


Интерпретация мощности в 0,540 для n =51, выглядит следующим образом: предположим, что истинная средняя и стандартное отклонение переменной составляют 8,6137 и 2,0851 и предположим, что берется случайная выборки из 51 человека. Тогда вероятность того, что тестирование адекватно придет к выводу, что альтернативная гипотеза является справедливой 0,540.


Рисунок 47. График мощности против размера выборки.


Заказанный нами график показан на рисунке 47 и там же нанесена референтная линия, соответствующая n =51. Если Вы укажите множественные значения в поле Спецификации теста (Test Specifications), множественные графики мощности исследования могут быть нарисованы на одном графике, или будут созданы несколько графиков.

Доверительный интервал для парного t-теста.

Вы можете использовать окно задания парного доверительного интервала для того, чтобы определить либо мощность для доверительного интервала, либо определенную точность и размеры выборки; или размеры выборки, требующейся для определенной точности и мощности.

Для того, чтобы понять что такое мощность доверительного интервала, во-первых давайте определим точность доверительного интервала ( половина длины двухстороннего доверительного интервала, или расстояние между конечной точкой и оценкой параметра при одностороннем интервале). Мощность затем может рассматриваться как вероятность, что будет достигнута желаемая точность. Иными словами это вероятность того, что длина двухстороннего интервала не будет в два раза больше, чем желаемая точность. В данном случае используется небольшая модификация данной концепции. Мощность рассматривается как условная вероятность того, что будет достигнута желаемая точность, учитывая то, что интервал включает истинное значение интересующего нас параметра. Причиной для этой модификации является то, что у нас нет причин для того, чтобы делать интервал особенно небольшим, если он не содержит истинного значения интересующего нас параметра.


Рисунок 48. Мощность доверительного интервала при парном t-тесте.


Выберите в меню Размер выборки пункт Парный доверительный интервал (SampleSize->Paired Confidence Interval.....) для того, чтобы вызвать окно, показанное на рисунке 48. В окошечке, помеченном Расчет (Calculate) выберите мощность, или размер выборки. Затем указывайте желаемую точность и стандартное отклонение для различий. Используемый по умолчанию уровень значимости составляет 0,05, что соответствует 95% доверительному интервалу. Для каждого из этих полей можно указывать много расчетов, расчеты выполняются для всех комбинаций указанных значений. Стандартное отклонение равное 2,462 соответствует стандартному отклонению различий между переменными BIRTH и DEATH.


Рисунок 49. Анализ мощности для доверительного интервала парного t-теста.


Результаты анализа мощности (Power Analysis), показанные на рисунке 49, демонстрируют, что двухсторонний парный t-тест где стандартное отклонение составляет 2,462, а уровень значимости 0,025, при размерах выборки 121, дает мощность 0,415. Иными словами, 0,415 представляет собой вероятность того, что интервал, содержащий истинный параметр, будет иметь длину не более, чем в два раза превышающую желаемую точность. Рисунок 50 показывает кривые мощности для каждого указанного значения в тесте значимости.


Рисунок 50. График мощности против размеров выборки.


Тест равенства в двух выборках.

В тесте равенства сравниваются средние, полученные при лечении и референтные средние. Допускаемые варианты модели могут быть либо моделью суммирования, либо моделью умножения. В модели суммирования мы фокусируемся на различиях между средним лечения и референтным средним, в то время как в модели умножения мы фокусируемся на отношении среднего в группе воздействия к референтному среднему. В любом случае эквивалентность считается альтернативной гипотезой, а нулевой гипотезой является отсутствие подобного равенства.

В модели суммирования нулевая гипотеза заключается в том, что различие между средним лечения и референтным средним не равны нулю. Иными словами различия меньше, чем нижняя граница эквивалентности, или больше, чем верхняя граница эквивалентности. Альтернативой является то, что различия находятся внутри этих границ эквивалентности. В модели с умножением нулевой гипотезой является то, что отношение средней в группе воздействия к референтному среднему не равно единице (иными словами это отношение ниже нижней границы эквивалентности, или выше верхней границы эквивалентности). Альтернативной гипотезой является то, что само отношение находится между границами эквивалентности.

Мощность теста - это вероятность отвергнуть нулевую гипотезу тогда, когда альтернативная гипотеза является истинной. Поэтому в данном случае под мощностью понимается вероятность принятия гипотезы эквивалентности тогда, когда воздействие на самом деле эквивалентно.


Рисунок 51. Тест эквивалентности в двух выборках.


Выберите Размер выборки, Эквивалентость в двух выборках (SampleSize->Two-Sample Equivalence ....) для того, чтобы вызвать окно соответствующей задачи. На рисунке 51 выбрана суммационная (аддитивная) модель. Коэффициент вариации равен единице и мы запросили, что нулевые различия 0,5, 1,0 и 1,5. Уровень значимости 0,05 и мощность должны быть расчитаны для размеров выборки от 2 до 100. Нижняя и верхняя границы эквивалентности составляют - 2 и + 2, соответственно, и мы запрашиваем график мощности против размера выборки. График показан на рисунке 52.


Рисунок 52. Эквивалентность в двух выборках: график мощности против размера выборки.


Приложения.

Приложение 1: Как самостоятельно наладить панель инструментов.

Панель инструментов программы Analyst - это один из механизмов, при помощи которого Вы можете получать доступ к различным задачам. Эта панель инструментов может быть адаптирована и содержать только те задачи, которые Вы используете наиболее часто. Выберите в меню Опции (Options) пункт Инструменты редактирования (Tool Edit). Появится окно редактора инструментов Tool Edit, показывая задачи, которые в настоящий момент находятся на панели инструментов.


Рисунок 53. Редактор задач.


В редакторе задач Вы можете делать следующее:

·        добавить задачи в панель инструментов;

·        удалить задачу из панели инструментов;

·        изменить расположение символа задачи на панели инструментов;

·        изменить всплывающую подсказку, которая связана с данным инструментом;

·        изменить значок (иконку), который ассоциирован с задачей на панели инструментов.

Более детальное объяснение того, как работать с редактором задач можно найти в хелпере системы SAS.

Когда мы добавляем задачу к панели инструментов, нам необходимо знать команду программы Analyst, которая бы вызывала эту задачу.

Далее идет список команд, связанных с каждой задачей в программе Analyst.

Таблица 2.

Задача

Команда

Описательный

 

Суммарная строка

SUMMARY

Распределение

DISTRIB

Корреляции

CORR

Частотные таблицы

  COUNTS

Анализ таблиц

  TABLANAL

Тестирование гипотез

 

Z-тест для средних одной выборки

  HTIZ

t-тест для средних одной выборки

  HTIT

Тест для пропорций из одной выборки

HTIP

Тест дисперсии одной выборки

  HTIV

t-тест для средних двух выборок

HT2T

Парный t-тест для средних двух выборок

HT2PT

Тест для пропорций в двух выборках

HT2P

Тест для сравнения дисперсии двух выборок

HT2V

Дисперсионный анализ

 

Однофакторный дисперсионный анализ

  ONEANOVA

Фактериальный дисперсионный анализ

FACANOVA

Линейные модели

LINMOD

Регрессия

 

Простая

SIMPREGR

Линейная

LINREGR

Логистическая

LOGREGR

Индекс

INDEX

Таблица 3. Графические команды.

Задача

Команда

Гистограмма

HIST

Коробчатый график

BOX

График нормальной вероятности

NORMPLOT

Граффик рассеяния

SCATTER

Контурный график

  CONTOUR

График поверхности

  SURFACE

Настройки

GRSETTINGS

Таблица 4. Команды определения размеров выборки и анализа мощности исследования.

Задача

  Команда

t-тест для одной выборки

SSMEANIT

Доверительный интервал для одной выборки

SSPMEAN1CI

Эквивалентность в одной выборке

SSPMEAN1E

Парный t-тест

SSPMEANPT

Парный доверительный интервал

SSPMEANPCI

Парная эквивалентность

SSPMEANPE

t-тест для двух выборок

SSPMEAN2T

Доверительный интервал на двух выборках

SSPMEAN2CI

Эквивалентность двух выборок

SSPMEAN2E

Однофакторный дисперсионный анализ

SSPMEAN1A

Таблица 5. Команды манипуляции данными.

Задача

Команда

Случайная выборка

RANDSAMP

Транспонирование

TRANSPOSE

Таблица 6. Команды файлов.

Задача

Команда

Новый

NEW

Открыть

OPEN_HOST

Открыть по имени

SAS OPEN_SAS

Импорт

IMPORT

Получить доступ к заранее подготовленным программам

QUERY_LIST

Запрос

QUERY_WINDOW

Сохранить

SAVE

Сохранить Как

SAVEAS_HOST

Сохранить Как по имени

SAS SAVEAS_SAS

Экспорт

EXPORT

Распечатать

PRINT

Настройка принтера

PRTSETUR

Таблица 7. Команды редактирования.

Задача

Команда

Опции

SAS OPTIONS

Предпочтения

PREFS

Заголовки

STITLES

Добавление заданий корреляций к панели инструментов Analyst.

Выберите в меню Опции (Options) пункт Инструменты редактирования (Tool Editor), появится окно Инструментов редактирования, которое покажет задачу, находящуюся в настоящий момент в панели инструментов. Для того, чтобы добавить задачу анализа корреляции, необходимо сделать следующее:

1. Выбрать первый пункт в списке инструментов.

2. Нажать на кнопку Добавить (Add) и выбрать пункт Инструмент (Tool) для того, чтобы добавить шаблон для новой задачи в списке задач.

3. В поле Команды (Command) ввести команду corr.

4. В поле Всплывающая подсказка (Tip Text) ввести слово Корреляции (Corrtlations), как показано на рисунке 54.


Рисунок 54. Редактор задач.


5. Щелкнуть по кнопке Посмотреть (Browse...) для того, чтобы вызвать окно Система просмотра картинок (Bitmap Browser). Выбрать иконку, которая связана с задачей Корреляция и нажать на кнопку ОК.


Рисунок 55. Окно просмотра иконок.


Изменить расположение Инструмента в списке задач можно пощелкав по кнопкам Передвинуть кверху (Move Up) и Передвинуть книзу (Move Dn) до тех пор, пока задача Корреляция не окажется между иконками для задач Распределения (Distributions) и Анализ таблиц (Table Analysis). Для того, чтобы сохранить измененную панель Инструмента необходимо щелкнуть по кнопке Сохранить (Save). Теперь на панели Инструментов появляется новая иконка для корреляции, как это показано на рисунке 56.


Рисунок 56. Измененная панель Инструментов.


Восстановление панели Инструментов.

Для того, чтобы восстановить панель Инструментов, используемую по умолчанию, выберите в меню Опция (Options) пункт Инструменты редактирования (Tool Editor). Появятся те задания, которые в настоящий момент представлены в панели Инструментов. Щелкните по кнопке По умолчанию (Defaults...) и Вас попросят подтвердить, что Вы хотите восстановить настройки По умолчанию. Щелкните по кнопке Сохранить (Save) для того, чтобы сохранить настройки По умолчанию.

Приложение 2.

Сохранение общих предпочтений и графических настроек.

Каталог SASUSER.ANALYST.

Каталог SASUSER.ANALYST содержит все настройки, которые Вы сохраняете при использовании программы ANALYST. Например, если Вы внесли изменения в окне Предпочтений ( для того, чтобы попасть в окно Предпочтений выберите Редактирование-> Предпочтений (Edit->Preferences), в каталоге SASUSER.ANALYST создается новая опция, которая и будет хранить те параметры, которые Вы выбрали.

Графические настройки поддерживаются таким же образом. Например, если Вы хотите чтобы значки на графике изображались квадратиками, а не звездочками (которые являются знаками по умолчанию) необходимо в меню Графики, подпункт Настройки (Graphs->Settings...) вызвать окно, показанное на рисунке 57. Затем необходимо щелкнуть по стрелке, направленной вниз, рядом с надписью Символ (Symbol) и выбрать Квадрат (SQUARE); затем щелчок по кнопке ОК позволяет выйти из данного окна и сохранить все настройки.


Рисунок 57. Окно графических настроек.


Теперь предположим, что в тот момент, когда Вы заказываете корреляционный анализ, Вы хотели бы создать график рассеяния и наложить на него доверительные эллипсы. Для этого выберите в меню Статистика пункт Описательная статистика и затем пункт Корреляция (Statistics->Descriptive->Correlations...) и щелкните по кнопке Графики (Plots). Появится окно Графиков (Plots), показанное на рисунке 58. Отметьте значки около Диаграмм рассеяния (Scatter plots) и добавьте Доверительные эллипсы (Add cоnfidence ellipses), как показано на рисунке, а затем нажмите кнопку ОК для того, чтобы вернуться в окно Заданий корреляций (Correlations).


Рисунок 58. Задания Корреляций: окно Графиков.

Щелчок по кнопке Сохранить опции, приводит к тому, что настройки сохраняются как настройки по умолчанию. Окно Сообщений (Message), показанное на рисунке 59, требует подтверждения того, что данные настройки будут сохранены. Щелкните по кнопке Сохранить (Save) для того, чтобы подтвердить сохранение этих настроек.


Рисунок 59. Подтверждение сохранения настроек.


Щелкните затем по кнопке ОК в окне Корреляции (Correlations) для того, чтобы выполнить анализ. Запрошенный график рассеяния показан на рисунке 60. Обратите внимание на то, что символы, использованные для создания данного графика, это квадратики, как и указано на рисунке 57.


Рисунок 60. График рассеяния с доверительным эллипсом.


Графические настройки и опции задания Корреляций сохранены в каталоге SASUSER.ANALYST. Для того, чтобы посмотреть какие элемены сохранены в этом каталоге, введите в командной линии команду dir sasuser. Это приведет к тому, что будет открыто окно, содержащее файлы, хранящиеся в библиотеке SASUSER, как показано на рисунке 61.


Рисунок 61. Библиотека SASUSER.

Рядом с пунктом каталог SASUSER.ANALYST напечатайте английскую букву S и нажмите на клавишу Enter для того, чтобы просмотреть содержимое каталога, как показано на рисунке 62.


Рисунок 62. Содержимое каталога SASUSER.ANALYST.


Элемент CORR.SLIST содержит те опции, которые были сохранены при модификации задания Корреляции. Элемент GRAEFPREF.SLIST сохраняет графические настройки, а VIEWPREF.SLIST сохраняет настройки для приложения ANALYST в целом. Если Вы сохраните опции в другом исследовании, настройки сохраняются в другом SLIST, соответствующему данному заданию. Если Вы хотите восстановить оригинальные, используемые по умолчанию, настройки для просмотра графики или заданий, удалите соответствующий элемент в каталоге SASUSER.ANALYST, введя букву D рядом с именем этого элемента.

Приложение 3. Другие Каталоги, Элементы и Наборы данных.

Каталог SASUSER._ANLnnnn.

Каталоги, которые имеют имена в форме SASUSER._ANLnnnn, где "nnnn" указывает номер, состоящий из четырех цифр, создаются ANALYST для того, чтобы сохранять результаты, которые Вы хотели бы сохранить, когда Вы закончите работу с ANALYST. Когда Вы выходите из ANALYST, что Вы можете сделать это, выбрав в пункте Файл (File) меню Закончить (End) (File->End), появляется окно сообщений, показанное на рисунке 63, которое запрашивает у Вас, не хотите ли Вы сохранить Ваши результаты, а затем восстановить их, когда Вы в следующий раз запустите приложение ANALYST. Для того, чтобы сохранить эти результаты необходимо щелкнуть по кнопке Save.


Рисунок 63. Сохранение результатов работы с процедурой ANALYST.


Когда Вы запрашиваете сохранение результатов, ANALYST создает каталог с именем в форме SASUSER._ANLnnnn. Затем в окне LOG появляется сообщение, которе указывает имя этого каталога и его содержимое. Содержимое каталога SASUSER._ANL8270 показано на рисунке 64. В каталоге имеется элемент в форме TREEnnnnSLIST, который создается для того, чтобы включить в себя иерархический график сохраненных результатов. Другие элементы в каталоге SASUSER._ANL8270 хранят результаты корреляционного анализа. Элементы, которые имеют тип GRSEG, OUTPUT и SOURCE соответствуют графическим изображениям, распечаткам, а также коду, который был использован для того, чтобы выполнять анализ. Не рекомендуется удалять какие-либо элементы из данного каталога. Например, если Вы удалите элемент ENT_ 7644GRSEG график рассеяния и доверительные эллипсы, сохраненные в этом элементе, больше не будут доступны, когда Вы в следующий раз запустите ANALYST.


Рисунок 64. Каталог SASUSER._ANL8270.


В следующий раз, когда Вы запустите программу ANALYST, Вам будет показан сохраненный список иерархических результатов, как показано на рисунке 65.


Рисунок 65. Восстановленные результаты анализа.