Контроль знаний и навыков

С.Л.Плавинский.

6.1 Формы контроля знаний

Оценка качества обучения играет значимую роль в процессе образования, как для слушателей, так и для преподавателей и руководителей образовательных учреждений. Для преподавателей оценка дает данные, при помощи которых можно определить соответствие и качество учебных материалов, методов преподавания и достигло ли преподавание своей цели. Для слушателей контроль знаний, умений и навыков проясняет цели обучения, стимулирует само обучение, предлагая ясно видимые задачи, и помогает понять, в каких областях слушатель достиг большего, а в каких требуется дополнительная работа. С точки зрения руководства образовательных учреждений оценка важна для процесса планирования, выработки программ и помощи слушателям с выбором дальнейших направлений работы.

Общие принципы оценивания

Bloom и его соавторы, и последователи (Bloom et al., 1956, Krathwohl et al., 1964, Harrow, 1972) разделили цели обучения на три больших класса: когнитивные, эмоциональные и психомоторные.

Когнитивные цели могут быть разделены на шесть больших групп - запоминание, понимание, применение, анализ, синтез и оценивание. Причем сложность задач, которые может решить обучаемый, возрастает по мере того, как он движется от уровня простого запоминания фактического материала к способности оценивать фактическую обоснованность различных точек зрения. Более того, невозможно перейти на следующий уровень, не пройдя предыдущий. Таким образом, эти шесть групп когнитивных целей обучения составляют как бы лестницу к полному овладению теоретическими знаниями.

Класс эмоциональных целей обучения связан с четырьмя основными характеристиками - отношением, интересом, ценностью и системой представлений. Опять же эффективность овладения материалом увеличивается по мере того, как обучаемый продвигается от позитивного отношения к материалу к осознанию его важности и включению этого представления в свою систему ценностей.

Психомоторные цели обучения связаны с рефлексами, основными движениями, способностями к восприятию, физическими способностями, точными движениями и способностями к односторонней коммуникации (объяснение материала без диалога).

Хотя оценить все компоненты, перечисленные выше, вместе невозможно, необходимо, чтобы выбранная методика оценки анализировала тот класс целей обучения, которые предусмотрены программой. В то же время многие методы оценки позволяют оценить навыки и знания по нескольким классам задач. Более того, сами классы целей не являются независимыми друг от друга. Высокий или низкий уровень компетентности в одном из этих классов будет оказывать влияние на компетентность в другом. Например, без определенных знаний слушатель вряд ли сможет выполнить необходимые манипуляции, что, в свою очередь может повлиять на отношению к предмету. Отрицательное отношение к предмету, в свою очередь может приводить к более низкой усвояемости знаний и более медленному приобретению навыков. Поэтому методики оценки должны пытаться дать как можно более полную картину достижений обучаемого по всем классам образовательных целей.

Общие принципы оценки слушателей, выработанные Linn и Gronlund (1995) могут помочь преподавателю в выборе наиболее адекватного метода для оценки слушателей:

1. Метод оценки должен четко указывать, что именно (достижение каких целей обучения) оценивается у слушателя.

2. Методы должны отбираться на основании их соответствия целям обучения.

3. Всеобъемлющая оценка должна включать различные методы

4. Отбор методов должен производиться с учетом их ограничений, на основе надежности, валидности и эффективности.

5 . Оценка должна проводиться во имя какой-то цели, а не просто по тому, что так принято

6. Для тех областей, где слушатели могут показать недостаточные знания или навыки должны быть разработаны методы коррекции.

Кроме того, при разработке и применении любой системы оценки должны учитываться такие вопросы, как стоимость, время процедуры, необходимое оборудование и т.п. Отсутствие ресурсов может оказаться одним из основных барьеров на пути применения методик оценки. Поэтому учебные курсы должны всегда взвешивать стоимость и эффективность различных методов оценки. Вместе с тем основным вопросом, который должен решать судьбу данного метода оценки должно быть его образовательное соответствие: Совпадает ли то, что измеряет данный метод с содержанием и задачами курса?

6.2 Методы контроля знаний

В настоящий момент существует достаточно много различных методов оценки. Они могут быть разделены на шесть основных групп. Первая включает письменные работы - вопросы множественного выбора и сочинения. Вторая группа объединяет устные ответы в форме выступлений или неформального собеседования. Третья базируется на различных методах опроса и тестов. Четвертая представляет собой оценку разработанных слушателями продуктов - письменных работ (статей), обзоров статей, историй болезни, дипломных работ, портфелей заданий, графов концепции и т.д. Пятая связана с решением ситуационных задач - компьютерных или бумажных. Шестая группа объединяет методы наблюдения за выполнением слушателем различных действий и процедур - работа со стандартизированным пациентом, объективный структурированный клинический экзамен (ОСКЭ), оценка, выставляемая руководителем за реальную работу.

В табл. 1 Приведено, как различные методы оценки могут быть использованы для проверки достижения целей обучения по трем основным классам (по Blue, et al. 2000)

Табл.1 Методы оценки эффективности обучения

МЕ ТОД ОЦЕНКИ

Знания

Отношение

Навыки

Письменный экзамен

ВМВ

П

Сочинение

П

В

Устный экзамен

Выступление

П

В

П

Собеседование

В

В

В

Опросники

Письменные

В

П

Интервью

В

П

Электронные

В

П

Самостоятельная работа

Статьи/рефераты

П

В

Дневники

П

П

В

Обзоры статей

П

В

Графы концепций

П

Истории болезни

П

В

Дипломные работы

П

В

Портфели заданий

П

П

В

Ситуационные задачи

"Обычные"

П

П

Компьютерные имитаторы

П

П

Наблюдение

ОСКЭ

В

В

П

Оценка на рабочем месте

П

В

П

Стандартизованные пациенты

В

П

В

П - источник первичных данных для оценки, В - источник вторичных данных.

Данная таблица может служить ориентировочным инструментом при выборе метода оценки для данного курса или цикла. При этом необходимо обращать внимание, что в ряде случаев данные по достижению той или иной цели могут быть вторичными - иными словами метод не предназначен для оценки этой группы целей, но по косвенным признакам можно сделать некоторые выводы.

Письменные экзамены

Письменные экзамены уже давно являются одним из основных методов оценки знаний и качества обучения. Они могут быть разделены на две основных группы - задания по выбору правильного ответа (больше известные как вопросы множественного выбора, ВМВ) и задания с отсутствием фиксированных ответов (сочинения). Для ВМВ ответы предопределяются разработчиком теста, и оценка может проводиться как вручную, так и при помощи компьютерной техники. Само тестирование может проводиться на бумаге или на ЭВМ. Письменные экзамены позволяют за короткий период времени оценить широкий спектр когнитивных способностей, но их возможности по оценке отношения к предмету и психомоторных навыков ограничены. Эти типы экзаменов легко оцениваются, и такое оценивание может быть проверено на надежность. Более того, статистические методы помогают выделить недостаточно адекватные вопросы и пересмотреть их (подробнее см. ниже). Разработка ВМВ для оценки высших когнитивных способностей (синтез и оценивание) трудна, но не невозможна.

В последнее время все большую популярность приобретает компьютерное адаптивное тестирование (КАТ). Эта методика базируется на том, что, проанализировав ответы на один блок вопросов, специализированный алгоритм делает предположение об уровне знаний тестируемого и выбирает вопросы, которые могли бы уточнить это предположение. Таким образом, экзамен "подстраивается" под слушателя и полученная оценка значительно точнее той, которая получается при обычном тестировании. Время разработки и стоимость систем КАТ значительно выше, чем систем для обычного тестирования и поэтому они пока получил распространение лишь при лицензировании врачей в США.

Письменные экзамены без готовых ответов требуют самостоятельной переработки и интегрирования материала. Такие экзамены легче создавать, однако сложнее оценивать. Сочинения хороши для оценки высших когнитивных способностей или могут помочь оценить отношение слушателя к изучаемому материалу или предмету.

Многочисленные исследования показывают, что студенты готовятся к письменным экзаменам в форме сочинения более эффективно, чем к ВМВ, поэтому McKeachie (1999) рекомендует включать их в каждый экзамен по окончании курса. Кроме того, чтение ответов на письменные вопросы дает преподавателю значительно более полное представление о знаниях студентов, чем ВМВ.

Чтобы обеспечить объективность, преподаватель должен заранее разработать набор критериев, которые будут использоваться при оценке работы. Дело в том (McKeachie, 1999), что первые работы оцениваются иначе, чем работы, сданные в конце. Кроме того, на выставляемую оценку влияет качество работ, которые были просмотрены преподавателем перед данной. Существует ряд процедур, которые помогают улучшить оценивание этого типа письменных работ.

1. Необходимо заранее разработать ряд критериев - не просто список фактов, которые должны быть отражены в ответе на вопрос, а то, что преподаватель хотел бы обнаружить в работе. Должны ли там быть представлены суммарные данные, анализ проблемы, аргументация той или иной точки зрения?

2. Работу следует читать и оценивать, не зная имени автора.

3. Прежде чем выставлять оценки необходимо просмотреть все работы, для того чтобы иметь впечатление об общем уровне.

4. Преподавателю следует написать образцы (или отобрать из имеющихся) модельные работы, которые можно оценить на отлично, хорошо, удовлетворительно или неудовлетворительно. Заем ими можно пользоваться для того, чтобы использовать в качестве стандарта для сравнения.

5. После того, как модельные работы был написаны или отобраны, следует сравнить их. При этом могут быть найдены дополнительные критерии, которые должны быть внесены в общий список критериев оценки.

6. При прочтении работы следует писать комментарии к ней. В этом случае обучаемый будет понимать, почему ему была поставлена та или иная оценка. Комментарии должны носить специфический, а не общий характер.

7. Следует выработать код для наиболее часто встречающихся комментариев. Так, можно вертикальной линией отмечать особенно удачные абзацы или использовать "ТДИ" в качестве сокращения "требуется дополнительная информация".

8. Необходимо ставить одну общую оценку за всю работу.

9. По возможности, оценивать необходимо коллективно. Наиболее адекватная методика включает оценку работы двумя преподавателями, которые затем сравнивают результат и обсуждают причины расхождений. Для ускорения работы можно использовать следующую процедуру - несколько работ проверяется всеми преподавателями, оценки сравниваются и обсуждаются. Затем процедура повторяется на второй группе работ, если расхождений больше не наблюдается, то преподаватели начинают оценивать работы самостоятельно, если обнаруживаются - цикл повторяется.

Устный экзамен

Устные экзамены могут быть разделены на две группы - формальные (вступление) и неформальные (участие в дискуссии, собеседование). Устные ответы обычно позволяют оценить знания и навыки (если речь идет о коммуникативных навыках) и, в меньшей степени, отношение к предмету. Оценке устных выступлений должна предшествовать разработка критериев и протокола. Необходимо довести до сведения обучаемых эти критерии и стандарты. Во многом подготовка стандартов совпадает с тем, что было описано выше для письменных экзаменов, однако должна включать оценку коммуникативного компонента и образец отличного, хорошего и удовлетворительного выступления должен быть создан самим преподавателем.

Оценка неформальных выступлений и собеседований значительно сложнее. При этом собеседование с преподавателем может быть оценено значительно легче, если он подготовит себе список требований к слушателю и допустимых вопросов (в памяти почти каждого студента есть преподаватели, которые, увлекаясь наводящими вопросами, просто сами рассказывали тему и студенту оставалось только поддакивать и кивать головой).

Не следует, однако, забывать и про возможность оценки групповой работы. Поскольку, согласно Gardner, интеллектуальные способности, отвечающие за эффективную работу в группе, принципиально отличаются от вербально-лингвистичесого и математико-логического интеллекта тестируемого в обычных условиях, то оценка работы в группе представляет собой важный компонент обучения. Примером задания может быть групповое обсуждение научной статьи или сложного клинического случая. В такой ситуации рекомендуется вызывать слушателей на собеседование поодиночке, после того, как они обсудили заданную им задачу. При этом преподаватель сообщает студентам, что описательная часть ответа может быть одинаковой, но тот раздел, который предусматривает собственный интеллектуальный труд, должен отличаться. Реже можно использовать суммарную оценку для всей группы (если она используется на предварительном этапе) или попросить участников группы оценить по шкале от 0 до 100 вклад каждого члена в общую работу.

Опросники

Опросники могут использоваться для оценки отношения слушателей к изучаемой теме, материалу и дисциплине. Кроме того, интервью и опросы могут проводиться для того, чтобы выявить недостатки в знаниях или программе курса, на которые обратили внимание сами обучаемые. Существует большое количество методик, попадающих в эту категорию. В качестве примера можно назвать Ликертовские шкалы, семантический дифференциал, репертуарные решетки, формы оценки и т.д. Чаще всего заполнение опросников производится самостоятельно, в форме печатных бланков, либо в ходе интервью. В последнее время опросники стали применяться и через Интернет.

Ключевым вопросом успеха опросного исследования является написание вопросов, которые бы покрывали область интереса, были бы недвусмысленными и минимизировали возможность неправильного понимания. Всегда необходимо предварительное тестирование разработанного опросника для того, чтобы избежать неадекватной интерпретации вопросов тестируемыми. Разработка шкал для оценки результатов опросника является достаточно серьезным упражнением в области психометрии и требует знаний соответствующих методик (например, факторного анализа или многомерного шкалирования).

Данная группа методик лучше всего применима для оценки успеха всего курса, но может быть применена для оценки отношения к предмету в рамках формирования глобальной оценки за курс. В этом случае вопросы, оценивающие отношение к предмету должны быть "запрятаны" в ситуационных задачах, или представлены группой вопросов, на которые испытуемому будет сложно дать "желаемый" ответ. Самозаполняемые опросники типа репертуарных решеток могут быть с успехом использованы в таких сложных ситуациях.

Самостоятельная работа

Многие курсы и циклы требуют, чтобы слушатели сами генерировали некую интеллектуальную продукцию в ходе обучения. Некоторые из них узко-сфокусированные и имеют ограниченный диапазон применимости, например рефераты, дипломные работы и графы концепций. Другие, например дневники и истории болезни - более открытые и широко применимые. Основной задачей таких работ является оценка когнитивной компетентности, но они могут предоставлять информацию и для оценки отношения к предмету и психомоторных навыков.

Одним из примеров методики, которая позволяет оценить более высокий уровень когнитивных способностей является граф концепции (методика "упорядоченного дерева знаний", Naveh-Benjamin et al., 1986). Задачей графа концепции является оценить, как слушатели представляют себе взаимоотношения между различными переменными. При использовании этого метода преподавателей выбирает ряд концепций и упорядочивает их в виде иерархической структуры. Затем преподаватель выдает обучаемым график, в котором некоторые концепции отсутствуют, и просит внести их в соответствующе места. Пример подобного графа концепции приведен на рис.1

Рис. 1 Граф концепции "роль памяти в обучении" (McKeachie, 1999).

Задание: "Вписать в пустые прямоугольники соответствующие понятия из следующего списка (6 баллов максимум):

Кратковременная память

Воспоминания

Распознавание

Схемы

Кодирование

Разбиение на части

Внимание

Планирование"

Другим вариантом использования того же самого подхода будет предложить слушателям самим составить граф из предложенных концепций. Для выполнения подобных заданий необходимы не только знания, но и более глубокое понимание концепций, их взаимосвязи и предполагается, что это ведет к лучшему запоминанию и удержанию материала в памяти.

Иной подход к оценке модели материала предлагается Н.И.Шевандриным, который предлагает использовать для этой цели репертуарные решетки. В рамках данного подхода обучаемым дается для сравнения несколько объектов и предлагаются критерии сравнения, которые были ранее выработаны преподавателем. Критерии являются биполярными. Слушатели должны оценить (по 6-балльной шкале) насколько каждый объект ближе к одному или другому полюсу критерия. Оценка включает проведение факторного анализа исходной (преподавательской) репертуарной решетки для построения модели предметной области, а затем выполняется подтверждающий факторный анализ на каждой заполненной решетке. Наши данные показывают, что данная методика может использоваться для оценки знаний слушателей, давая значимую корреляцию с результатами теста ВМВ (Плавинский, 2000).

Абсолютно иной подход к оценке качества обучения предлагается при использовании портфеля заданий. Под этим термином понимается собираемая студентами коллекция материала, которая может продемонстрировать достижение ими того уровня когнитивной, эмоциональной и психомоторной компетентности, которая предусматривается программой курса. Требование составить подобную коллекцию может быть предъявлено всем слушателям, и использоваться для суммарной оценки курса (обычно на основе принципа зачет-незачет). Портфель может содержать примеры рефератов, лабораторных работ, историй болезни, тексты выступлений, критическую оценку статей, фотографии самостоятельно сделанных препаратов или примеры сложных диагностических случаев (снимки УЗИ), результаты оперативного лечения (в косметологии), отзывы коллег по работе и руководителей, и т.п. В дополнению к результатам работы портфель должен содержать описание целей и задач курса, а также учебную философию слушателя. Кроме того, что портфель является эффективным методом оценки (можно проследить приобретение навыков и опыта) он может помочь обучаемому потом при поиске работы и составлении резюме. Естественно, что портфель заданий наиболее адекватен при оценке длительных форм обучения и может базироваться на таких существующих формах, как индивидуальный план аспиранта или ординатора.

Ситуационные задачи

Ситуационные задачи могут быть с успехом использованы для оценки как когнитивного, так и психомоторного компонента профессиональной подготовки. Большинство из них относятся к так называемым деловым играм (Шевандрин, 1995) и пытаются моделировать ситуации из реальной жизни. Преподаватель должен установить, какой цели служит данная учебная ситуация и затем планировать проведение игры или решение ситуационной задачи таким образом, чтобы на первый план вышли те характеристики, которые способствуют достижению поставленной цели.

С развитием технологии все большее распространение получают имитаторы пациентов, которые предлагают большие возможности как по обучению, так и по тестированию когнитивных способностей высокого уровня у слушателей (Плавинский, 1998).

До широкого распространения компьютерных технологий ситуационные задачи бумажного формата широко использовались в лицензионных экзаменах в США (ныне отмененные федеральные лицензионные экзамены - FLEX). На этих экзаменах предъявлялась краткая история болезни, и необходимо было правильно провести обследование и назначить лечение. Возможные методы обследования были перечислены в специальном буклете и для того, чтобы "заказать" исследование было необходимо провести специальным маркером по соответствующей строчке. После этого результаты данного обследования - лабораторные данные или рентгенограмма - проступали сквозь ставшее невидимым покрытие. Задачей являлось не просто поставить правильный диагноз, но и сделать это, не назначая ненужных исследований.

Ситуационные задачи и имитаторы воспринимаются как более приближенные к реальности, нежели ВМВ, однако их создание и применение является весьма сложным делом.

Наблюдение

Прямое наблюдение за тем, как слушатель выполняет те или иные действия является самым адекватным способом оценки приобретенных мануальных навыков. Однако для того, чтобы подобная оценка была как можно более всеобъемлющей и объективной используется несколько подходов. Во-первых, оценку может производить преподаватель, курирующий обучаемого при выполнении им повседневной работы в данной области. При этом необходимо, чтобы у преподавателя имелись четко выработанные критерии оценки, и любой конфликт интересов был сразу же выявлен и его последствия нейтрализованы. Для объективизации процесса сравнения можно использовать шкалы оценки. При этом чрезвычайно малый разброс оценок по этим шкалам, особенно если оценки негативные, будет служить предупреждением о возможности конфликта.

Экспериментальной процедурой, направленной на изучение степени овладения навыками является ОСКЭ. Данная методика базируется на вычленении отдельных навыков, создании объективных критериев их оценки и тестировании этих навыков в искусственно созданных условиях. Технически процедура ОСКЭ сводится к созданию т.н. станций - участков, где производится тестирования конкретного навыка. Студент проводит на этой станции от 5 до 10 минут. На каждой станции находится преподаватель, снабженный набором критериев для оценки качества выполнения данной процедуры. Процедура разбита на простейшие шаги и обязанности преподавателя заключаются в том, что он отмечает, какие шаги были выполнены, а какие - нет. После выполнения одной процедуры студент переходит на следующую станцию и т.д. Общая оценка обычно выполняется на основе двухбалльной системы - прошел/не прошел.

Примерами станций ОСКЭ может служить анализ навыков пальпации брюшной полости, аускультации сердца и т.п.

В настоящее время ОСКЭ все чаще проводится с использованием стандартизованных пациентов (пациетов-актеров). Соответствующая часть лицензионного экзамена в США называется CSA (clinical skills assessment - оценка клинических навыков).

Стандартизованный пациент - это специально подготовленный человек, чаще всего актер, который предъявляет экзаменуемому стандартный набор жалоб (и симптомов). В отличие от "настоящего" больного у него нет дополнительных симптомов и жалоб, он может моделировать различные формы поведения и, что особенно важно, воспроизводить их для каждого экзаменуемого. Таким образом, устраняется возможное неравенство экзаменуемых, когда одному достается более легкий, а другому - более сложный пациент.

ОСКЭ сейчас является основой оценки клинических навыков во время лицензионных экзаменов в США и Великобритании и все чаще используется медицинскими ВУЗами для определения оценки за курс во время обучения. В то же время усилия, необходимые для создания и внедрения ОСКЭ могут оказаться чрезвычайно большими. Больших затрат требует и создание историй болезни и обучение стандартизованных пациентов. Американские специалисты даже считают, что подобные мероприятия требуют кооперации на национальном уровне (Blue et al., 2000)

Таким образом, в настоящий момент существует достаточно большой арсенал методик оценки знаний, навыков и отношения к преподаваемым предметам. Их использование должно базироваться на тщательном анализе затрат и эффективности, однако на первом месте должно стоять соответствие целям обучения. Неадекватная методика оценки может негативно сказаться не только на отношении к предмету, но и на дальнейшей работе специалиста. Аргумент о том, что использование менее эффективной или непроверенной методики оценке лучше потому, что она требует меньших затрат времени преподавателя несостоятелен по целому ряду причин. Во-первых, подобная методика контроля дискредитирует весь процесс обучения и ликвидирует один из факторов мотивации к обучению. Во-вторых, поскольку необходимо всегда анализировать не столько затраты времени преподавателей, сколько соотношение затрат и отдачи, то неадекватные методики контроля обладают наихудшим соотношением затраты/эффективность - при нулевой эффективности отношение всегда будет максимальным. В-третьих, необходимость использовать неадекватные методы оценки деморализует коллектив.

Все выше сказанное очевидно, но, тем не менее, примеров использования неадекватных методик оценки найти несложно. Наиболее вопиющим является использование ВМВ без проверки их надежности. Поскольку проверка надежности является важнейшим компонентом подготовки тестовых заданий, мы решили посвятить этому целый раздел.

6.3 Стандартизация методик контроля

Как и любой другой инструмент, тесты проверки знаний требуют калибровки и настройки. Кроме того, являясь объективными тестами, они не позволяют экзаменуемому задавать уточняющие вопросы и преподавателю мониторировать понимание его вопросов, что накладывает повышенные требования на предэкзаменационную подготовку тестовых заданий

Современная образовательная психология и ее ответвление - психометрика уже давно отработали методологию оценки качества тестовых заданий. При этом так же, как и в личностных тестах можно говорить о валидности и надежности теста оценки знаний. Понятно, что тест в целом должен быть валиден (т.е. измерять то, для чего он предназначен) и надежен (т.е. его результаты должны быть воспроизводимыми).

Для описания тестов используется несколько показателей. Часть из них характеризует индивидуальные задания, тогда как другая часть - весь тестовый набор целиком. Эти показатели связаны друг с другом и но на уровне отдельных заданий мы чаще говорим об их валидности, а на уровне целого тестового набора - о его надежности. Происходит это потому, что проверить валидность тестового набора можно только путем экспертной оценки, тогда как отдельной задачи - сравнивая результаты ответов на нее с ответами на все задания набора. С другой стороны, надежность теста обычно определяется количеством индивидуальных заданий внутри шкалы и их согласованностью, поэтому говорить о надежности отдельного задания сложно.

Анализ валидности

Сложност ь задания

Оценка отдельных заданий является первым этапом анализа тестового набора. Для ее проведения собирается суммарная информация о том, как экзаменуемые отвечали на этот вопрос. Затем вычисляется пропорция ответивших правильно на это задание. Данная величина называется трудностью задания (обозначается р). Так, если из 150 участвовавших в экзамене правильно на задание ответили 75, то трудность задания составляет 0.5. Надо отметить, что устоявшееся название "трудность задания" (item difficulty) не является полностью корректным, поскольку чем выше значение этого показателя, тем легче было задание.

Трудность задания является наиболее грубой характеристикой задания. Не говоря ничего о его способности разделять хорошо и плохо успевающих студентов этот показатель, тем не менее может позволить отбросить чрезмерно легкие и чрезмерно трудные задания. Считается, что трудность задания должна находиться в пределах между 0.3 и 0.8. Если она выходит за эти пределы, то соотношение выполнивших/не выполнивших задание становится таковым, что достаточно сложно получить устойчивую оценку дискриминантной силы. Ряд авторов считают, что трудность задания должна быть около 0.5 для того, чтобы обеспечить максимальное разделение плохих и хороших студентов. Однако Thompson и Levitov считают, что идеальная сложность должна находиться посредине между вероятностью простого угадывания ответа и 100%. Так, для задания с пятью вариантами ответов она составит 0,6 (или 60%):

 

 

 

Табл.2 Идеальная сложность разных типов заданий (по Lord)

Количество вариантов ответов

Идеальная сложность

5

70

4

74

3

77

2 (бинарный формат)

85

Задания с нулевой или стопроцентной сложностью должны быть исключены из тестового набора. Кроме того, следует помнить, что чем больший процент заданий имеет крайние значения сложности, тем меньше вариабельность суммарной оценки, а, значит, и ее стабильность.

Коэффициент дискриминации

Вторым показателем качества индивидуальных заданий является коэффициент дискриминации (D). Этот коэффициент показывает, насколько лучше отвечали на данное задание хорошо успевающие студенты в сравнении с плохо успевающими. Для его расчета индивидуальные суммарные оценки располагаются в порядке возрастания. Затем в данном ряду выделяются крайние группы. Специалисты по психометрии считают, что для получения наиболее устойчивых оценок необходимо анализировать верхние и нижние 27% экзаменуемых (Wiersma, Jurs). Nunnaly рекомендует использовать 25%. Однако подобный подход возможен только когда анализируются результаты экзамена у достаточного большого количества испытуемых. Если экзамен проводился на небольшой группе и необходимо провести предварительный анализ, то можно брать верхние и нижние 33% группы или вообще разделить группу на две половины.

Следует также отметить, что если есть сомнения в валидности используемого тестового набора, то можно воспользоваться для разбиения на группы методом экспертных оценок. Для этого преподавателей, которые вели группу, просят разделить ее на (три) четыре части по успеваемости и затем анализируют тех лиц, которые оказались во всех списках преподавателей в одной группе.

Сам коэффициент дискриминации рассчитывается достаточно просто - это разность числа хорошо успевающих студентов, выполнивших это задание и число плохо успевающих студентов правильно ответивших на вопрос, деленная на численность студентов в меньшей из двух групп.

Так, если экзамен был проведен у 80 слушателей и среди верхних 25% задание выполнили 15 человек, а среди нижних 25% - 7, то коэффициент дискриминации составит [15-7]/20= 0.4.

Считается, что коэффициент дискриминации должен превышать 0.3. (Иногда задачи классифицируются в зависимости от коэффициента дискриминации на "хорошие" (более 0,3), "приемлимые" (от 0,1 до 0,3) и "плохие" (менее 0,1)). Близкий к нулю коэффициент дискриминации показывает, что хорошо и плохо успевающие студенты выполняли это задание одинаково хорошо (плохо) и поэтому данное задание не вносит никакого вклада в общую оценку и не выполняет основной задачи теста - отделения лиц с низкими знаниями. Отрицательный коэффициент дискриминации четко указывает на невалидное задание, которое должно быть обязательно исключено или переделано. Отрицательный коэффициент дискриминации означает, что плохо успевающие студенты справлялись с заданием лучше хорошо успевающих. Такое бывает в том случае, когда вопрос по сложной теме сформулирован таким образом, что ответ очевиден. Тогда хорошо успевающие студенты будут искать в задании подвох и выбирать не правильный ответ. Аналогичным образом это может произойти если наряду с легким ответом включен вариант который может быть правильным и в тексте условия не представлено данных, на основании которых его можно исключить.

В любом случае, низкий или отрицательный коэффициент дискриминации означает, что задания не отвечают цели их составления и должны быть исключены.

Точечно-бисериальный коэффициент

Еще одним способом оценки валидности задания (по отношению к общей шкале) является вычисление коэффициента корреляции между результатами данного задания и всей шкалы в целом.

Чаще всего это делается при помощи точечно-бисериального коэффициента корреляции.

,где Ма и М b – средние для групп А и В (справившиеся и не справившиеся с данным заданием), Na и Nb – количество испытуемых в каждой группе, d - стандартное отклонение комбинированных групп.

Данный коэффициент указывает, насколько хорошо задание разделяет тех, кто хорошо справился со всем тестовым набором и теми, кому это не удалось.

По сравнению с коэффициентом дискриминации точечно-бисериальный коэффициент имеет то преимущество, что он использует для своей оценки всех экзаменуемых, не только верхние и нижние 27%.

Хотя, как и обычный коэффициент корреляции точечно-бисериальный коэффициент изменяется в пределах от -1.00 до +1.00, приемлемыми считаются задания, у которых точечо-бисериальный коэффициент корреляции превышает 0.2.

Так же, как и в случае коэффициента дискриминации негативные значения указывают на неправильно составленное задание, поскольку лица, ответившие на него неправильно имеют более хорошие общие показатели. Такая задача нуждается в пересмотре и анализе дистракторов.

Анализ дистракторов

После оценки трудности задания и коэффициента дискриминации следует перейти к анализу распределения ответов по отдельным вариантам (дистракторам). Идеальная задача должна выглядеть так

(* - лица, выбравшие соответствующий вариант)

А.****

Б.****

В.****

Г.****************

Д.****

Правильный ответ - Г. При этом в группе хорошо успевающих студентов все ответы должны приходиться на Г., а в группе плохо успевающих быть равномерно распределены между всеми пятью вариантами.

Следует обращать внимание на нарушение равномерности распределения ответов.

 

А.*****

Б.

В.*****

Г.*****************

Д.*****

Так, в представленном здесь случае никто из экзаменуемых не выбрал вариант Б. Это означает, что вариант Б. был настолько маловероятным, что даже самые плохо успевающие студенты могли его отбросить. Иными словами задание с пятью вариантами ответов эффективно превращалось в задание с четырьмя, и вероятность угадывания ответа повышалась с 20 до 25%. Таким образом, оценка завышалась. В данном случае вариант ответа Б. следует пересмотреть. Еще один вариант может появиться, когда ответы будут концентрировать около неправильного варианта.

А.****

Б.****

В.**********

Г.**********

Д.****

В данном случае следует разобраться, в какой группе чаще выбирали ответ В. Если это была группа плохо успевающих или среднеуспевающих студентов, а хорошо успевающие выбирали, в основном, вариант Г., то задание является нормальным. Однако если показанная выше картина сохранялась в группе хорошо успевающих или они в основном выбирали вариант В., то задачу необходимо ре-анализировать. Причем особое внимание следует обратить на условия задания, что в них было отражено (или не отражено), поскольку именно отсутствие или лишняя информация в условиях могут привести к неоправданной двусмысленности задания.

Хотя все эти правила понятны и логичны, в реальной жизни всегда количество выборов варианта будет варьировать. В этом случае возникает вопрос, какая же степень варьирования может считаться допустимой? Нам кажется, что для ответа на этот вопрос можно воспользоваться известными из статистики правилами. Известно, что среднеквадратичная ошибка пропорции определяется по формуле

при этом, поскольку все варианты ответов для незнакомого с темой слушателя должны быть равновероятными, то р=1/К, где К - количество вариантов ответов. Тогда формула преобразуется к виду:

Поскольку нас интересует количество людей, а не пропорция, то нам необходимо умножить m на число экзаменуемых N. Тогда формула преобразуется к виду

Допустимая вариация определяется 95% доверительным интервалом, для оценки которого можно воспользоваться следующей формулой

(в случае небольшого количества наблюдений множитель будет больше 2).

Учитывая, что нас интересует количество людей, а не пропорция и что р=1/К, формула преобразуется к следующему виду

Таким образом, если экзамен проводился у 100 человек и задание имеет 5 вариантов ответов, то на каждый неправильный вариант должен выбираться 16-24 экзаменуемыми. Для более точного анализа из общего числа экзаменуемых следует вычесть тех, кто ответил на задание правильно и в качестве К использовать количество неправильных вариантов ответов. Так, если в той же группе трудность задания составила 0.5, то это означает, что другие варианты должны выбираться (К=4, N=50) 9-15 лицами.

Таким образом, если какой-то вариант ответов был выбран 4 экзаменуемыми, то его необходимо пересмотреть ввиду его простоты (легко отбросить), а если другой выбрали 40 человек - то необходимо посмотреть чем же он был так привлекателен (или все остальные были очевидно неверными).

Рассмотрением ответов на отдельные вопросы завершается оценка индивидуальных заданий и начинается изучение суммарных тестовых наборов.

Анализ надежности

Однако прежде, чем перейти к описанию различных характеристик тестовых наборов следует кратко остановиться на методиках расчета суммарной оценки за некоторый набор тестовых заданий.

Суммарные шкалы

При решении вопроса о том, каким образом оценивать результаты тестового экзамена необходимо учитывать ряд факторов. Во-первых, имеют ли все вопросы одинаковое количество вариантов ответов. Если нет, то вероятность угадать вопрос не одинаковая и обеспечить справедливость оценивания без учета количества дистракторов нельзя. Во-вторых, необходимо решить, важно ли поощрять использование неполных знаний и наказывать бездумное угадывание. В-третьих, следует принять во внимание ресурсы, которыми располагает преподаватель для оценки результатов тестового экзамена (время, специализированное программное обеспечение, помошники).

Отсутствие ресурсов требует использование самого простого и быстрого метода оценки - простого процентного метода. В рамках этого подхода за каждое правильно выполненное задание начисляется один балл, неправильно выполненные задания и задания, оставленные без ответа считаются равноценными и не учитываются. Оценка определяется отношением правильно выполненных заданий к общему числу заданий в тестовом наборе. Эта методика не учитывает разное количество дистракторов в задачах и поощеряет угадывание ответов.

Если необходимо компенсировать вероятность угадывания и предотвратить его, используют негативную систему оценивания. В рамках этой системы за каждое правильно сделанное задание начисляют столько баллов, сколько в этом задании было дистракторов. Так, за правильное решение задачи множественного выбора одного правильного ответа из пяти будет начислено четыре балла, а за правильное решение задания бинарного типа (правильно-неправильно) - один балл.

Однако самое важное, что за каждое неправильно решенное задание снимается по одному баллу (не отвеченное задание не приводит к изменениям оценки). Подобная организация оценивания компенсирует угадывание.

Предположим, что студенту, не знающему тему предложено 3 задания множественного выбора с тремя вариантами ответов. Вероятность угадать ответ составляет 1/3, т.е. он может угадать одно из трех этих заданий. За него он получит 2 балла, однако, за все остальные по одному отрицательному баллу, что даст в сумме 2+2*(-1)=0 баллов. Таким образом, видно, что студент просто угадывал результат.

На самом деле компенсировать вероятность угадывания можно и при использовании простого процентного метода. Делается это при помощи формулы

,где F-откорректированные на угадывание проценты, R- оценка по простому процентному методу, n - количество вариантов ответов в задачах, k - количество правильных ответов.

Так, если слушатель сделал 70% заданий с тремя вариантами ответов, из которых один был правильным, то, подставляя эти данные в формулу, получим:

Иными словами, из набранных 70% около 15% могли быть результатом угадывания, а 55% получены за счет реальных знаний. Использование этой формулы позволяет рассчитать, какой процент заданий должны выполнить экзаменуемые, чтобы достичь определенного уровня "собственных" знаний (без учета угадывания). Эти данные приведены в таблице

 

 

 

 

Табл. 3. Количество правильных ответов с поправкой на вероятность угадывания

"истинный уровень ответов"

количество вариантов ответов

2

3

4

5

6

50%

75%

66%

62%

60%

57%

60%

80%

73%

70%

68%

66%

70%

85%

79%

77%

76%

74%

80%

90%

86%

85%

84%

82%

90%

95%

93%

92%

92%

91%

Большим достоинством же негативной системы оценивания является ее способность давать дополнительные очки за частичные знания. Предположим, что слушателю были предъявлены шесть заданий с тремя вариантами ответов, из которых он мог отбросить по одному за счет своих знаний. Таким образом, задания превратились для него в задания бинарного типа, в которых можно угадать 50% ответов. Этот студент может правильно ответить на 3 из шести заданий, получив за них 6 баллов. За неправильно выполненные 3 задания с него будет снято 3 балла. В сумме он наберет 3 балла, которые и будут являться "наградой" за частичные знания. Для сравнения, студент, занимающийся чистым угадыванием, наберет 0 баллов, а знающий студент - 12 баллов.

Следует, однако, отметить, что эта система работает только в том случае, если не производится стандартизации результатов. Если же производится перевод баллов в стандартные, то результаты подсчетов по всем методикам абсолютно одинаковы. Правда, значения надежности за счет большего разброса данных будут на 3-4% при использовании систем негативного оценивания.

Хотя простой подсчет правильных ответов, и деление его на общее число заданий является, пожалуй, наиболее часто используемой методикой он наименее приемлем по целому ряду причин. Во-первых, он не учитывает структуру вопросов и уравнивает вопросы с малым числом альтернатив (дистракторов) и вопросы с большим числом альтернатив, в которых труднее угадать ответ. Во-вторых, результаты, полученные при помощи этого метода, с трудом поддаются оценке и сравнению с другими экзаменами (другими по сложности и разбросу результатов). В-третьих, этот метод поощряет угадывание.

Для того, чтобы избежать этих проблем в образовательной психометрии используется несколько приемов. Для того, чтобы учитывать структуру вопросов, за каждую правильно отвеченную задачу начисляется столько баллов, сколько в данной задаче имеется неправильных вариантов ответов (дистракторов). Начисление за каждый неправильный ответ по отрицательному баллу приводит к тому, что не поощряется угадывание, но экзаменуемый, имеющий неполные знания может получить дополнительные баллы. И, наконец, особенности тестового набора компенсируются использованием стандартизованных оценок. Среди этих оценок наиболее известными являются базирующиеся на стандартном нормальном распределении z-оценки и их производные Т-оценки (от английского teacher - учитель), СЕЕB - оценки (College Entrance Examination Board - Совет по вступительным экзаменам в колледж) и IQ. Вторыми по частоте использования являются оценки, базирующиеся на процентилях.

Для получения z-оценки и ее производных необходимо вначале собрать результаты экзамена и подсчитать индивидуальные баллы (либо присваивая по одному баллу за каждый правильный ответ, либо используя один из вышеописанных вариантов). Это называется сырыми оценками. Затем сырые оценки подвергаются математической обработке, при которой вычисляется арифметическое среднее для всей группы и дисперсия (среднеквадратичное отклонение). После этого z-оценка каждого экзаменуемого определяется как разность между его индивидуальным баллом и среднеарифметическим баллов в целом по группе, деленная на среднеквадратичное отклонение. С точки зрения статистики, исходные значения превращаются в стандартизированные со средним 0 и дисперсией 1. Однако значения z-оценки обычно находятся между -2 и 2, что затрудняет их оценку. Поэтому были предложены различные производные шкалы, из которых наиболее употребимыми являются Т-оценки (Т=50+z*10) и CEEB (CEEB=500+z*100). Важным свойством этих оценок является то, что средний балл равен 50 (500 для СЕЕВ), а в диапазоне от 40 до 60 баллов (400-600 для СЕЕВ) находятся 67% сдавших экзамен.

Национальный Совет медицинских экзаменаторов США (NBME) использует нормализованную шкалу со средним 200 и стандартным отклонением 20.

Вместе с тем, вышеописанные оценки базируются на допущении, что оценки за экзамен распределены по нормальному закону. Однако это не всегда так. В значительно меньшей степени от формы распределения зависят процентильные оценки. Для расчета процентильных оценок все исходные результаты располагаются в порядке возрастания. Затем рядом с каждой оценкой выписывается ее частота (количество экзаменуемых, набравших этот балл) и ее накопленная частота (т.е. число всех экзаменуемых, чья оценка равна или меньше данной). Затем к накопленной частоте (cfi) оценки меньшей данной прибавляется половинное значение частоты (fi) данной оценки. Полученная сумма делится на общее число экзаменуемых и переводится в проценты. Так, если среди 150 экзаменуемых 43 получили 16 баллов или ниже, а 21 человек набрал 17 баллов, то процентильный балл для этих 21 человека составит

Надо заметить, что процентильные оценки менее стабильны, поэтому вместо них иногда используют станины. Станины это определенные пределы, в которые попадает некий фиксированный процент популяции. Так станина 1 охватывает 4% лиц с самыми низкими оценками, за ними следуют 7% (2), 12% (3), 17% (4), 20% (5), 17% (6), 12% (7), 7%(8), 4% (9) - самые высокие оценки. Так, в вышеописанном примере исходный балл 17 наблюдался у лиц, которые находились в диапазоне 28-43% всей группы. Поэтому их станинная оценка была 4.

Однако на практике станины дают маленькую вариацию, что затрудняет анализ, и большинство придерживается вариантов z-оценки.

Несмотря на простоту использования, процентильные оценки имеют большое количество ограничений. Во-первых, процентильные оценки нельзя складывать, вычитать, делить и умножать (поскольку это ординарные переменные). Во-вторых, процентильные оценки имеют треугольное распределение, а обычные оценки - нормальное. Это означает, что небольшие различия в баллах близко к середине распределения приводит к большим отличиям в оценках, в то время как большие различия в баллах вдали от средних значений дает лишь незначительные отличия в оценках. ( F. Brown)

Формирование шкал.

Как уже неоднократно указывалось выше, оценка заданий производится по отношению к суммарной оценке. Однако просто суммарная оценка не всегда является гомогенной. Из того, что слушатель хорошо отвечает на вопросы кардиологии, отнюдь не следует, что он сможет ответить на вопросы по невропатологии. Поэтому валидность заданий следует определять по отношению к однородным по содержанию задачам. Такой набор однородных по содержанию заданий и называется шкалой.

Возможны два основных пути формирования шкалы. Один - метод экспертных оценок, при котором ряд экспертов решают, к какой теме относится тот или иной вопрос. Являясь достаточно простым и эффективным, этот метод не позволяет однозначно относить к той или иной шкале вопросы, относящиеся к пограничным разделам. А это, в свою очередь, затрудняет формирование суммарной оценки.

Вторым способом формирования шкал является экспериментальный подход, при котором шкалы определяются на основе анализа результатов реального тестирования. При этом для выявления шкал используется факторный анализ.

В целом, процедура шкалирования сводится к следующему.

Вначале проводится тестирование относительно большой группы слушателей (большинство авторов считает, что не менее 100 человек или число заданий, умноженное на 5 - что окажется больше). Полученные в ходе экзамена данные вносятся в одну из статистических компьютерных программ (выполнение факторного анализа "вручную" является весьма сложным мероприятием).

Следует отметить, что получаемые в результате экзамена данные являются бинарными (т.е. правильно-неправильно). Анализ таких данных напрямую затруднен, поскольку рассчитываемые обычно при проведении факторного анализа стандартные коэффициенты корреляции плохо приспособлены для изучения бинарных переменных. Поэтому перед дальнейшим анализом следует произвести расчет бинарных показателей связи, например тетрахорических коэффициентов корреляции Пирсона.

После этого данные анализируются при помощи метода главных компонент (Principal Components Analysis), используя в качестве исходного материала рассчитанную на предыдущем этапе корреляционную матрицу.

Количество формируемых шкал (определяемое числом экстрагируемых факторов) устанавливается по обычной фактор-аналитической процедуре либо на основании критерия Кайзера (собственное значение фактора более единицы), либо при помощи методики Кеттела (scree plot). Можно также фиксировать число экстрагируемых факторов в соответствии с количеством шкал, определенных экспертами.

После экстракции факторов производится их вращение. Поскольку основной задачей является формирование взаимо-независимых шкал, необходимо использовать методики, приводящие к формированию ортогональных решений (методы вращения Varimax или Orthomax). Применение угловых методик (Oblimin или Promax) вряд ли оправдано, поскольку они создают взаимно коррелирующие шкалы.

После проведения вращения полученная матрица факторных нагрузок используется для формирования шкалы. Шкала формируется из тех вопросов, которые давали нагрузку на данный фактор не менее 0,4 (0,7 если общая величина нагрузок достаточно высока), нагрузка была положительной и более ни в одном факторе она не достигала пограничный величины.

Найденные таким образом вопросы формируют единую естественную шкалу, и их надо проанализировать на адекватное содержание.

Данная процедура не принимает во внимание действительное содержание вопросов и формирует, скорее шкалы по сложности. Однако эта процедура позволяет формировать достаточно надежные шкалы.

Еще одной процедурой является шкалирование по Гутману, которая является некоей комбинацией из методики экспертных оценок и расчета надежности. Поэтому прежде, чем переходить к шкалированию по Гутману следует разобраться с методами определения надежности шкал.

Надежность

Надежность любой шкалы определяется двумя основными параметрами - ее стабильностью во времени и предсказуемостью ответов на вопросы внутри шкалы. Первая концепция (надежность типа тест-ретест) достаточно проста. Понятно, что результаты теста не должны меняться резко выраженным образом, если тест повторяется через пару дней. Поэтому для проверки этого типа надежности тест (без какого-то ни было обсуждения или сообщения результатов тестирования) повторяют через неделю - 10 дней после первого тестирования. Затем проводится расчет обычного коэффициента корреляции. Если он оказывается выше 0,7, то можно говорить о достаточной ретестовой надежности шкал.

Эта процедура, часто применяемая в психологическом тестировании, в образовательном тестировании не пользуется большой популярностью. Дело в том, что естественное любопытство тестируемых приводит к тому, что они, запоминая часть заданных вопросов, начинают отыскивать ответы на заданные вопросы, что меняет результаты. Кроме того, при повторном тестировании отсутствует элемент новизны в заданиях и поэтому человек может достаточно быстро ответить на те вопросы, на которые он уверенно ответил в прошлый раз (практически не читая их заново) и потратить больше времени на другие задания. Все это приводит к неоправданным изменениям значения ретестовой надежности. Поэтому чаще всего используется определение внутритестовой надежности шкал. Если шкала является надежной, то положительный ответ на каждый вопрос повышает вероятность положительного ответа на другой. Если же этого не происходит, и между ответами на разные вопросы нет связи, то связующая нить отсутствует и говорить о шкале вряд ли возможно.

Наиболее логичным способом измерения такой надежности будет разбить шкалу случайным образом на две половины и посчитать суммарную оценку в обеих половинах. Если шкала надежная, то средний результат по всем экзаменуемым в обеих половинах будет одинаковым. Чем больше расхождения между половинами, тем ниже надежность шкалы (этот тип надежности называется "надежность при делении пополам" - Split-half reliability). На самом деле этот метод является одномоментным вариантом ретестовой оценки надежности. Один тест рассматривается, как состоящий из двух подтестов. И, как в случае ретестового изучения надежности, результат в обеих половинках должен быть одинаковым. Причем, как и при ретестовой надежности, рассчитывается коэффициент корреляции между результатами в первой и второй половинках.

Вместе с тем, эта методика порождает одну проблему - как разбить шкалу на две половины. Можно найти такое разбиение, которые будет давать лучшие показатели надежности. Поэтому было предложено применять коэффициент, который является усредненным для всех возможных вариантов надежностей с разбиением на половины. Этот коэффициент называется альфа Кронбаха (Cronbach alfa).

Надо сказать, что в образовательном тестировании иногда применяется формула Кудера-Ричардсона (Kuder Richardson, KR-20).

, где К- количество заданий, р – трудность задания, а d - дисперсия суммарной оценки

На самом деле эта формула является частным случаем альфа Кронбаха для бинарных вариантов оценки (правильно-неправильно), которые обычно и встречаются в образовательном тестировании. Однако при использовании методов оценивания, учитывающих длину вопроса или негативного оценивания, формула KR-20 неприменима. Поэтому далее мы будем говорить только об альфа Кронбаха понимая, что результаты расчета по формуле KR-20 дадут абсолютно те же результаты.

(Существует еще упрощенная формула Гутмана, которой можно пользоваться для приближенной оценки надежности теста

,где Е - общее количество ошибок, N - количество экзаменуемых, а К - количество заданий.)

Получив данные тестового экзамена они вносятся в соответствующую программу анализа и затем расчитывается альфа Кронбаха для каждой шкалы. Были предложены следующие варианты оценки значений альфа Кронбаха

Табл. 4. Оценка степени надежности тестов

Альфа

Интерпретация

0,9 и выше

Прекрасная надежность, на уровне стандартизованных национальных тестов

0,8-0,9

Очень хорошая надежность для экзаменационных тестов

0,7-0,8

Хорошая надежность, большинство тестов имеют именно такие значения, возможно можно подправить несколько заданий

0,6-0,7

Низковато, необходимо добавить и улучшить несколько заданий, прежде чем тестовый набор можно будет использовать для экзамена

0,5-0,6

Тестовый набор нуждается в переработке, если только он не очень короткий (десять или менее заданий). В любом случае необходимо дополнять

менее 0,5

Сомнительная надежность. Тест надо переделывать и он не может использоваться для выставления оценок

Следует помнить, что существует несколько факторов, влияющих на надежность кроме содержательной характеристики заданий.

1. Длина тестового набора. Чем больше заданий входит в шкалу, тем выше ее надежность

2. Содержание тестового набора. Чем более разнообразна тематика, тестируемая в рамках одной шкалы, тем ниже надежность.

3. Корреляции между результатами выполнения заданий. Чем больше положительных корреляций определяется между результатами выполнения заданий, тем выше надежность тестового набора.

4. Гетерогенность группы. Чем более гетерогенна группа (чем больше в нее входит плохо и хорошо успевающих слушателей), тем, при прочих равных условиях, выше значения надежности.

5. Характеристики заданий. Если тестовый набор включает большое число заданий с высоким коэффициентом дискриминации и средним уровнем сложности, то надежность такого набора повышается.

Пункты 2, 3 и 5 показывают способ улучшения показателей надежности теста путем создания поднаборов (или шкал). Эта процедура - составление шкал с ориентировкой на максимальную надежность - и называется шкалированием по Гутману.

В ходе этой процедуры рассчитывается общий коэффициент надежности и коэффициенты надежности с исключением из тестового набора данного задания (alfa if removed). Список заданий просматривается и, если при исключении какого-либо задания альфа Кронбаха увеличивается, то данное задание изымается из шкалы. Если таких заданий несколько, то исключается то, чье удаление приведет к наибольшему росту альфа. Затем процедура повторяется до тех пор, пока исключение заданий не начнет приводит к уменьшению, а не увеличению надежности.

Данная процедура работает достаточно эффективно на больших тестовых наборах в которых шкалы сформированы методом экспертых оценок. После проведения факторного шкалирования эта процедура неэффективна.

Недостатком шкалирования по Гутману является то, что при наличие в тестовом наборе заданий проверки знаний в двух различных областях, придется полностью выбросить все задания одного типа. Поэтому, если при проведении шкалирования приходится удалять значительное количество заданий, надо проанализировать их содержание и решить вопрос о том, не относятся ли они все к одной теме, которая не совпадает с основной темой тестового набора.

После составления шкал можно переходить к их стандартизации. Необходимость стандартизации субшкал воспринимается неоднозначно. Часть тестологов выступает только за стандартизацию общих результатов экзамена (хотя он включает определенные субшкалы). В этом случае относительная важность темы (и ее вклад в финальную оценку) определяется числом вопросов, вошедших в тестовый набор. Другие считают, что следует формировать оценку по каждой конкретной субшкале и затем выводить средний балл. Данный подход уравнивает результаты, полученные по разным субшкалам вне зависимости от количества вопросов в шкале. Компромиссом может явиться вычисление средневзвешенной оценки при котором веса каждой шкалы будут определяться относительной важностью данной темы.

С завершением стандартизации шкал тест готов к использованию.

Итак, процесс составления тестовых заданий включает следующие последовательные этапы

1. Определение темы и цели тестирования, методики оценивания.

2. Написание тестовых заданий

3. Проведение тестового экзамена

4. Определение сложности заданий и удаление или пересмотр слишком сложных или простых заданий

5. Анализ дистракторов, пересмотр заданий с неадекватно сформированными дистракторами

5. Если шкалы формируются методом экспертных оценок, расчет суммарной оценки.

6. При формировании шкал методом факторного анализа, его проведение и контекстный анализ сформированных шкал.

7. Проведение анализа дискриминантной силы заданий (расчет коэффициента дискриминации и/или точечно-бисериального коэффициента корреляции). Удаление из базы или пересмотр заданий с низкой дискриминирующей силой.

8. Анализ надежности шкал, удаление из шкал заданий, которые снижают их надежность и добавление заданий, если шкала не достигает намеченного уровня надежности

9. Стандартизация шкал

10. Проверка тестового набора на новой группе экзаменуемых.

Следует отметить, что согласно приказу Министерства Образования РФ N 1122 от 17.04.2000 "О сертификации качества педагогических тестовых материалов" были утверждены методические положения о подготовке к сертификации педагогических тестовых материалов, которые включают в качестве обязательных бописанные выше компоненты статистической проверки тестов (см. Приложение).

 

 

Литература

  1. Как построить тест. Под ред. В.А.Аверина, СПбГПМА, 1998
  2. Кейс М., Свенсон Д. Создание письменных тестовых вопросов по базисным и клиническим дисциплинам, 1996
  3. Клайн П. Справочное руководство по конструированию тестов. ПАН Лтд, Киев, 1994
  4. Кузнецова О.Ю., Шестак О.Д. Руководство по написанию тестовых заданий. СПб МАПО, 1998
  5. Руководство для руководителей учебной клинической практики. Под ред. Р.Финчер, IREX, 1996
  6. Bloom B., Engelhart M., Furst E., Hill W., Krathwohl D. Taxonomy of Educational Objectives: The Classification of Edycational Goals. Handbook I:Cognitive Domain.- New York, David McKay,1956
  7. Blue A., Barnette J., Ferguson K., Garr D. Evaluation Methods for prevention education// Academic Medicine Supplement, 2000
  8. Brown F., Principles of educational and psychological testing.-N.Y., Rinehart and Winston, 1976
  9. Davis, B. Tools for teaching, Jossey-Bass Publishers, San Francisco, 1993
  10. Harrow A. A Taxonomy of the Psychomotor Domain: A Guide for Developing Behavioural Objectives.- New York, Longman, 1972
  11. Henrysson S. Gathering analyzing and using data on test items. in: Educational Measurement/ ed. by R.Thorndike.-Washington, DC, American Council on Education, 1971.
  12. Linn R., Gronlund N. Measurement and Assessment in Teaching.-Upper Saddle River, Pretence Hall, 1995
  13. Lord F, The Relationship of the Reliability of Multiple-Choice Test to the Distribution of Item Difficulties//Psychometrica.-1952.-v.18.-p. 181-194
  14. Matlock-Hetzel S., Basic Concepts in Item and Test Analysis// Paper from annual meeting of the Southwest Educational Research Association, Austin, 1997
  15. McKeachie W., Teaching Tips.- Boston, Houghton Mifflin Company, 1999
  16. Nunnaly J., Psychometric Theory. -N.Y., McGraw-Hill, 1967
  17. Krathwohl D., Bloom B., Masia B. Taxonomy of Educational Objectives: The Classification of Edycational Goals. Handbook II: Affective Domain.- New York, David McKay,1964
  18. Rodriguez M., Norming and Norm-referenced Test Scores//Paper from annual meeting of the Southwest Educational Research Association, Austin, 1997

ПРИЛОЖЕНИЕ

Министерство образования Российской Федерации

П Р И К А З

от 17.04.2000 N 1122

 

О сертификации качества педагогических

тестовых материалов

 

С целью повышения качества образования и дальнейшего совер-

шенствования аттестационных тестовых технологий

ПРИКАЗЫВАЮ:

1. Создать Координационный совет Минобразования России по воп-

росам сертификации качества педагогических тестовых материалов и

утвердить его состав (приложения N1).

2. Утвердить документы, регламентирующие процедуру сертифика-

ции качества педагогических тестовых материалов:

2.1 Временное положение о сертификации качества педагогических

тестовых материалов, используемых для оценки знаний обучающихся в

образовательных учреждениях Российской Федерации (приложение N2).

2.2 Методические указания по подготовке педагогических тесто-

вых материалов к сертификации (приложение N 3).

2.3 Положение о Координационном совете Минобразования России

по вопросам сертификации качества педагогических тестовых материа-

лов (приложение N4).

3. Возложить функцию головного учреждения в системе Минобразо-

вания России по сертификации качества педагогических тестовых мате-

риалов, используемых для оценки знаний студентов высших и средних

специальных учебных заведений, на Исследовательский центр проблем

качества подготовки специалистов Московского государственного инс-

титута стали и сплавов (технологического университета).

4. Возложить по согласованию с президентом Российской академии

образования Н.Д. Никандровым функцию головного учреждения по серти-

фикации качества педагогических тестовых материалов, используемых

для оценки знаний обучающихся во всех типах общеобразовательных уч-

реждений и учреждениях начального профессионального образования, на

Институт общего среднего образования Российской академии образования.

5. Управлению прогнозирования и развития системы образования

(В.М.Зуеву) предусмотреть на 2001 год за счет бюджетного финансиро-

вания в рамках системы мероприятий по реализации Федеральной прог-

раммы развития образования работы Исследовательского центра проблем

качества подготовки специалистов Московского государственного инс-

титута стали и сплавов (технологического университета) по совер-

шенствованию научно-методического обеспечения системы сертификации

качества педагогических тестовых материалов.

6. Управлению образовательных программ и стандартов высшего и

среднего профессионального образования (Г.К.Шестакову) совместно с

Управлением послевузовского и дополнительного профессионального об-

разования (В.В.Безлепкиным) до 01.08.2000 разработать и утвердить

государственные требования, предъявляемые к программам профессио-

нальной переподготовки в области тестирования.

7. Головным учреждениям по сертификации качества педагогичес-

ких тестовых материалов разработать и представить на утверждение в

Координационный совет Минобразования России по вопросам сертифика-

ции качества педагогических тестовых материалов до 1 июня 2000г.

образцы сертификата качества педагогического тестового материала и

свидетельства о прохождении экспертизы сертификации качества педа-

гогических тестовых материалов.

8. Рекомендовать руководителям органов управления образованием

различных уровней, ректорам высших учебных заведений, руководителям

общеобразовательных учреждений, учреждений начального профессио-

нального и среднего профессионального образования, пользоваться для

оценки знаний обучаемых методом тестирования сертифицированными пе-

дагогическими тестовыми материалами.

9. Считать утратившим силу приказ Минобразования России от

25.06.97 N 1300.

10. Контроль за исполнением настоящего приказа возложить на

заместителя Министра В.Д.Шадрикова.

 

Министр В.М.Филиппов

 

 

 

Приложение N2

к приказу Минобразования России

от 17.04.2000 N 1122

 

ВРЕМЕННОЕ ПОЛОЖЕНИЕ О СЕРТИФИКАЦИИ КАЧЕСТВА

ПЕДАГОГИЧЕСКИХ ТЕСТОВЫХ МАТЕРИАЛОВ,

ИСПОЛЬЗУЕМЫХ ДЛЯ ОЦЕНКИ ЗНАНИЙ ОБУЧАЮЩИХСЯ В

ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЯХ РОССИЙСКОЙ

ФЕДЕРАЦИИ

Общие положения

1. Настоящее Временное положение определяет цель, предмет, со-

держание и организацию процедуры сертификации качества педагогичес-

ких тестовых материалов (далее - ПТМ), используемых для оценки зна-

ний обучающихся в образовательных учреждениях Российской Федерации.

2. Цель сертификации - повышение качества образования путем

совершенствования ПТМ, применяемых для оценки знаний обучающихся

методом тестирования в учебных заведениях Российской Федерации. При

этом решаются две задачи: первая - выявление и фиксация достигнуто-

го уровня качества сертифицируемых ПТМ, вторая - разработка реко-

мендаций, определяющих методику совершенствования ПТМ.

3. Предметом и содержанием сертификации является установление

степени соответствия характеристик ПТМ действующим на момент серти-

фикации требованиям к их качеству. Требования утверждаются Коорди-

национным советом Минобразования России по вопросам сертификации

качества ПТМ (далее - Координационный совет). Требования подлежат

обновлению не реже одного раза в три года.

4. Основными принципами сертификации являются научная обосно-

ванность, объективность, конфиденциальность, систематическая отчет-

ность. Принцип научной обоснованности регламентирует использование

в процессе сертификации современного научного аппарата. Принцип

объективности предполагает экспертизу качества тестов по единой ме-

тодике. Принцип конфиденциальности предписывает неразглашение со-

держательной части ПТМ, представленных на экспертизу, и результатов

экспертизы внешним пользователям.

Процедура сертификации

5. Процедура сертификации качества ПТМ состоит из двух после-

довательных этапов. Первый этап - экспертиза ПТМ, включающая оценку

качества содержания, правильности форм заданий и статистических ха-

рактеристик ПТМ. Второй этап - сертификация. ПТМ, прошедшим экспер-

тизу и удовлетворяющим утвержденным требованиям к их качеству, вы-

дается сертификат качества ПТМ (в дальнейшем - сертификат). Образец

бланка сертификата разрабатывается головными учреждениями по серти-

фикации качества ПТМ и утверждается Координационным советом.

6. Сертификат дает право на использование ПТМ с целью оценки

знаний обучающихся. Сертификат снабжается бланком с паспортными

данными ПТМ, содержащими информацию о характеристиках ПТМ, и имеет

регистрационный номер, совпадающий с регистрационным номером ПТМ.

Бланк сертификата изготовляется на бумаге с водяными знаками.

7. При неполном соответствии характеристик ПТМ требованиям ка-

чества выдается свидетельство о прохождении процедуры сертификации.

Свидетельство удостоверяет факт прохождения процедуры сертификации

и содержит рекомендации по доработке ПТМ. Образец свидетельства и

содержание рекомендаций по доработке ПТМ разрабатываются головными

учреждениями по сертификации качества ПТМ и утверждаются Координа-

ционным советом. Бланк свидетельства изготовляется на бумаге с во-

дяными знаками.

Требования к организации проведения сертификации

8. Сертификация проводится на базе головных учреждений: Иссле-

довательского центра проблем качества подготовки специалистов Мос-

ковского государственного института стали и сплавов (технологичес-

кого университета) и Института общего среднего образования Российс-

кой академии образования (далее - головные учреждения).

9. Сертификация ПТМ проводится по желанию авторов тестов или

по заявкам учебных заведений на договорной основе. Стоимость затрат

на проведение сертификации определяется типовой сметой расходов,

утверждаемой Координационным советом.

10. Средства, перечисляемые заказчиками, поступают на счета

головных учреждений по сертификации качества ПТМ и расходуются на

оплату труда экспертов, организацию процесса сертификации, на раз-

витие и совершенствование методического и материально-технического

оснащения процедуры сертификации.

11. Сертификация проводится на основании договора, заключаемо-

го между заказчиками работ и головными учреждениями. Договор может

предусматривать оказание заказчику дополнительных услуг по доработ-

ке ПТМ. Объем последних определяет сертифицирующая организация в

тех случаях, когда ПТМ требуют доработки для доведения их качества

до уровня требований сертификации.

12. С целью проведения самой процедуры сертификации на базе

головных учреждений создаются экспертные группы. Состав экспертных

групп утверждается Минобразованием России по представлению головных

учреждений. В состав экспертов не должны входить представители

учебного заведения, заказавшего проведение работ по сертификации.

13. Работа экспертных групп осуществляется по специальным ме-

тодикам, одобренным Координационным советом и утвержденным Минобра-

зованием России.

14. Оформление результатов сертификации и выдача сертификата

проводятся в порядке, утвержденном Координационным советом, и в со-

ответствии с описанной выше процедурой сертификации.

15. Ежегодные отчеты о результатах сертификации (в аннотиро-

ванной форме) передаются головными учреждениями в Координационный

совет.

16. Сертифицированные ПТМ помещаются с согласия заказчика-(ав-

тора) в информационные базы головных учреждений для создания Феде-

рального фонда ПТМ (банка тестов). Головные организации не обладают

правом передачи ПТМ без согласия авторов.

17. Сертификат дает право на использование ПТМ для оценки зна-

ний обучающихся методом тестирования только в соответствии с пас-

портными данными ПТМ. При любых изменениях, приводящих к нарушению

паспортных данных ПТМ, зафиксированных в процессе сертификации ПТМ,

сертификат утрачивает силу.

18. При возникновении конфликтных ситуаций, связанных с заклю-

чениями экспертов, заказчики работ обладают правом обращаться в Ко-

ординационный совет с целью назначения дополнительной экспертизы.

Перечень документов и материалов, необходимых для выполнения серти-

фикации

19. Для проведения экспертизы качества содержания сертифициру-

емых ПТМ заказчик работ должен представить следующее:

I. Для тестирования, проводимого на бумажных носителях:

1) общие данные о тесте;

2) тексты всех разработанных вариантов тестов в распечатанном

виде, готовом для предъявления тестируемым;

3) спецификацию теста;

4) таблицу правильных ответов с критериями оценки (в баллах)

за выполнение каждого задания;

5) эмпирические результаты апробации ПТМ в виде матриц (на

дискете) с указанием дат проведения тестирования;

6) описание выборки стандартизации, использованной при разра-

ботке ПТМ, и основания для ее стратификации с указанием объема вы-

борки;

7) статистические характеристики всех заданий и вариантов тес-

та;

8) шкалу и правила оценки результатов;

9) все сопроводительные материалы по проведению тестирования.

II. Для компьютерного тестирования:

1) структуру и характеристики банка тестовых материалов;

2) распечатки тестовых заданий и отдельных вариантов тестов со

всеми имеющимися характеристиками по выбору экспертов;

3) технологию формирования и предъявления теста;

4) демонстрационную версию банка;

5) систему оценивания результатов тестирования.

 

 

 

Приложение N 3

к приказу Минобразования России

от 17.04.2000 N 1122

МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ПОДГОТОВКЕ

ПЕДАГОГИЧЕСКИХ ТЕСТОВЫХ МАТЕРИАЛОВ К

СЕРТИФИКАЦИИ

С целью подготовки ПТМ к процедуре сертификации заказчики (ав-

торы) самостоятельно оценивают качество содержания ПТМ, проверяют

соответствие заданий требованиям тестовой формы и выявляют статис-

тические характеристики ПТМ.

1. Общие данные о ПТМ должны включать:

а) название учебного предмета;

б) название образовательной программы и год обучения;

в) авторский коллектив разработчиков;

г) период разработки (даты начала и конца);

д) даты прохождения экспертизы тестов и тестовых заданий, чис-

ло экспертов, даты прохождения апробации тестов.

2. Спецификация ПТМ должна включать:

а) цели создания ПТМ (входная аттестация, промежуточная аттес-

тация, итоговая аттестация);

б) перечень специальностей и направлений подготовки, для кото-

рых планируется использование ПТМ (в высших и средних специальных

учебных заведениях);

в) перечень исходных документов, использованных при разработке

ПТМ (ГОС или документы их заменяющие с указанием года и места изда-

ния, наименование программ вступительных испытаний и.т.п.);

г) вид ПТМ (гомогенный или гетерогенный) ;

д) наименование подхода к разработке ПТМ (нормативноориентиро-

ванный, критериально-ориентированный или смешанный);

е) число заданий в каждом варианте ПТМ;

ж) число вариантов ПТМ;

з) количество и процентное содержание заданий каждой формы;

и) число ответов к заданиям с выбором ответа;

к) вес каждого задания при подсчете баллов испытуемых;

л) время выполнения теста и время выполнения каждого задания;

м) соотношение заданий в каждом варианте ПТМ по разделам (со-

держательным линиям) и видам деятельности (знаниям, умениям) испы-

туемых (в виде таблицы и с подробной расшифровкой),

н) способ формирования вариантов ПТМ (кластерная модель или

параллельные формы).

3. Статистические характеристики заданий и теста должны вклю-

чать:

а) данные о трудности заданий в долях правильных ответов испы-

туемых, процентах правильных ответов или в шкале логитов (при ис-

пользовании современной теории конструирования тестов);

б) для закрытых заданий теста - статистические данные о дист-

ракторах;

в) для открытых заданий - распределение ответов испытуемых в

соответствии со схемой оценки выполнения заданий;

г) данные о дискриминативности заданий, полученные с помощью

индекса дискриминативности, точечно-бисериального коэффициента кор-

реляции, параметра дифференцирующей способности заданий теста (при

использовании современной теории конструирования тестов);

д) результаты проверки правдоподобности гипотезы о нормальном

распределении эмпирических результатов по тесту (для норматив-

но-ориентированных тестов);

е) нормы (для нормативно-ориентированных тестов), включающие

среднее значение сырых баллов, дисперсию и т.д. с указанием времен-

ного промежутка действия норм;

ж) критериальный балл (для критериальноориентированных тес-

тов), сопровождаемый описанием процедуры его получения и результа-

тами его эмпирической валидизации (с указанием временного промежут-

ка действия балла);

з) данные о надежности теста с указанием методов их получения;

и) данные о валидности теста с указанием типа валидности и ис-

пользованного метода получения оценок;

к) данные анализа корреляционных связей заданий;

л) для гетерогенных тестов данные о результатах факторного

анализа, количестве и видах шкал;

м) оптимальное время выполнения теста;

н) данные об информативности теста с точки зрения соответствия

целевой информационной функции (если использовалась современная те-

ория конструирования теста).

4. При проведении содержательной экспертизы ПТМ

используются следующие критерии:

а) полнота отображения материала образовательной программы при

отборе содержания ПТМ;

б) правильность пропорций, выбранных при отображении разделов

предмета (содержательных линий );

в) полнота охвата требований государственных образовательных

стандартов в ПТМ;

г) соответствие содержания заданий знаниям, умениям и навыкам,

запланированным для проверки в спецификации ПТМ;

д) значимость содержания каждого задания ПТМ для целей провер-

ки.

5. Задания сертифицируемых ПТМ рекомендуется разрабатывать в

одной из четырех форм:

а) задания с выбором ответов (испытуемый выбирает правильный

ответ (ответы) из числа готовых, предлагаемых в задании теста),

б) задания на дополнение (испытуемый сам формулирует краткий

или развернутый ответ),

в) задания на установление соответствия между элементами двух

множеств,

г) задания на установление правильной последовательности в ря-

ду предлагаемых элементов.

Разрабатываемые задания должны соответствовать ряду требова-

ний, которые можно подразделить на общие, инвариантные относительно

выбранной формы и на специальные, отражающие специфику форм заданий

теста. К общим требованиям относят:

наличие порядкового номера задания, установленного согласно

статистическим оценкам трудности и выбранной разработчиком страте-

гии предъявления заданий теста;

наличие стандартной инструкции, адекватной форме заданий тес-

та;

определенность мест расположения элементов заданий,

наличие эталонов правильных ответов к заданиям (кроме случая

использования заданий в открытой форме со свободно конструируемым

ответом) и правил, выбранных разработчиком для оценки результатов

выполнения теста с обоснованием выбора весовых коэффициентов, если

они имеются.

В отличие от общих специальные требования довольно многочис-

ленны. Они излагаются в пособиях по тестовой проблематике, а также

в развернутых методических рекомендациях, которые выдаются заказчи-

кам после заключения договора на сертификацию ПТМ.

В сертифицируемых ПТМ допускается сочетание различных форм. В

том случае, когда формы чередуются, соответствующим образом должна

меняться инструкция к заданиям теста.

При подготовке материалов для сертификации рекомендуется ис-

пользовать пособия по тестовой проблематике, приведенные ниже.

Рекомендуемая литература:

1. Анастази А., Психологическое тестирование, пер. с. англ.,

в 2 кн. - М.: Педагогика, 1982.

2. Аванесов В.С. Композиция тестовых заданий. Учебное

пособие. - М.: Ассоциация инженеров-педагогов, 1996.

3. Клайн П., Введение в психометрическое

программирование. Справочное руководство по

конструированию тестов. - Киев, 1994.

4. Столин В.В., Шмелев А.Г. Дифференциальная

психометрика.- М.: МГУ, 1984.

5. Челышкова М.Б. Разработка педагогических тестов на

основе современных математических моделей. Учебное

пособие. - М.: И. Ц, 1995.

6. Челышкова М.Б., Ковалева Г.С. Теория и практика

конструирования педагогических тестов. Учебное пособие.

Рекомендации подготовлены группой авторов в составе:

М.Б.Челышкова, Г.С.Ковалева, А.О.Татур.

Приложение N4

к приказу Минобразования России

от 17.04,20 00 N 1122

ПОЛОЖЕНИЕ О КООРДИНАЦИОННОМ СОВЕТЕ

МИНОБРАЗОВАНИЯ РОССИИ ПО ВОПРОСАМ

СЕРТИФИКАЦИИ КАЧЕСТВА ПЕДАГОГИЧЕСКИХ ТЕСТОВЫХ

МАТЕРИАЛОВ

 

1. Координационный совет Минобразования России по вопросам

сертификации качества педагогических тестовых материалов (далее -

Координационный совет) является государственно-общественным органом

Министерства образования Российской Федерации, действующим в целях

научнометодического обеспечения и контроля процесса сертификации

качества педагогических тестовых материалов (далее - ПТМ).

2. Координационный совет создается, реорганизуется и ликвиди-

руется приказом Минобразования России. В состав Координационного

совета входят ведущие специалисты в области тестирования, предста-

вители научноисследовательских организаций и учреждений системы об-

разования и Минобразования России.

3. Координационный совет возглавляет председатель. Подготовку

заседаний Координационного совета и доведение принятых им решений

до сведения заинтересованных организаций осуществляет ученый секре-

тарь.

4. Координационный совет в своей деятельности руководствуется:

законодательными актами Российской Федерации,

постановлениями Правительства Российской Федерации в области

образования,

нормативно-правовыми актами Минобразования России, настоящим

Положением.

5. Основными задачами и функциями Координационного совета яв-

ляются:

осуществление контроля за соблюдением требований к качеству

ПТМ в процессе сертификации, а также за обоснованностью результатов

экспертизы качества сертифицируемых ПТМ,

выявление проблем и трудностей, замедляющих становление про-

цесса сертификации ПТМ,

внесение предложений в программы работ головных учреждений в

системе Минобразования России по сертификации качества ПТМ, в об-

ласти сертификации ПТМ и определение приоритетных направлений их

деятельности по сертификации (ежегодно),

обсуждение отчетов головных учреждений в системе Минобразова-

ния России по сертификации качества ПТМ, и их утверждение (ежегод-

но);

согласование перечня документов и материалов, представляемых

заказчиком, а также требований к качеству ПТМ;

согласование методик экспертизы качества ПТМ;

утверждение формы бланка сертификата ПТМ;

разработка рекомендаций по совершенствованию процесса сертифи-

кации ПТМ, в том числе определение приоритетных научноисследова-

тельских работ по расширению и совершенствованию процесса и системы

сертификации ПТМ;

рассмотрение случаев апелляций со стороны заказчиков; опреде-

ление порядка оформления и выдачи сертификатов.

6. Координационный совет в соответствии с возложенными на него

задачами имеет право получать отчеты головных учреждений в системе

Минобразования России по сертификации качества ПТМ, документы и ма-

териалы Минобразования России и другую необходимую информацию по

вопросам разработки и использования тестов.

7. Члены Координационного совета и члены экспертных групп

должны соблюдать принцип конфиденциальности по отношению к содержа-

тельной части ПТМ, представленных на экспертизу, и результатам экс-

пертизы для внешних пользователей.

8. Работа Координационного совета проводится по плану. Заседа-

ния Координационного совета проводятся не реже одного раза в два

месяца. Решения Координационного совета принимаются большинством

голосов членов совета, если на заседании присутствует не менее 2/3

членов совета.

 

Опубликовано в кн. : Беляков Н.А., Кузнецова О.Ю, Мазуров В.И., Михайлович В.А., Плавинский С.Л., Симбирцев С.А., Трофимова Т.Н., Хмельницкий О.К., Щербо А.П. Система образования и подготовка преподавателей. Том 1/ под ред. Н.А.Белякова, А.П.Щербо.- С.Петербург, 2002.- 475 С.