ТЕСТОЛОГИЯ. ЭТО ДЕЙСТВИТЕЛЬНО ПРОСТО ИЛИ МЫ ЧТО-ТО НЕ ЗАМЕТИЛИ?

С.Л.Плавинский

Зав. кафедрой педагогики высшей медицинской школы и философии СПб МАПО

Преподавание, как и любой другой продукт на рынке, должно отвечать некоторым основным требованиям к качеству. Как оценить качество преподавания? Естественно, сравнивая результаты работы данного преподавателя с результатами работы другого преподавателя той же самой дисциплины. Кроме того, поскольку слушатели/студенты обладают разным базовым уровнем знаний, нас будет интересовать даже не столько их окончательные знания, сколько разность между знаниями до и после прохождения цикла обучения. Теоретически все просто. Выявляем уровень знаний до начала занятий, а затем после их завершения и, сравнивая оба показателя, решаем, какой преподаватель лучше объясняет материал. А теперь задумаемся, какой преподаватель будет на финальном экзамене ставить плохие оценки, зная, что они будут использоваться для анализа его работы. Ладно, сделаем так, чтобы финальный экзамен принимали другие преподаватели (другого учреждения? и сколько это будет стоить?). Однако сама проблема не исчезает. Опросить в течение короткого периода времени по всем пройденным разделам сложно, более того, вопросы разным слушателям будут задаваться разные. Как же эту проблему разрешить?

Ответ на данный вопрос уже несколько лет повторяется на все лады. Необходимо вводить тестовый контроль. Улучшать существующие тестовые задания. Разрабатывать новые. Ну вот, вроде бы и все достаточно просто. Создаем вопросы с вариантами ответов, даем каждому слушателю около ста подобных вопросов и имеем объективную картину знаний. Надо только сделать так, чтобы вопросы создавали квалифицированные специалисты, а не старшие лаборанты кафедр…

Итак, у нас есть набор вопросов. Написанный высококвалифицированными специалистами. Мы раздаем их слушателям и анализируем полученные результаты. У преподавателя А средний бал составляет 70%, а у преподавателя Б - 73%. Означает ли это, что преподаватель Б лучше? Если нет, то почему? Интуитивно мы чувствуем, что тестовые задания дают оценку с некоторой ошибкой, но вот с какой?

Один из шутливых законов Мэрфи гласит "Если ничего не помогает, прочтите, наконец, инструкцию". Вот и в данном случае весьма неплохо было бы прочитать инструкцию к тесту. В ней хотелось бы увидеть какова ошибка теста, какую оценку, в среднем, получают слушатели и т.д. Но когда последний раз Вы видели инструкцию к тесту? Когда просматривали психологический тестовый материал. А чем педагогический тестовый материал хуже?

На самом деле ничем. И точно также он требует инструкции по эксплуатации или паспорта с описанием сферы применения и точности. Это, кстати, оговорено и в приказе N 1122 Министерства Образования РФ от 17 апреля 2000 г., где перечислены общие данные, которые должны быть представлены для сертификации "педагогических тестовых материалов".

Оценкой качества тестов занимается прикладная наука, называемая тестологией. Эта наука, возникшая в недрах психологии, и во многом полагающаяся на достижения статистики является в настоящий момент обязательным атрибутом обучения преподавателей во многих странах. В терминах тестологии оценка по результатам тестового экзамена не только отражает истинные знания тестируемого, но находится и под влиянием случайной ошибки. Следует задаться вопросом, а что за "знания" мы тестируем? Означает ли, что хорошие знания по кардиологии немыслимы без знаний гематологии или слушатель может хорошо знать одно и плохо разбираться в другом. Если более адекватным является второй вариант, то одна оценка просто не может существовать. Нам необходимо поставить оценку по отдельным разделам, а затем вывести среднюю.

Возьмем один раздел. Естественно, задания могут иметь разный уровень сложности. Если бы задания имели одинаковый уровень сложности, то нам было бы сложно оценивать слушателей. Те, у кого знания превышали бы этот уровень, выполняли бы 100% заданий, а знающие хуже них, делали бы 0%. В идеале мы хотели бы видеть набор заданий разной сложности. Таким образом, что если слушатель выполняет задание 30% сложности, то он спокойно выполняет и задания 10% сложности и 5% сложности, однако не может выполнить задание 40% сложности. Сложность определить кажется просто - сосчитать число не ответивших на задание правильно, а затем разделить на общее число тестируемых. Чем меньше отвечает правильно, тем сложнее задание. Сразу задумаемся о вопросах с нулевой и 100% сложностью - на них никто не может ответить или может ответить любой. Какую полезную информацию несут подобные задания? Никакой, поэтому они должны исключаться из тестовых наборов.

Теперь мы должны расположить задания в порядке возрастающей сложности. Если теперь расположить в порядке возрастания суммарной оценки результаты слушателей, то должна сформироваться яркая зависимость. На более сложные задания отвечают только те слушатели, которые набрали более высокий средний балл. Подобная шкала оценок называется по имени ее создателя Гутмановской. Однако вполне возможно, что слушатель, набравший невысокий балл, отвечает на относительно сложное задание. Такие отклонения от классической шкалы возможны, однако их не должно быть много. Чем больше таких отклонений, тем менее точной будет суммарная оценка. Представим теперь себе ситуацию, в которой из слушателей, ответивших на большее количество вопросов нашего тестового экзамена, ни один не ответил на вопрос N 12, в то время как почти 50% всех двоечников ответили на него правильно. Возможны два варианта: неправильно сформулированный вопрос или мы перепутали двоечников с отличниками и неправильно сформулировали все остальные вопросы. Второй вариант будет явно более популярен среди двоечников, однако мы вряд ли захотим обсуждать его с ними всерьез. Данный вопрос явно выбивается из описанной нами шкалы и должен быть пересмотрен или удален из базы вопросов. Для оценки совпадения между результатами ответа на данный вопрос и суммарной оценкой используются коэффициент дискриминации задания (разность сложностей задания для "двоечников" и "отличников") и точечно-бисериальный коэффициент корреляции (коэффициент корреляции ответов на этот вопрос и суммарного балла).

Если мы убрали задания, которые явно выбиваются из общей картины ответов, у нас формируется суммарная оценка. Теперь осталось только оценить точность сформированного инструмента оценки. Делается это при помощи показателей надежности. Показатель надежности - это индекс влияния случайной ошибки на получаемые результаты. Если наш тест абсолютно надежен (точен, воспроизводим), то даже если мы выберем часть вопросов суммарный бал не изменится (слушатель, набравший наибольший балл будет продолжать оставаться слушателем с наибольшим баллом). Однако если имеется случайная ошибка, то полной воспроизводимости наблюдаться не будет. Самый простой способ проверки надежности - разделить тест пополам (например, взять все четные и нечетные задания) и посчитать корреляцию между оценками каждого слушателя по этим половинкам теста. Чем выше корреляция - тем меньше влияние случайной ошибки. Однако мы можем разделить тест на две половинки и другим способом (например, два задания подряд в одну группу, затем два подряд в другую). Тогда коэффициент будет немного иным. Величина, которая является средним значением всех возможных коэффициентов надежности при делении пополам называется альфа Кронбаха (формула ее немного иная, но математическую эквивалентность вышесказанному показать можно). Считается, что альфа Кронбаха является важнейшим показателем качества тестового набора. Не в последнюю очередь потому, что зная ее можно оценить точность поставленной оценки. Для этого следует умножить дисперсию оценок в данной группе на квадратный корень из дополнения альфы Кронбаха до единицы. В тестологии часто принято стандартизировать результаты таким образом, чтобы среднее значение по группе составляло 50 баллов, а дисперсия была бы равна 10 (т.н. шкала Т-баллов, от английского teacher - учитель). Тогда для тестового набора с альфа Кронбаха 0,9 (уровень качества тестовых заданий общенациональных лицензионных экзаменов) ошибка измерения составит 10*Ö 0,1=3,2 балла. Для альфа Кронбаха 0,7 (минимально приемлемый уровень) ошибка составит уже 10*Ö 0,3= 5,5 баллов. Следует напомнить, что при использовании Т-шкалы 68% слушателей будут иметь оценки от 40 до 60 баллов и ошибка, которая составляет четверть этого диапазона, лишь маргинально приемлема.

Описанная выше процедура оценки тестов носит название классической теории тестирования . Громадным ее недостатком является то, что для получения надежных результатов необходимо применять тщательно откалиброванный тестовый набор сразу у всех тестируемых. Это повышает время тестирования (хорошисты должны делать достаточно большое количество слишком простых для них заданий, а двоечники - большое количество чересчур сложных) и угрозу списывания и иного нарушения безопасности тестовых данных (проще говоря, воровства тестового набора).

Поэтому в последнее время все больше внимания уделяется тому, что в документах Министерства Образования называется "современной теорией конструирования тестов", однако известно также под названием модели Раша, модели Бирнбаума, теории латентных признаков и компьютерным адаптивным тестированием (эти понятия не синонимы, но являются производной одной психологической концепции) . Идея, в принципе, проста. Вероятность ответа на каждое задание является функцией знаний тестируемого. Мы начинаем с предъявления тестируемого задания среднего уровня сложности. Если он на него отвечает, то предъявляется более сложное задание, Если он на него не отвечает, ему дается задание промежуточной сложности и т.д. Таким образом, мы быстро приходим к тому уровню сложности, который соответствует знаниям слушателя. (Классическая модель Раша предполагает, что наши задания включают тесты с разным уровнем сложности, однако они расположены примерно через одинаковые промежутки на всем диапазоне сложностей; модель Бирнбаума предполагает, что вероятность ответа на тестовое задание зависит не только от уровня сложности, как в случае модели Раша, но и от ее дискриминативной способности и вероятности случайного угадывания ответа). Хотя принцип достаточно прост и позволяет формировать индивидуализированные экзамены, математика, стоящая за отладкой модели Раша весьма не тривиальна (для определения сложностей следует воспользоваться условной логистической регрессией (conditional logit regresion), которая доступна даже не во всех статистических пакетах).

Кроме того, калибровка модели Раша должна быть еще более жесткой, чем даже в случае классической теории тестов. Она должна проводиться на репрезентативной выборке, включающей, по крайней мере , 1000 обследуемых (П.Клайн, 1994). Однако после получения расчетных параметров, модель может использоваться для оценки групп любой численности.

Если обратить внимание на все, что было описано выше, то видно, что ключом к успешному использованию тестов всегда является их проверка на достаточно больших группах слушателей. Просто написание теста специалистами не может являться залогом создания качественного набора вопросов. Иными словами тестология - это не сложно, но это требует работы и, как и любая наука, экспериментальной проверки.

Использование модели Раша в сочетании с компьютерным адаптивным тестированием позволило в США перейти к приему лицензионных экзаменов в течение всего года (а не два раза в год, как было раньше), При этом резко сократилось время между сдачей экзамена и получением финальной оценки (не надо собирать данные по всей стране). Все это было сделано на основе имеющихся данных о качестве используемых тестов. А мы пока не видели ни одного паспорта тестовых заданий по медицине …