Валидность теста

Куретон (Cureton), 1971). В сущности, она включает: получение набора показателей претендента для отдельного метода; ожидание, пока пройдет определенный промежуток времени; и затем проведение того же теста для тех же исполнителей. Главный недостаток этого подхода заключается в том, что претенденты могут извлечь уроки из первого теста и улучшить свои показатели при повторном тестировании, что в итоге может снизить коэффициент достоверности. Можно сделать вывод, что временной интервал между выполнениями задания (применениями инструмента измерения) очень важен.

В общем, чем короче период времени, тем вероятнее, что эффект извлечения уроков из первого теста сыграет свою роль. В равной степени, если временной интервал слишком велик, другие факторы (например опыт) могут повлиять на результат, что снова может понизить достоверность средства измерения. Трудно предложить оптимальный интервал времени для повторного тестирования, но обычно оно проводится спустя некоторое время - от одного до трех месяцев. Если есть два разных варианта одного и того же теста или процедуры отбора, коэффициент достоверности может быть оценен путем корреляции показателей обоих вариантов. Этот тип достоверности называется достоверность параллельных форм, но он считается непрактичным для большинства целей из-за дорогостоящего, отнимающего много времени процесса, необходимого для разработки двух отдельных форм средства измерения. Поэтому метод параллельных форм обычно используется, когда два варианта теста уже существуют по другой причине.

Оба варианта должны быть сбалансированы друг с другом в показателях границ действия, трудности, качества содержания и т.д. В противном случае полученный коэффициент достоверности будет просто отражать менее удовлетворительный вариант, маскируя тем самым надлежащую достоверность лучшего варианта. Это может вести к тому, что обе варианта будут исключены их процедуры отбора, даже если лучший вариант отличается высокой степенью достоверности.

Также проблемы могут появляться в процессе применения этих двух средств измерений. Если претенденты не выполняют задания обоих вариантов одинаково (в состоянии повышенного внимания и долгих размышлений над обоими вариантами), достоверность, скорей всего, будет преуменьшена. Аналогично, если у претендентов во время выполнения обоих вариантов разное настроение, оценка достоверности может оказаться завышенной.
Чаще используемый метод, основанный на логике параллельных форм - метод внутренней последовательности. Вместо разработки двух параллельных форм одного теста один тест делится на две части (например нечетные и четные числа). Затем показатели двух частей коррелируют один с другом. Главное преимущество этой формы достоверности заключается в ее удобстве, приводящем к более низкими суммарным затратам.

Тем не менее важно осознавать, что у этой формы достоверности могут быть некоторые ограничения. Простое разделение количества статей пополам в любой данной шкале приводит к снижению оценок достоверности, потому что короткие шкалы менее Достоверны, чем длинные. Это недооценка может быть исп-Равлена с помощью формулы Спирмана - Брауна Spearman-Brown) (см. Смит и Робертсон (Smith and Robertson), 1993a).

Однако на практике использование компьютерных программ типа SPSS (Statistical Package for the Social Sciences) устраняет потребность в использовании формулы, потому что оценки достоверности могут быть получены из методики, которая задействует все пункты в тесте. Самые распространенные индексы внутренней устойчивости - индекс Альфа Кронбаха (Cronbach's Alpha) (1951), используемый, когда статьи теста подсчитываются в форме шкалы оценок, и индекс Кюдера - Ричардсона (Kuder- Richardson) (1937), используемый, когда подсчет идет на основе ответов да / нет. На самом деле средние значения всех возможных разделенных пополам показателей достоверности подсчитываются и тем и другим методами, хотя конечный результат представляет собой небольшое преувеличение общей достоверности средства измерения (приблизительно 3 процента). Из всех различных методов оценки достоверности теста чаще всего издатели тестов останавливают свой выбор на методе внутренней последовательности, используя индекс Альфа Кронбаха или индекс Кюдера - Ричардсона. Другой важной формой достоверности, проиллюстрированной на примере компанией Greatplay, является достоверность оценщиков, используемая для определения уровня согласия между ценщиками.

В основном она используется для интервью или других методов отбора, полагающихся на суждения лиц проводящих отбор. Как правило, оценщики обучены пользоваться точно выраженной системой количественных показателей. Два оценщика подсчитывают небольшую репрезентативную выборку результатов.

Любые расхождения обсуждаются до тех пор, пока оба не придут к согласию по поводу того, как подсчитывать отдельные аспекты. Затем оба оценщика независимо друг от друга подсчитывают полную выборку претендентов. Показатели, полученные одним оценщиком, затем сопоставляют с показателями другого. Желательным считается коэффициент достоверности среди оценщиков свыше 0,8; так как показывает 80 процентов совпадений между показателями оценщиков. Меньший коэффициент свидетельствует о проблемах.

Очевидно, чем ниже коэффициент достоверности, тем большие проблемы это означает. Скорее всего, несмотря на первоначальное соглашение о способах оценки отдельных аспектов качеств кандидата, разные оценщики строят свои суждения на немного отличающихся критериях. Например один может больше уделять внимания образованию кандидата, а другие - опыту работы.

С другой стороны, один оценщик может быть более снисходительным в оценке претендентов, чем другие. Следовательно, очень важно выявить ту характеристику оценки, которая снижает коэффициент достоверности, и решить появившиеся проблемы. В случае использования недостоверных средств измерения могут быть сделаны дорогостоящие ошибки.
Валидность
В равной степени очень важным является понятие валидности, представляющей собой точность измерения. Чтобы быть точной, любая измерительная система должна измерять именно то, для чего она предназначена. Если измерительная система обладает высокой степенью достоверности, но не обеспечивает получения точных результатов, ее валидность считается низкой, и, несмотря на высокую достоверность, у нее плохое качество измерений. Валидность теста - исключительно важный оценочный критерий. Прежде чем применять на практике определенный тест, тот, кто занимается отбором, должен удостовериться в валидности этого теста, - проведя точные измерения его неотъемлемого признака (или признаков).

Это очень ответственный момент, так как прогноз будущего поведения кандидата на работе базируется на результатах таких тестов. Например рассмотрим использование в процессе отбора полиграфа (детектора лжи) для проверки честности кандидатов. В 1986 году был проведен эксперимент: исследователи подвергли тестам на детекторе лжи 1000 человек. 500 из них должны были говорить правду, а 500 - лгать.

Полиграф показал, что 185 человек из группы говорящих правду лгали, а 120 человек из групWы лжецов говорили правду. Эти результаты показывают, что валидность полиграфа как средства измерения честности не является безупречной. Детектор лжи может быть абсолютно достоверным и показывать одинаковые результаты каждый раз при выполнении теста одним и тем же человеком.

Но он не является валидным, потому что дает неправильные результаты и не измеряет честность с безукоризненной точностью.
Строго говоря, признание правильности - валидность - относится скорее к интерпретации показателей, полученных в результате какого-либо теста или метода отбора, чем к интерпретации самих тестов или процедур отбора. Это центральная проблема, поскольку тест может быть валидным при измерении чего-либо одного и не быть валидным при измерении другого. Например разработчики отборочных тестов для программистов-стажеров обычно стараются оценить математические способности тестируемых, чтобы предсказать, как они будут справляться со своей будущей работой. Однако поскольку современное программирование требует прежде всего более высоких уровней способностей к словесно-логическому мышлению, а уже потом математических способностей (Пенней и Лаза-рини (Penney and Lazzarini), 1979), такие тесты несостоятельны для отбора компьютерных программистов. Тем не менее они могут быть валидными при оценке кандидатов, претендующих на вакансии, для которых математические способности важны.

Следовательно, валидность осуществима только в тесной связи с целями, ради которых применялся тест.
Самыми известными дефинициями валидности являются: содержательная достоверность, конструктивная достоверность и достоверность, связанная с критерием. Каждая из них - сама по себе оценочный критерий. Нужно признать, что тест или метод отбора должен обладать всеми тремя типами валидности. Содержательную достоверность часто разделяют на два отдельных аспекта: внешнюю достоверность и собственно содержательную достоверность.

Внешняя достоверность - это восприятие самих кандидатов, насколько правильно проводятся измерения при тестировании.

Содержание раздела

Главная сайта