Интрепретируемость

Сама по себе внешняя достоверность в действительности вообще не является типом валидности. Некоторые исследователи утверждают, что внешняя валидность неважна (см. Мозьер (Mosier), 1947, полное освещение дискуссии), но на самом деле она имеет очень большое практическое значение, поскольку часто становится причиной, по которой или компания или кандидаты отбраковывают тест. Предполагается, что, несмотря на низкую валидность специальных интервью, они широко применяются именно из-за внешней достоверности. Содержательная достоверность как таковая решает проблему отбора образцов, имеющих отношение к процессу измерения.

Содержание любого измерения может быть визуализировано в виде выборки вопросов, заданий или типов поведения, отражающих измеряемую структуру. Обеспечение содержательной достоверности - двухфазовый процесс. Первая фаза фокусируется на вопросе, отражает ли метод отбора все известные характеристики рассматриваемой работы (например навык межличностных отношений, экстраверсия).

Обычно этого достигают, сравнивая измеряющий инструмент и квалификационные требования и требования к персоналу, разработанные на основе анализа содержания работы. Вторая фаза оценивает, насколько точно все задачи измеряющего инструмента отражают отличительные черты того, что измеряется. Например, если тест предназначен для измерения общих математических способностей, но не включает заданий по сложению или вычитанию, его содержательная Достоверность будет низкой.

Но если этот же тест разрабатывался только для измерения способностей кандидата к умножению и делению, достоверность его содержания может быть высокой. Потенциально конструктивная достоверность является самым полезным типом валидности, но в то же время она, как правило, - самый неопределенный и сложный из всех типов валидности. Кронбах и Мил (Cronbach and Meehl) (1955) определяют конструкцию - или обобщенный мысленный образ - как некий постулированный атрибут человека, предположительно отражаемый в выполнении теста. Как таковой, этот тип валидности пытается ответить на вопрос: В чем состоит психологический смысл этих показателей, и как эти показатели соотносятся с другими измерениями? Следовательно, конструктивная достоверность имеет дело со степенью соответствия предполагаемого образа и реальности. Возьмем, к примеру Job Choice Exercise, разработанный Майклом Сталом (Michael Stahl) в 1983 году и примененный компанией Greatplay Inc. для выявления признаков управленческой мотивации.

Управленческая мотивация не является некоей физической сущностью, это просто ярлык, применяемый для описания интенсивности и направленности поведения, состоящий из двух образов: Потребности Власти (NPow) - описательного названия, отражающего потребность влиять на других, и Потребности Успеха (NAch) - описательного названия, отражающего потребность ставить цели и достигать их. Чтобы определить конструктивную достоверность, Стал проверил гипотезу, что человек, обладающий высокой управленческой мотивацией, получит высокие показатели на шкалах NPow и NAch, и наоборот, показатели человека с низкой управленческой мотивацией будут низкими. Он измерил показатели 1417 респондентов разных профессий - и синих воротничков, и управленческого персонала, - работающих в различных областях.

Он обнаружил, что те, кто получили высокие показатели на шкалах NPow и NAch, имели более высокий темп продвижения по службе, чем те, чьи показатели были низкими. Обладатели высоких показателей в большей степени оказывались лидерами, чем обладатели низких показателей; среди первых оказалось больше менеджеров, чем среди вторых. На основании этих результатов мы можем сделать вывод, что образ управленческого поведения обладает значительной степенью доверия. Следовательно, Стал в сущности испытывал конструктивную достоверность идеи, скрывающейся за тестом, а не сам тест. Однако, как и в этом случае, часто довольно трудно разделить свидетельства валидности, обеспечиваемые этим подходом, от свидетельств достоверности, связанной с критерием.

Более рельефный метод установления конструктивной достоверности вновь разработанного теста заключается в корреляции показателей нового теста с показателями заслуживающего доверия теста, точно отражающего данный образ. Например конструктивная достоверность теста на экстраверсию может быть установлена путем корреляции нового измерения экстраверсии с признанным тестом на экстраверсию. Конструктивная достоверность измерения также может быть определена статистическими методами, такими как исследовательский и подтверждающий факторный анализ, с помощью компьютерных программ.

Но эти методики выходят за рамки исследования нашей книги; интересующийся этими вопросами читатель может обратиться к работам Джорескога и Сорбома (Joreskog and Sorbom) (1988), Бентлера (Bentler) (1989) или Фергюсона и Кокса (Ferguson and Cox) (1993).
Осведомленность о конструктивной достоверности теста может также помочь в оценке применимой достоверности, связанной с критерием. Как было продемонстрировано на примере компании Greatplay Inc., достоверность, связанная с критерием, касается отношений между применяемым тестом и выполнением работы по какому-то критерию (например выполнением производственных заданий). Прогнозирующая достоверность показывает, насколько сильно определенный тест связан с последующим выполнением работы. Но определение прогнозирующей достоверности нового теста может включать определенную долю риска и стоить довольно дорого.

Предположим, компания Greatplay Inc. разработала новый тест определения управленческой Мотивации и наняла работников, основываясь на результатах теста; а некоторое время спустя представители компании решили оценить, как выполнил работу каждый из приятых работников, и соотнести полученные показатели с первоначальными результатами. Предположим, они получили низкую корреляцию. Так как соответствие между первоначальным тестом и показателями выполнения работы служат признаком прогнозирующей достоверности теста, Greatplay Inc. обнаружит, что наняла много неподходящих кандидатов. В этом и заключается риск, на который многие компании не хотят идти из-за высоких издержек. Практический способ преодоления этой проблемы заключается в том, чтобы предложить всем кандидатам новый тест, но при этом выбрать кандидатов на основании других, укоренившихся методов.

Через некоторое время нужно сравнить показатели выполнения работы успешными кандидатами с их же показателями, полученными при выполнении нового теста. Если корреляция окажется высокой, показав, что новый тест обладает высокой прогнозирующей достоверностью, этот тест можно использовать в последующих процедурах отбора. Естественно, итоговый коэффициент валидности повлияет не только на точность нового теста, но и на средства измерения выполнения работы.

Это очень важно, поскольку часто большие усилия направлены на то, чтобы сделать новый тест точным, а средства измерения выполнения работы почти совершенно игнорируются.
Еще одна процедура оценки достоверности, связанной с критерием, - установление согласующейся достоверности. Это способ предусматривает применение методов отбора к существующим работникам и измерение их текущего выполнения работы. Затем эти два показателя сверяются друг с другом.

Преимущества этого метода заключаются в быстроте установления валидности измерения и в меньших затратах. Однако у этого метода есть свои недостатки: во-первых, реальные работники обладают более низкой мотивацией, чем потенциальные, и поэтому могут отвечать некорректно, что может привести к неверной оценке коэффициента валидности; во-вторых, реальные работники, скорее всего, хорошо выполняют свою работу, иначе они перешли бы на другую или покинули бы компанию. Это означает, что, возможно, диапазон полученных показателей теста будет ограничен, что почти всегда имеет результатом более низкий коэффициент валидности, чем он есть на самом деле. Эта проблема может быть решена при помощи математических формул (см. Смит и Робертсон, 1993а).

Особый тип согласующейся достоверности, способный преодолеть эти затруднения, - методика номинированных групп, базирующаяся на использовании двух групп людей с различающимися характеристиками, подлежащими измерению. Например это группа добросовестных работников со стажем, обладающих хорошими показателями выходов на работу, и группа молодых работников. Разработанный тест на добросовестность можно испытать на этих группах.

Измерение будет эффективным, если результаты покажут четкое различие показателей этих групп, с более высокими показателями в группе старших работников. Если между показателями обеих групп вообще не будет никакой разницы, измерение нельзя признать достоверными.
Интрепретируемость
Разработка достоверного и эффективного метода еще не гарантирует, что хороших кандидатов можно будет легко отличать от плохих. Чтобы это произошло, кандидаты должны быть ранжированы каким-то образом. Так как ранжирование обычно происходит на основании показателей теста, то особенно важно, чтобы показатели кандидатов отражали их способности.

Например, если отборочное собеседование при приеме на работу или тест на способности были такими легкими, что их прошли все кандидаты, или, наоборот, такими трудными, что никто не смог их выполнить, тот, кто производит отбор, за деревьями не увидит леса.

Содержание раздела

Главная сайта