Прикладная психометрия что это

Психометрия

Содержание

Начало психометрии

Большая часть ранних исследований в области психометрии была основана на стремлении измерить интеллект. Фрэнсис Гальтон, известный как «отец психометрии», включил ментальные измерения в антропометрические данные. Зарождение психометрии также связано с психофизикой. Два других начинателя психометрии Джеймс Маккин Кеттел и Чарльз Спирмен получили докторские звания в Лейпцигской лаборатории психофизики Вильгельма Вундта.

Психометрист Луис Тёрстоун, основатель и первый президент Психометрического общества, в 1936 году разработал теоретический подход к измерению, который известен как закон сравнительных суждений. Этот подход тесно связан с психофизическими теориями Эрнста Вебера и Густава Фехнера. Также, Спирмен и Тёрстоун внесли большой вклад в развитие факторного анализа.

Карл Пирсон, Генри Кайзер, Джордж Раш, Джонсон О’Коннор, Фредерик Лорд, Ледьярд Тюкер, Артур Дженсен также внесли большой вклад в развитие психометрии.

Область психометрии

Область психометрии связана с количественным подходом к анализу тестовых данных. Психометрическая теория обеспечивает исследователей и психологов математическими моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов. Прикладная психометрия занимается применением этих моделей и аналитических процедур к конкретным тестовым данным. Четырьмя областями психометрического анализа являются нормирование и приравнивание, оценка надежности, оценка валидности и анализ заданий. Каждая из этих областей содержит набор определенных теоретических положений и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае.

Определение понятия «измерение» в социальных науках

Определение измерения в социальных науках имеет долгую историю. В настоящее время широкое определение, предложенное Стэнли Смит Стивенсом (1946), гласит, что измерение «приписывание чисел объектам или событиям по некоторому правилу». Это определение было представлено в работе, в которой Стивенс предложил четыре уровня измерения. Хотя это определение имеет широкое распространение, оно отличается от более классического определения измерения, принятого в физике, которое гласит, что измерение — это численная оценка и выражение одной величины по отношению к другой (Мишель, 1997).

Действительно, определение Стивенса было выдвинуто в ответ Британскому Комитету Фергюсона, председатель которого, А. Фергюсон, был физиком. Комитет был назначен в 1932 году Британской ассоциацией для содействия развитию науки в исследовании возможности количественной оценки сенсорных восприятий. Хотя ее председатель и другие члены были физиками, комитет также включал нескольких психологов. Доклад Комитета подчеркнул важность определения измерения. В то время, как ответ Стивенса заключался в том, чтобы предложить новое определение, которое окажет значительное влияние на эту область, это был не единственный ответ на доклад. Другой, кардинально отличающийся, ответ призывал принять классическое определение, как это отражено в следующем заявление: «Измерение в психологии и физике ни в каком смысле не различны. Физики могут проводить измерения тогда, когда они могут найти операции, с помощью которых можно обнаружить необходимый критерий. Психологи могут не беспокоиться о таинственных различиях в значении «измерения» в двух науках «. (Риз, 1943, стр. 49)

Эти различные точки зрения отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационной матрице, как правило, используют числа, такие как сырые баллы, как измерение. Такой подход неявно влечет за собой определение Стивенса, которое требует только то, что номера присваиваются по некоторому правилу. Таким образом, основной задачей исследований, как правило, считается открытие связей между показателями, и факторов, положенных в основу этих связей.

С другой стороны, когда используется измерительная модель такая, как модель Раша, номера не присваиваются на основе правил. Вместо этого, в соответствии с заявлением Риз выше, конкретные критерии для измерения указаны, а цель состоит в построении процедур или операций, которые предоставляют данные, отвечающие соответствующим критериям. Измерения оцениваются на основе моделей, и испытания проводятся для того, чтобы удостовериться в том, были ли выполнены соответствующие критерии.

Нормирование тестов

Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале.

Существуют 4 основные стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (например, случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, который позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются несколько «анкерных заданий», выполняющих функцию такого «связывающего» теста.

Требования к тестированию

Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям являются обоснованными. Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест-ретест» надежность теста устанавливается путем повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм, на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке.

Валидность характеризует качество выводов, получаемых на основе результатов проведения измерительной процедуры.

Валидность рассматривается как способность теста отвечать поставленным целям и обосновывать адекватность решений, принятых на основе результата. Недостаточно валидный тест не может считаться инструментом измерения и использоваться на практике, поскольку зачастую полученный результат может серьёзно влиять на будущее тестируемого.

Выделяется три вида валидности тестов.

Конструктная (концептуальная) валидность. Её требуется определить, если тест измеряет свойство, имеющее абстрактный характер, то есть не поддающееся прямому измерению. В таких случаях необходимо создание концептуальной модели, которая бы объясняла данное свойство. Эту модель и подверждает или опровергает тест.

Критериальная (эмпирическая) валидность. Показывает, насколько соотносятся результаты теста с неким внешним критерием. Эмпирическая валидность существует в двух видах: текущая критериальная валидность — корреляция результатов теста с выбранным критерием, существующим в настоящее время; прогностическая критериальная валидность — корреляция результатов с критерием, который появится в будущем. Определяет, насколько тест предсказывает проявление измеряемого качества в будущем, учитывая влияние внешних факторов и собственной деятельности тестируемого.

Содержательная валидность. Определяет, насколько соответствует тест его предметной области, то есть измеряет ли он качество, для измерения которого предназначен, у репрезентативной выборки. Чтобы поддержать содержательную валидность теста, необходимы его регулярные проверки на соответствие, так как реальная картина проявления определённого качества может меняться у выборки с течением времени. Оценка содержательной валидности должна произвдится экспертом в предметной области теста.

Процесс валидизации теста должен представлять собой не сбор доказательств его валидности, а комплекс мер по повышению этой валидности.

Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно также вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, которые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, которые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций называется характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя. Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности.

Источник

Психометрик

разрабатывает, адаптирует и анализирует измерительные инструменты применительно к характеристикам личности, компетенциям и навыкам, образовательным достижениям индивидов, карьерному развитию и другим абстрактным атрибутам; оценивает логику, качество и надежность тестов, а также анализирует факторы, которые влияют на их результаты

Валидность, надежность, сопоставимость и справедливость – это не только вопросы, возникающие в задачах количественного измерения; это социальные ценности, которые имеют значение и силу в любой области, где формируются оценочные суждения и выносятся решения

Самуэль Мессик, американский психолог (Источник)

Во многих сферах все больше возникает необходимость в измерении абстрактных атрибутов личности (латентных конструктов) — системного мышления, внимательности, стрессоустойчивости, вовлеченности в процесс, креативности и т.д. Важность такого рода тестов часто очень высока, ведь от их результатов могут зависеть ключевые для организаций и людей решения (прием на работу, выдача водительских прав, сертификатов о получении образования и др.). Это порождает спрос на специалистов по психометрике, которые занимаются разработкой измерительных инструментов, соответствующих международным стандартам качества.

Психометрики разрабатывают тесты и задания, оценивают их логику, результаты — и факторы, которые на них влияют. Ключевая задача — создать инструмент, соответствующий критериям надежности и валидности. Это означает, что результаты качественного теста должны быть воспроизводимыми и не зависеть от условий его проведения, а также быть обоснованным с точки зрения конкретного приложения. То есть, тест должен измерять именно тот конструкт, ради которого он был создан: например, при анализе теста на оценку за прохождение онлайн-курса психометрику важно понимать, какой процент ответов обусловлен угадыванием, а какой — реальными знаниями слушателя. Специалисты по психометрике востребованы в HR-департаментах коммерческих и государственных компаний, проектах, связанных с рекрутментом, управлением талантами и оценкой персонала, в научных и консалтинговых организациях, создающих инструменты для оценки качества образования, в сфере маркетинга (анализ поведения клиентов), психодиагностики и психологических измерений.

Источник

Психометрия это область исследования, связанная с теорией и техникой психологический измерение. По определению США Национальный совет по измерениям в образовании (NCME), психометрия относится к психологическим измерениям. Как правило, это относится к области психологии и образования, которая посвящена тестированию, измерению, оценке и связанной с ними деятельности. [1]

Поле связано с целью измерение навыков и знаний, способностей, взглядов, черты характера, и образовательные достижения. Некоторые исследователи психометрии сосредотачиваются на создании и проверке инструментов оценки, таких как анкеты, тесты, суждения оценщиков, шкалы психологических симптомов и личностные тесты. Другие сосредоточены на исследованиях, касающихся теории измерений (например, теория ответа элемента; внутриклассовая корреляция).

Практикующих называют психометристами. Психометрики обычно обладают определенной квалификацией, и большинство из них психологи с повышением квалификации в аспирантуре. Помимо традиционных академических институтов, многие психометристы работают на правительство или в человеческие ресурсы отделы. Другие специализируются как Обучение и развитие профессионалы.

Содержание

Исторический фундамент

Викторианский ручей

Чарльз Дарвин был вдохновителем сэра Фрэнсиса Гальтона, который привел к созданию психометрии. В 1859 году Дарвин опубликовал свою книгу О происхождении видов, который был посвящен роли естественного отбора в возникновении с течением времени различных популяций видов растений и животных. В книге рассказывается, как отдельные члены разновидность различаются и как они обладают характеристиками, более или менее адаптивными к окружающей среде. Те, кто обладает более адаптивными характеристиками, с большей вероятностью произведут потомство и дадут начало следующему поколению. Те, у кого менее адаптивные характеристики, менее склонны к деторождению. Эта идея стимулировала интерес Гальтона к изучению людей и того, чем они отличаются друг от друга, и, что более важно, как измерить эти различия.

Гальтон написал книгу под названием Потомственный гений о различных характеристиках, которыми обладают люди, и о том, как эти характеристики делают их более «подходящими», чем другие. Сегодня эти различия, такие как сенсорное и двигательное функционирование (время реакции, острота зрения и физическая сила), являются важными областями научной психологии. Большая часть ранних теоретических и прикладных работ в области психометрии была предпринята в попытке измерить интеллект. Гальтон, которого часто называют «отцом психометрии», разработал и включил ментальные тесты в свои антропометрический меры. Джеймс Маккин Кеттелл, который считается пионером психометрии, продолжил работу Гальтона. Кеттелл также ввел термин ментальный тест, и отвечает за исследования и знания, которые в конечном итоге привели к разработке современных тестов. [3]

Немецкий поток

Происхождение психометрии также связано со смежной областью психофизика. Примерно в то же время, когда Дарвин, Гальтон и Кеттелл делали свои открытия, Гербарт также был заинтересован в «раскрытии тайн человеческого сознания» с помощью научного метода. [3] Гербарт отвечал за создание математических моделей сознания, которые в последующие годы сыграли важную роль в образовательной практике.

E.H. Вебер опирался на работу Гербарта и пытался доказать существование психологического порога, говоря, что для активации сенсорной системы необходим минимальный стимул. После Вебера Г. Фехнер расширил знания, которые он почерпнул у Гербарта и Вебера, чтобы разработать закон, согласно которому сила ощущения растет как логарифм интенсивности раздражителя. Последователь Вебера и Фехнера, Вильгельм Вундт считается основоположником психологии. Именно влияние Вундта открыло другим путь к развитию психологического тестирования. [3]

20 век

В 1936 году врач-психометр Л. Л. Терстон, основатель и первый президент Психометрического общества, разработал и применил теоретический подход к измерению, получивший название закон сравнительного суждения, подход, тесно связанный с психофизической теорией Эрнст Генрих Вебер и Густав Фехнер. Кроме того, Спирмен и Терстон внесли важный вклад в теорию и применение факторный анализ, статистический метод, разработанный и широко используемый в психометрии. [ нужна цитата ] В конце 1950-х гг. Леопольд Сонди провели историческую и эпистемологическую оценку воздействия статистического мышления на психологию в течение предыдущих нескольких десятилетий: «в последние десятилетия специфическое психологическое мышление было почти полностью подавлено и удалено и заменено статистическим мышлением. Именно здесь мы видим рак тестологии и тестомании сегодняшнего дня «. [4]

Совсем недавно психометрическая теория была применена для измерения личность, отношения, и верования, и академическая успеваемость. Измерение этих ненаблюдаемых явлений затруднено, и большая часть исследований и накопленных научных знаний в этой дисциплине была разработана в попытке правильно определить и количественно оценить такие явления. Критики, в том числе практики физические науки и общественные деятели, утверждали, что такое определение и количественная оценка невозможно, и что такие измерения часто используются неправильно, например, с психометрическими личностными тестами, используемыми в процедурах приема на работу:

«Например, работодатель, который хочет, чтобы кто-то занимал должность, требующую постоянного внимания к повторяющимся деталям, вероятно, не захочет отдавать эту работу тому, кто очень креативен и быстро устает». [5]

Определение измерения в социальных науках

Действительно, определение измерения Стивенса было предложено британским комитетом Фергюсона, председатель которого А. Фергюсон был физиком. Комитет был назначен в 1932 году Британской ассоциацией развития науки для исследования возможности количественной оценки сенсорных событий. Хотя его председатель и другие члены были физиками, в комитет также входили несколько психологов. В отчете комитета подчеркивается важность определения измерения. Хотя в ответ Стивенс предложил новое определение, оказавшее значительное влияние в данной области, это ни в коем случае не было единственным ответом на отчет. Другой, заметно отличающийся, ответ заключался в том, чтобы принять классическое определение, которое отражено в следующем утверждении:

Измерения в психологии и физике ничем не отличаются. Физики могут измерить, когда они могут найти операции, с помощью которых они могут соответствовать необходимым критериям; психологи должны делать то же самое. Им не нужно беспокоиться о таинственных различиях между значением измерения в двух науках (Reese, 1943, стр. 49). [7]

Эти расходящиеся ответы отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационные матрицы обычно используются на том основании, что числа, такие как исходные баллы, полученные на основе оценок, являются измерениями. Такие подходы неявно влекут за собой определение измерения Стивенсом, которое требует только, чтобы числа были назначенный по какому-то правилу. Таким образом, основной задачей исследования обычно считается обнаружение ассоциаций между оценками и факторов, лежащих в основе таких ассоциаций. [8]

С другой стороны, когда модели измерения, такие как Модель раша работают, номера не присваиваются на основании правила. Вместо этого, в соответствии с заявлением Риза, приведенным выше, устанавливаются конкретные критерии для измерения, а цель состоит в том, чтобы создать процедуры или операции, которые предоставляют данные, соответствующие соответствующим критериям. Измерения оцениваются на основе моделей, и проводятся тесты, чтобы убедиться, что соответствующие критерии соблюдены. [ нужна цитата ]

Инструменты и процедуры

Первый [ нужна цитата ] психометрические инструменты были разработаны для измерения концепции интеллект. [9] Один исторический подход включал Стэнфорд-Бине IQ тест, первоначально разработанная французским психологом Альфред Бине. Альтернативная концепция интеллекта состоит в том, что познавательные способности людей являются проявлением общего компонента или фактор общего интеллекта, а также когнитивные способности, характерные для данной области. [ нужна цитата ]

Еще один важный аспект психометрии был сделан на тестирование личности. Существует ряд теоретических подходов к концептуализации и измерению личности. Некоторые из наиболее известных инструментов включают Миннесотский многофазный опросник личности, то Пятифакторная модель (или «Большая пятерка») и такие инструменты, как Инвентаризация личности и предпочтений и Индикатор типа Майерс-Бриггс. Отношения также широко изучались с использованием психометрических подходов. [ нужна цитата ] Распространенным методом измерения отношения является использование Шкала Лайкерта. Альтернативный метод предполагает применение развернутых моделей измерения, наиболее распространенной из которых является модель гиперболического косинуса (Andrich & Luo, 1993). [10]

Теоретические подходы

Психометристы разработали ряд различных теорий измерения. К ним относятся классическая теория тестирования (CTT) и теория ответа элемента (IRT). [11] [12] Подход, который математически кажется похожим на IRT, но при этом весьма отличительным с точки зрения его происхождения и особенностей, представлен Модель раша для измерения. Развитие модели Раша и более широкого класса моделей, к которому она принадлежит, было явно основано на требованиях измерения в физических науках. [13]

В последнее время, структурное моделирование уравнение [17] и анализ пути представляют собой более сложные подходы к работе с большими ковариационные матрицы. Эти методы позволяют подобрать статистически сложные модели к данным и протестировать их, чтобы определить, являются ли они адекватными. Поскольку на детальном уровне психометрические исследования касаются степени и природы многомерности каждого из интересующих элементов, существует относительно новая процедура, известная как двухфакторный анализ. [18] [19] [20] может быть полезным. Двухфакторный анализ может разложить «систематическую дисперсию элемента, в идеале, с точки зрения двух источников, общего фактора и одного источника дополнительной систематической дисперсии». [21]

Ключевые идеи

И надежность, и валидность можно оценить статистически. Согласованность повторных измерений одного и того же теста можно оценить с помощью коэффициента корреляции Пирсона, который часто называют тест-ретест надежность. [22] Точно так же эквивалентность разных версий одной и той же меры может быть проиндексирована Корреляции Пирсона, и называется эквивалентные формы надежности или аналогичный термин. [22]

Есть несколько различных форм действительности. Связанная с критерием валидность относится к степени, в которой тест или шкала предсказывают образец поведения, то есть критерий, который является «внешним по отношению к самому измерительному прибору». [23] Этот внешний образец поведения может быть множеством вещей, включая еще один тест; средний балл в колледже, как если бы SAT старшей школы использовался для прогнозирования успеваемости в колледже; и даже поведение, которое имело место в прошлом, например, когда тест на текущие психологические симптомы используется для прогнозирования возникновения прошлой виктимизации (что точно отражает постдикт). Когда критерий измерения собирается одновременно с измерением, которое проверяется, цель состоит в том, чтобы установить одновременное действие; когда критерий собирается позже, цель состоит в том, чтобы установить прогностическая достоверность. Мера имеет конструировать действительность если это связано с мерами других конструкций, как того требует теория. Содержание действия это демонстрация того, что элементы теста адекватно покрывают измеряемую область. В примере отбора персонала содержание теста основано на определенном утверждении или наборе утверждений о знаниях, навыках, способностях или других характеристиках, полученных от Анализ работы.

Теория отклика предмета моделирует отношения между скрытые черты и ответы на тестовые задания. Помимо других преимуществ, IRT обеспечивает основу для получения оценки местоположения испытуемого по заданному скрытому признаку, а также стандартной ошибки измерения этого местоположения. Например, знания студента университета по истории можно вывести из его или ее баллов за университетский тест, а затем надежно сравнить со знаниями старшеклассника, полученными в результате менее трудного теста. Баллы, полученные с помощью классической теории тестирования, не имеют этой характеристики, и оценка фактических способностей (а не способностей по сравнению с другими тестируемыми) должна оцениваться путем сравнения баллов с баллами «нормальной группы», случайно выбранной из совокупности. Фактически, все показатели, полученные из классической теории тестирования, зависят от тестируемой выборки, в то время как, в принципе, меры, полученные из теории ответов на вопросы, не зависят.

Стандарты качества

Соображения срок действия и надежность обычно рассматриваются как важные элементы для определения качественный любого теста. Однако профессиональные ассоциации и ассоциации практиков часто помещают эти проблемы в более широкий контекст при разработке стандарты и вынесение общих суждений о качестве любого теста в целом в заданном контексте. Во многих прикладных исследованиях вызывает беспокойство вопрос о том, является ли показатель данного психологического инвентаря значимым или произвольным. [27]

Стандарты тестирования

Стандарты оценки

В области оценка, и в частности образовательная оценка, то Объединенный комитет по стандартам оценки образования [29] опубликовал три набора стандартов оценки. Стандарты оценки персонала [30] был опубликован в 1988 г., Стандарты оценки программ (2-е издание) [31] был опубликован в 1994 г. Стандарты оценки студентов [32] был опубликован в 2003 году.

В каждой публикации представлен и разработан набор стандартов для использования в различных образовательных учреждениях. Стандарты содержат руководящие указания по разработке, внедрению, оценке и совершенствованию определенной формы оценки. [33] Каждый из стандартов был помещен в одну из четырех основных категорий, чтобы способствовать правильности, полезности, выполнимости и точности образовательных оценок. В этих наборах стандартов вопросы достоверности и надежности рассматриваются в разделе «Точность». Например, стандарты точности учащихся помогают гарантировать, что оценки учащихся будут предоставлять надежную, точную и достоверную информацию об обучении и успеваемости учащихся.

Нечеловеческие: животные и машины

Адреса психометрии человек способности, отношения, черты характера и образовательная эволюция. В частности, изучение поведения, психических процессов и способностей нечеловеческих животные обычно рассматривается сравнительная психология, или с континуумом между нечеловеческими животными и остальными животными эволюционная психология. Тем не менее, есть некоторые сторонники более постепенного перехода от подхода, применяемого для людей, к подходу, применяемому для (нечеловеческих) животных. [34] [35] [36] [37]

Оценка способностей, черт и эволюции обучения машины в основном не имеет отношения к человеку и животным, не относящимся к человеку, с конкретными подходами в области искусственный интеллект. Также был предложен более комплексный подход под названием универсальная психометрия. [38]

Прикладная психометрия что это

Психометрия

Содержание

Начало психометрии

Область психометрии

Определение понятия «измерение» в социальных науках

Нормирование тестов

Требования к тестированию

Психометрик

Содержание

Исторический фундамент

Викторианский ручей

Немецкий поток

20 век

Определение измерения в социальных науках

Инструменты и процедуры

Теоретические подходы

Ключевые идеи

Стандарты качества

Стандарты тестирования

Стандарты оценки

Нечеловеческие: животные и машины

Смотрите также

Рекомендации

Библиография

Примечания