Интервью с Юлией Тюменевой о проблемах измерений и количественной психологии
Психологические тесты используются в самых разных сферах — от профориентации и трудоустройства до подбора психотерапевта. Но достаточно ли ответов на вопросы типа «Согласны ли вы…?», чтобы судить о личности и её развитии? Мы побеседовали с Юлией Алексеевной Тюменевой, кандидатом психологических наук и доцентом Института образования НИУ ВШЭ, которая занимается проблемами психологического измерения. В ходе нашего разговора выяснилось, что столь привычный нам формат теста не так прост: за ним стоят многочисленные допущения, далеко не всегда проверенные на прочность.
Интервью подготовлено студентами магистерской программы НИУ ВШЭ «Обучение и оценивание как наука» Тихонюком Алексеем и Павловой Екатериной, у которых в ходе обучения появилось множество вопросов о том, действительно ли возможно делать выводы о личных качествах и квалификации людей на основании тестовых баллов.
— Дискуссии вокруг научного статуса психологии длятся уже больше века, и конца им не видно. Ваша научная работа как раз посвящена проблемам психологического измерения. Расскажите, почему так сложно делать выводы о чертах человека на основании тестов?
— Это сложный вопрос, начну с примера. Представьте, что я хочу измерить вашу экстраверсию и спрашиваю вас: Согласны ли вы с утверждением «Мне легко заводить новые знакомства». Я использую обычный для опросников формат пятибалльной шкалы Ликерта: 1 — полностью несогласен, 2 — скорее не согласен, 3 — ни согласен, ни не согласен, 4 — скорее согласен, 5 — полностью согласен.
На чем основана такая практика? На серии допущений. Допущение — это промежуточное рассуждение, которое я принимаю за верное, но я не знаю, верно ли оно на самом деле. Например, что экстраверсия – это некоторая «латентная черта», то есть скрытая характеристика, которая у всех людей есть в разном «количестве»; что именно «количество» экстраверсии будет влиять на ответы; что ответ про новые знакомства вызван этой «латентной» экстраверсией; что все люди одинаково интерпретируют утверждения опросника и метрику шкалы и т.д. Но каждое из этих допущений должно быть поставлено под сомнение.
Например, очевиден ли для вас переход от оценки согласия с утверждением к выводу о степени проявления психологической черты? Какой механизм за этим стоит? Как вообще люди понимают этот вопрос? Может ли какой-то другой фактор — текущая ситуация, жизненный опыт, требования работы, владение языком — объяснить ответ испытуемого?
Вот в какой степени лично вы согласны с утверждением «Мне легко заводить новые знакомства»? Как вы принимаете решение, какой балл выбрать?
— Пожалуй, 3 — «ни согласна, ни не согласна». Иногда знакомиться легко, а иногда нет.
— То есть вы смотрите на процент случаев, когда вам легко было устанавливать контакт с новым человеком. Вы оценивали не лёгкость контакта, вы оценивали частоту. А ведь вопрос был про то, насколько «легко».
Другой человек оценит внутреннее сопротивление при подходе к незнакомому человеку. Третий человек оценит не долю, не сопротивление, а что-то совершенно другое. А мы считаем, что все понимают задание одинаково, — это ещё одно допущение.
Или рассмотрим ещё один процесс. Когда вы думаете о частоте, вы понимаете вопрос в процентах, не в баллах от 1 до 5. То есть ваша личная шкала, не совпадающая со шкалой в задании, будет как-то наложена на пятибалльную ответную шкалу. Центр внутренней шкалы может и не совпасть с центром шкалы в задании. Необязательно также, что расстояние между 1 «Совсем не согласен» и 2 «Не согласен» будет тем же, что расстояние между 2 и 3 «Ни согласен, ни не согласен». Этого и не произойдёт, если я пользуюсь чем-то вроде логарифмической шкалы.
— Даже шкала может быть несимметричной: если утверждение представляет какое-то стигматизированное мнение, то мне будет гораздо сложнее с ним согласиться. Тогда расстояние между нейтральной позицией и согласием будет гораздо больше, чем между нейтральной позицией и несогласием?
— Так и есть. Получается, что степень согласия с утверждением — это не всегда то же самое, что количество черты, утверждения понимаются людьми по-разному, а внутренняя шкала тестируемого как-то накладывается на эту черту без сохранения центра или расстояний. А теперь умножьте это все на то, что люди разные. Мало того, что допускается, что допущения верны, так ещё и предполагается, что между людьми различий не будет. Допущения действительно могут быть верны, но это же нужно обосновывать или эмпирически проверять!
Подведём итог. Даже если черта существует и качественно одинакова у всех, все равно тестирование — это уравнение с двумя неизвестными. Во-первых, есть уровень «экстраверсии», который я не знаю, и у меня нет способа его оценить помимо применения практики тестирования, которая уже поставлена под сомнение. Во-вторых, есть неизвестная функция, связывающая экстраверсию с тестовым баллом. Может, эта функция линейная, а может нет. Возможно, у разных людей она имеет одну форму, а возможно — разную. Это чёрный ящик. Мы можем сколько угодно улучшать тесты или анализ данных, но к «чертам» или «способностям» у нас нет прямого доступа. Если бы по итогу теста самым амбициозным выводом было «Средний балл по шкале экстраверсии составил 3,2 балла», то и прекрасно. C этим невозможно поспорить. Но никто не останавливается на этом! Выводы-то делаются не о количестве баллов, а о количестве черты.
— Сейчас психометрика действует в рамках допущений как аксиом. Возможно, что когда появятся способы от них отказаться, то психометрика и начнёт измерять иначе?
— В том-то и состоит проблема, что это не аксиомы, это допущения, и об их наличии очень мало кто говорит. Никто не проверяет истинность допущений, потому что они как бы скрыты общепринятой практикой — «все так делают». В итоге, возможно, психометрика строит свои выводы на песке.
— Эти допущения имеют фундаментальный характер, но не обсуждаются в базовых учебниках по психологии и психометрике. Почему так получилось?
— Об этом есть прекрасная книжка Джоэла Мичелла, которая читается как детектив[i]. Я расскажу вам основную идею. Научная психология, начавшаяся в конце XIX века, имела сомнительных предшественников: мистицизм, столовращение, френология… Все поменялось, когда появились психофизики — физики, которые решили сделать психологию наукой.
— Сделать наукой в соответствии с каким критерием научности?
— На рубеже 19-20 веков считали, что наука должна измерять. Без измерений на научные знания претендовать нельзя. Пришла эта идея от Пифагора, который считал, что все на свете есть цифры. Правда он имел в виду, конечно, физический мир. Когда после Средневековья началось развитие европейской науки, то математика, астрономия и позже физика развивались быстрее всего. Если математика была довольно абстрактной, то физика была по-человечески понятной. В том смысле, что её результаты были сразу видны. Прогресс физики действительно впечатляет: от законов механики и гравитации Ньютона и теории электричества до волновой теории света, оптики и законов термодинамики. В итоге «измеряющая» наука стала образцом для других наук. Неудивительно поэтому, что и психология кроила себя по лекалам физики.
Основное, классическое значение термина «измерение» следующее: измерить — значит понять, сколько раз единица измерения «помещается» в измеряемое. Если вам надо измерить длину стола, вы берете что-то за единицу измерения, можно вот в карандашах измерить, а можно в метрах, и считаете. То есть берём единицу измерения и прикладываем её к объекту.
Эксперименты психофизика Густава Фехнера были другими: он изучал восприятие света. Он светил вам лампочкой в лицо и просил запомнить яркость света. Потом светил более сильной лампочкой. Его целью было установить, как восприятие изменения её яркости связано с реальной разницей яркостей. Фехнер пытался понять, во сколько раз более яркую лампочку вы назовёте в два раза более яркой. Однако в индивидуальных случаях закономерности не обнаруживалось, потому что люди всё время путались. Мичелл ссылается на лабораторные записи Фехнера и показывает, к каким ухищрениям приходилось прибегнуть, чтобы добиться ожидаемых непротиворечивых ответов. Однако, если взять много людей и усреднить, то вроде бы как с большими погрешностями получался логарифмический закон. То есть нужно в 4 раза сделать лампочку ярче, чтобы вам она показалась в 2 раза более яркой. Но на отдельном человеке эти цифры никогда в точности не воспроизводятся! Мичелл считает, что именно физическое образование первых психофизиков заставляло их настаивать на количественных закономерностях в субъективных ощущениях человека.
— Пришлось ли им признать, что с психологическим измерением что-то неладно?
— Как бы не так. Психофизики всё равно хотели видеть психологию в пантеоне «измеряющих» наук. Одной из самых престижных научных организаций начала XX века была Британская ассоциация развития науки[ii]. Это что-то вроде европейской академии наук; размещались они в Лондоне, периодически заседали комиссии и проводились ежегодные конференции — это были крупнейшие научные события. Выступить там было очень почётно; там председательствовали именитые физики, химики, оптики. Психофизикам очень важно было получить признание этой организации, и они выступали там несколько раз в 1930—1940-х годах. Фехнер к тому времени уже умер, и выступали другие психофизики, в частности Стэнли Стивенс (Stanley Stevens). По итогу обсуждений комитет, однако, отказался признать подход психофизиков «измерением» в классическом смысле: «Вы можете называть это, конечно, измерением. Но это не то, что понимают под измерением в науке»[iii]. Через несколько лет все повторилось. Основная проблема была в том, что в психологическом измерении невозможно установить равенство пропорций – именно это связывает измерение с количеством, и именно поэтому измерение возможно только на количественных (аддитивных) признаках, как длина или сила тока. Но психофизикам таких пропорций установить не удалось даже для «простых» субъективных ощущений. А значит, и измерений в психологии быть не может.
Но если психология — не измеряющая наука, то в то время это означало, что она вообще не наука. И тут надо учесть социальное давление — к этому времени у психофизиков появились лаборатории, они выдавали дипломы, получали финансирование, публиковались в журналах. И тут, представляете, вам говорят, что психология — не наука. Что же делать?
Создать теорию, которая скажет, что так тоже можно измерять. Так вот, Стэнли Стивенс переопределяет понятие «измерение». Теперь измерение — это присвоение чисел по определенному правилу. Иными словами, присвоение чему-то числа в соответствии с определённым правилом и есть измерение[iv]. Отдельный вопрос, почему такое радикальное переопределение ключевой концепции было принято среди психологов. Но это уже другой интересный вопрос – Мичелл про это пишет, рекомендую почитать.
Итог понятен: теперь психология — измеряющая наука, но под измерением она понимает нечто иное. Далее оказалось, что числа можно присваивать не только физическим ощущениям, но и чему угодно: чертам характера, мотивации, установкам. Как только появляется число, то теоретические проблемы уходят на второй план, а весь статистический аппарат у твоих ног.
— Это произошло в первой половине ХХ века. Почему же почти век спустя никто не предложил другой способ измерения или не переопределил психологию как не измеряющую науку?
— Нельзя, нельзя говорить «никто». Сопротивление этой практике было с самого начала и сохраняется по сию пору. Но понимаете, как грубо это ни звучит, миром правят деньги. Если на грант подаются двое: один говорит, что придёт в школу и измерит интеллект всех детей, были бы деньги, а другой говорит, что будет очень долго думать, потом поговорит с тремя людьми и определит, а точно ли фраза «Согласны ли вы с утверждением…» понимается одинаково участниками, — кому дадут грант?
Тем не менее, критика сложившихся в психологии практик и в том числе практики «измерения», конечно же, есть. По моим подсчётам сейчас есть человек 50, кто на регулярной основе пишет об этих проблемах. Хотя все время какие-то новые фамилии появляются.
— Несмотря на эту критику, «измеряющая» психология движется вперёд. Может, не стоит ожидать от неё большего? Сейчас она делает своё дело, а когда появится решение теоретических проблем, то перестроится?
— У Владимира Ильича Ленина была идея, что практика — лучший критерий истины. Я задам простой вопрос. У физиков по мере прогресса точность измерения возрастает, когда они строят приборы, и мы узнаем все новое и новое, совершаются открытия, которые заставляют пересматривать старые концепции (не будем брать сейчас в расчет кризис в теоретической физике). Появляются новые теории, основанные на измерениях, которые замещают одна другую, мы можем делать все более сложные эксперименты и узнавать все больше. Почему прогресс идёт? Потому что физика реально измеряет все точнее.
В то же время современная психометрика активно развивается с Георга Раша, 1960-е годы. Почти 70 лет прошло. И что нового мы узнали благодаря современной психометрике о том, как работает человеческое мышление, как формируется мотивация, почему возникают разные характеры? Модели усложняются все время, но мы не ответили с помощью тестов ни на один психологический вопрос. Первые вопросы, которые задавались с помощью тестов — это вопросы про интеллект. Что мы знаем про интеллект, чего мы не знали до того?
— Появилась ещё сотня моделей интеллекта, которые все как одна согласуются с эмпирическими данными.
— Да. Психометрика живёт в своей вымышленной реальности. Она что-то «моделирует», хотя на самом деле не «моделирует», а «конструирует». Ведь чтобы моделировать, у нас должна быть реальность, с которой мы соотносим модель. А психометрика никогда не соотносит модель с реальностью, поскольку у неё нет выхода к реальности. Психометрика из модели конструирует реальность, сравнивает модель со сконструированной реальностью, и удивительное дело — каждый раз совпадает! Джоэл Мичелл называл психометрику патологической наукой[v]. Я бы сказала, что это шизофреническая наука, потому что она сама себе придумала мир и сама себе его успешно «измеряет».
— Можете привести пример?
— Допустим, мы создаём тест, который работает по следующему принципу: «уровень математической способности отражается в ответах тестируемых, благодаря чему мы получаем разные баллы». Заметьте, здесь предполагается, что математическая способность должна существовать независимо от измерения. Но как мы понимаем «математическую способность»?
Если у нас есть два школьника, один из которых решил треть примеров, а другой все, то сказав что-то об их «математической способности», мы просто обобщим их поведение. «Математическая способность» — это лейбл, обобщение доступного нам поведения школьников. Далее — следите за руками. Мы предлагаем теперь «измерить математическую способность», то есть измерить лейбл, обобщение. Это называется круговое определение: математическая способность — это умение решать примеры, а решение примеров – это проявление математической способности.
Все, что вы видите — это количество решённых задач. И зачем нам придумывать «математическую способность»? Вот так и рождаются «конструкты». Это вербальная магия – мы из описания действий создаем существительные — способности или черты. Было: «слушать классику», «играть в шахматы», «общаться». А мы создаём нечто «существующее», автономное, и влияющее на наше поведение: «любовь к классической музыке», «способности к игре в шахматы», «общительность». И затем эти сконструированные «конструкты» измеряем. Но такое операциональное конструирование строго зависит от того какие действия мы включили в «конструкт», какие вопросы задали в тесте. То есть получается, что тест не видит ничего кроме вопросов теста. Все остальное — допущения.
Вернёмся к математической способности. Анна Анастази в своём классическом учебнике по психологическому тестированию прямо говорит: тест — это выборка поведения[vi]. Если я хочу узнать, как ребёнок решает примеры, я беру 100 примеров по курсу, примерно репрезентирую их в 20 заданиях, а ребёнок их решает. Если ребёнок решает из них всего 5, то я утверждаю, что он плохо освоил курс. Я не выдумываю конструкт и не моделирую его. Тест — это просто выборка поведения.
— Но ведь на основании оценки мы хотим сделать какие-то выводы о дальнейшем поведении человека.
— Лучшим предиктором поведения является предыдущее такое же поведение. Чтобы понять, как ребёнок будет учиться в вузе, вам не нужна никакая психометрика — посмотрите, как он учился в школе, это лучший имеющийся предиктор. Вообще же предсказания — вопрос статистики, технический вопрос: выбрать из имеющихся событий или действий человека те, которые будут коррелировать с будущими событиями или действиями. Здесь можно обойтись без психологии как науки.
— Отказ от количественной психологии, вероятно, сделает наши наблюдения о людях менее сопоставимыми.
— Числа полезны, когда они соответствуют реальности. У Джеймса Грайса есть идея, которая мне очень нравится. Он предлагает размер эффекта (effect size) сообщать как число людей, которые подтверждают вашу гипотезу[vii]. Допустим, мы хотим понять, какой метод, Х или Y, эффективнее для обучения детей чтению. Мы убираем все, что есть сейчас в психометрике и количественной психологии, что основано на непроверенных допущениях: средние значения, факторный анализ, дисперсии… Пусть размер групп — 20 человек. Ответим на вопрос: сколько детей из 20 реально стало лучше читать? Я просто считаю детей по головам. По методу Х 10 человек научилось читать, а по методу Y — 18 из 20. Очевидно, какой метод лучше?
— Второй лучше.
— Возможно. Мы повторим этот эксперимент. Это важно: мы не будем брать одну многотысячную выборку, а проведём ещё раз небольшой эксперимент, а потом ещё раз, а потом ещё раз. Если в 89 экспериментах из 100 лучше оказывается метод Y — мы делаем вывод, что он лучше.
— Лучше. Но всё равно хочется узнать, насколько лучше.
— Есть системы, которые бессмысленно уточнять с помощью чисел. В данном примере описания результата обычными словами достаточно, чтобы принять решение. Преимущество повторяющихся исследований в том, что мы проверяем реальную устойчивость результатов к контекстуальным факторам. Если бы социальные науки не заменяли повторяющиеся эксперименты одиночными огромными выборками, то, возможно, не было бы и кризиса воспроизводимости в таких масштабах. Но дело не только в науке, это и про деньги вопрос: воспроизводящее исследование провести гораздо дороже, чем один раз собрать выборку.
— Что может прийти на смену психологическому тестированию?
— Если у меня будет полный доступ к вашим данным в соцсетях, я буду знать про вас всё и без ваших ответов на тестовые вопросы: кредиты, спорт, здоровье, увлечения, поездки, интересы, как легко вы устанавливаете контакты, какова ваша политическая активность, каковы успехи и неудачи на предыдущих местах учёбы, сильные и слабые стороны. Я всё про вас узнаю, понимаете? Поэтому тест как выборка поведения мне даже не нужен.
Если мне интересно, проще ли вам учиться конкретному или абстрактному, то алгоритмы машинного обучения помогут найти нужные данные в вашем прошлом. Вот, например, начинает девушка учиться вязанию и покупать нитки, а потом перестаёт покупать, уже не смотрит видеоуроки. А вот поступила на магистратуру SOLA, всё у неё получается, хорошие тексты пишет. И зачем мне тест, что тут моделировать? Ничего этого не нужно, и так будет понятно, что у нее лучше получается.
С моей точки зрения, тестирование было временным решением, способом быстро собрать данные о человеке. А сейчас есть данные уже не о выборках поведения, а обо всем поведении, и уже из этого массива мы можем отбирать наиболее сильные предикторы, если хотим что-то предсказать. Так что тестирование в его современной форме, со всеми «латентными конструктами» скоро станет ненужным. Такое вот у меня предсказание.
[i] Michell, J. (1999). Measurement in psychology: A critical history of a methodological concept. Cambridge University Press.
[ii] С 2009 года —Британская научная ассоциация (British Association for the Advancement of Science).
[iii] Выводы комиссии содержали следующее утверждение: «Называние этих процедур измерением не добавляет ничего к его фактическому значению… Понятие измерения не имеет никакого мистического, внутренне присущего ему значения, которое, чудом не замеченное физиками, якобы предстоит открыть психологам. Это просто слово, конвенционально используемое для обозначения определенных идей. Его использование для обозначения других идей не расширяет, а разрушать его значение» (Ferguson A., Myers C.S., Bartlett R.J., et al. Quantitative estimates of sensory events: Interim report of the committee appointed to consider and report upon the possibility of quantitative estimates of sensory events. British Association for the Advancement of Science. 1938. No. 108. P. 277–334; Ferguson A., Myers C.S., Bartlett R.J. et al. Quantitative estimates of sensory events: Final report of the committee appointed to consider and report upon the possibility of quantitative estimates of sensory events. British Association for the Advancement of Science Advancement of Science. 1940. No. 1. P. 331–349).
[iv] Stevens S.S. On the theory of scales of measurement. Science, 1946, 103,667–680.
[v] Michell, J. (2008). Is psychometrics pathological science? Measurement, 6(1-2), 7-24.
[vi] Анастази, А. (2008). Психологическое тестирование. Москва, Директ-Медиа. 859 с.
[vii] Grice, J. W., Medellin, E., Jones, I., Horvath, S., McDaniel, H., O’lansen, C., & Baker, M. (2020). Persons as effect sizes. Advances in Methods and Practices in Psychological Science, 3(4), 443-455.

