• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Интервью с Ксенией Тарасовой - директором Центра психометрики и измерений в образовании

Студенты магистерской программы "Обучение и оценивание как наука" поговорили с Ксенией Тарасовой, директором Центра психометрики и измерений в образовании и преподавателем программы, о личном опыте исследования и разработки психометрических инструментов – обсудили, как создаются современные тесты и куда движется оценка знаний.

—  Расскажите, как вы пришли в психометрику? Что вдохновило вас выбрать именно это направление? Как ваш образовательный и профессиональный бэкграунд, включая обучение в сфере ветеринарии и переводческой деятельности, повлиял на ваш интерес к психометрике и работу в этой области?

Мой путь в психометрику – это результат естественного стремления объединить разносторонние интересы и навыки. В рамках специалитета по направлению “Ветеринарный врач” я проводила исследования (в биологическом контексте), работала на многочисленных ЗооExpo и в компании Bayer, планируя плотно связать свою деятельность с фармакологией и, вероятнее всего,  переехать в Испанию (параллельно получала второе высшее образование как лингвист - квалификация переводчик с испанского языка). Переломным моментом стало решение поступить в педагогическую аспирантуру. Общение с коллегами по горячо обсуждаемой в то время в Испании проблеме обеспечения качества высшего образования, а также вхождение России в болонскую систему побудило написать диссертацию по сравнительной педагогике, которая в том числе включала исследование тенденций в обеспечении качества образования. Затем была интересная работа в проекте Федерального института развития образования по разработке электронных учебников для школьников. Мы выполняли его с ведущими на то время, как бы сказали сейчас, EdTech компаниями вместе с Людмилой Леонидовной Босовой. Этот проект позволил сконцентрироваться на исследованиях в образовании и осознать важность точной и методически обоснованной оценки, а также то, что цифровая среда, за счет ее интерактивности и мультимедийности, может стать основой для такой оценки.

Затем было приглашение к участию в проекте Программы READ (Российская программа содействия образованию в целях развития), где в рамках борьбы с образовательной бедностью в мире разрабатывался инструмент оценки информационно-коммуникационной компетентности. Инструмент разрабатывался по методологии доказательного дизайна (Evidence Centered Design), первый в России, в последующем был нами запатентован. Этот опыт стал основой для моего глубокого интереса к психометрике и развития этой области в образовании, и позволил пройти путь от аналитика до директора Центра психометрики за 7 лет

— Как вы оцениваете роль психометрики в современном образовании? Какие изменения, на ваш взгляд, необходимы для улучшения системы оценки знаний и навыков школьников и студентов?

Если знания — это топливо, то психометрика — это датчик уровня в баке))  Без точных инструментов оценки мы либо переоцениваем способности учащихся, либо недооцениваем их потенциал. Поэтому психометрика сегодня — это не просто про «хорошие» и «плохие» оценки. Это наука о том, как объективно и надежно измерять знания, навыки и компетенции. Мы живем в мире, где запоминание информации уже не так критично, как умение ее анализировать, применять и критически осмысливать, появляются новые виды грамотностей. Чтобы сделать систему оценки более современной и “полезной”, индивидуализировать ее, важно внедрять:

  • компетентностные и сценарные тесты, где оцениваются не просто знания, а способы их применения в реальных ситуациях,
  • адаптивные формы тестирования, которые подстраиваются под уровень учащегося, тем более экспансивное развитие ИИ и его применение в оценивании это позволяют,
  • оценку процесса рассуждений, а не только конечного ответа (например, с помощью логов),
  • инструменты на основе доказательного дизайна (Evidence-Centered Design), которые позволяют точно измерять сложные конструкты.

Если система оценки не будет развиваться вместе с современными требованиями, мы рискуем и дальше воспроизводить модель «зазубрил — сдал — забыл», игнорируя уникальные особенности и потенциал каждого. А ведь именно на персонализацию и развитие реальных навыков должно быть ориентировано образование в XXI веке.

— Какие основные задачи решает ЦПиО в рамках разработки сценарных тестов для школьников? Как вы определяете, какие тесты наиболее актуальны в образовательной повестке?

Главная цель нашего центра — создание оценочных инструментов, с использованием современных и инновационных психометрических подходов, которые могут использоваться не только для оценки сложных конструктов, но и для их формирования. Наши тесты выходят за рамки классических тестовых заданий, моделируют реальные жизненные ситуации, представляются в формате захватывающих игр и требуют использования новых цифровых технологий, например, VR.

При этом актуальность самих конструктов определяется самой жизнью - потребностями общества, экономики и образовательной политики: например, ИИ-грамотность, критическое и стратегическое мышление, правовая грамотность и др. — всё это уже не факультативные компетенции и грамотности, а базовая необходимость.

— Как выглядит процесс разработки нового теста в центре? Какие этапы он включает?

Разработка теста — это целая архитектура, длинный и многоступенчатый процесс, который начинается задолго до того, как респондент впервые увидит задание. Цель - собрать как можно больше свидетельств того, что выводы по тесту валидны в отношении респондентов.

На первом этапе необходимо понять, какие именно психологические черты или характеристики, компетенции или знания составляют измеряемый конструкт, как он проявляется в поведении, чем различаются люди, у которых он сформирован на разном уровне. Далее мы концептуализируем ключевые аспекты и создаем систематические структуры для организации содержания.

И уже на этой основе выбираются модели заданий, которые будут наиболее релевантны измеряемому конструкту, а также способ их презентации и метод статистического анализа данных, который мы планируем применять в последующем -  это один из ключевых этапов разработки теста и  зависит от целей оценивания и типа создаваемого  инструмента.

А когда такая крепкая теоретическая основа создана, начинается самое интересное - разработка заданий, которая всегда является очень творческим процессом.

После того, как тест готов и запрограммирован, мы апробируем его на пилотных выборках, анализируем данные и дорабатываем.

— Были ли случаи, когда результаты тестов кардинально отличались от ожиданий? Как вы интерпретировали такие результаты?

Да, и это всегда самое интересное. Например, при разработке теста, направленного на оценку цифровой грамотности мы ожидали, что высокие результаты будут коррелировать с навыками критического мышления. Однако оказалось, что многие учащиеся, которые легко ориентируются в цифровой среде, не всегда умеют проверять достоверность информации. Или в тесте на оценку навыков коммуникации у взрослых мы обнаружили, что результаты связаны с индивидуальными стилями общения, к которым человек привык в реальной жизни — например, склонность к избеганию конфликтов.

Такие результаты-находки особенно ценны: они позволяют по-новому взглянуть на структуру компетенций, уточнить теоретические модели и сделать инструмент более точным и валидным в следующих итерациях.

— Как вы видите будущее сценарных тестов для школьников? Какие изменения, на ваш взгляд, произойдут в этой области в ближайшие 5–10 лет?

Будущее за адаптивными и иммерсивными тестами. И искусственный интеллект нам в помощь)  Уже сейчас мы видим, как развиваются технологии ИИ, виртуальной реальности и автоматического анализа данных.

Через 5–10 лет тесты, скорее всего, будут выглядеть как индивидуальные маршруты оценивания, оценка в процессе деятельности в расширенной реальности, с возможностью глубокого анализа когнитивных стратегий в процессе выполнений заданий.

— Как партнерство влияет на развитие центра психометрики и работу в нем? Какие формы сотрудничества кажутся наиболее перспективными, и с кем бы вам хотелось наладить взаимодействие в будущем?

Разработка тестов — это междисциплинарная работа, и без сотрудничества с ИТ-специалистами, экспертами в области целевого измеряемого конструкта двигаться вперёд сложно. Перспективны партнерства с международными исследовательскими институтами и университетами, EdTech-компаниями.

В настоящее время мы активно развиваем магистральное научное направление в Центре - ИИ в оценивании: например, совместно с коллегами из Шанхайского института искусственного интеллекта в образовании Восточно-Китайского педагогического университета и Университета Сицзян-Ливерпуль (XJTLU) мы разрабатываем инструмент оценки ИИ-грамотности, который можно будет использовать в рамках межстранового исследования; с коллегами из “I-EXAM”  (крупнейший в России независимый оператор по оценке образовательных достижений студентов на различных этапах обучения) обучаем LLM правилам разработки тестов для дальнейшего создания полезных продуктов; работаем с коллегами из национальных центров оценки качества образования Казахстана и Киргизии и многое-многое другое.

Чем шире и прочнее партнерские отношения, тем лучше тесты.

— Какие навыки и качества, по вашему мнению, наиболее важны для успеха
в профессии тест девелопера?

На мой взгляд, успех тест-девелопера — это сплав трёх составляющих: научной строгости, креативности и эмпатии.

Во-первых, необходима исследовательская скрупулезность. Это значит — уметь работать с психометрическими моделями, разбираться в вопросах надежности, валидности, понимать, как устроена конструкция измерений. Хороший тест-девелопер — это не просто «автор заданий», а инженер смыслов и наблюдений, который строит мост между сложными абстрактными конструктами и конкретным измеримым поведением.

Во-вторых — креативность. Особенно в современных форматах, таких как сценарные тесты, интерактивные симуляции, игровые модели, и даже VR. Нужно уметь не просто проверить знание факта, а создать ситуацию, в которой участник должен применить навык в контексте, ситуация создается с использованием различных цифровых технологий. Это требует умения мыслить нестандартно, проектировать образовательные «смыслы», быть немного дизайнером, сценаристом и иногда даже драматургом. Например, мне очень пригодилось дополнительное обучение гейм-дизайну)

И, наконец, эмпатия и чувствительность к контексту респондента. Это часто недооцененное качество. Но чтобы сделать действительно валидный и справедливый инструмент, нужно понимать — кто перед тобой, как он будет воспринимать тестовую ситуацию, какие культурные, возрастные, когнитивные особенности могут повлиять на результат. Поэтому предварительно, обязательно когда конструкт мало изучен или содержит много компонентов, мы дополнительно проводим качественное исследование с целью изучить восприятие разработанных контекстов заданий нашей целевой группой. Особенно это важно в межрегиональных исследованиях, где один и тот же конструкт может проявляться по-разному с учетом контекста.

Ну и, конечно, терпение. Много терпения.

— Какие три главных совета вы можете дать тем, кто только начинает свой путь в психометрике и разработке тестов?

1. Учитесь смотреть глубже, чем просто на балл.

Один и тот же результат может скрывать за собой совершенно разные когнитивные процессы. Настоящий тест-девелопер всегда задаёт вопрос: что на самом деле значит этот результат? почему респонденты пропускали или очень быстро выполняли какие-то задания? Не бойтесь копаться в данных, использовать разные методы анализа, ставить под сомнение свои первоначальные гипотезы.

Это в том числе соответствует стандартам разработки - validation is the process of accumulating evidence to support the interpretations of test scores for proposed uses of tests.

2. Освойте язык психометрики и найдите своих «проводников».

Психометрика — это язык описания поведения в терминах моделей. Rasch, IRT, ECD — поначалу звучит как абракадабра, но если освоить эти “диалекты”, вы научитесь видеть то, что не видно простым глазом. Ищите наставников, читайте первоисточники (даже если это сначала мучительно трудно), подключайтесь к профессиональным сообществам. Профессиональный  рост в нашей области — это  марафон, а не спринт.

3. Развивайте междисциплинарность и не теряйте человеческий фокус.

Лучшие тесты рождаются на стыке: педагогики, когнитивной психологии, дизайна, data science. Чем шире ваш кругозор, тем интереснее будут решения. Но при этом всегда помните: за каждым числом в вашей таблице стоит человек. Хороший тест — это не просто средство отбора или контроля, а инструмент понимания, поддержки и роста.

— Как вы продолжаете развиваться в своей области? Какие ресурсы, курсы или книги вы могли бы порекомендовать начинающим специалистам?

Психометрика — это как хороший кофе: требует постоянного обновления, свежести источников и внимания к деталям))

Я продолжаю развиваться в профессии через:

  1. включенность в международное сообщество: активно слежу за публикациями (и много, очень много читаю), например, в Psychometrika, Applied Psychological Measurement, Educational and Psychological Measurement, Journal of Educational Measurement, International Journal of Testing, а также arXiv, где размещается огромное количество препринтов; являюсь членом APA (American Psychological Association); поддерживаю партнерства и инициирую новые в рамках международного сотрудничества; участвую в конференциях, в том числе как приглашенный эксперт или рецензент. Это помогает “держать руку на пульсе” в глобальном контексте;
  2. обучение: необходимо постоянно развивать новые навыки, которые связаны с профессией. Это могут быть и курсы по Python, машинному обучению или совсем, казалось бы неожиданные, по гейм-дизайну и figma. Если вы планируете, заниматься разработкой тестов в игровой форме, то навык проектирования дизайна и знание основ UX\UI важны. Мне они помогли самостоятельно разработать в figma дизайн теста по финансовой грамотности в критический момент, когда все горело - были сжатые сроки (2 недели) и отсутствовало финансирование на дизайнера;
  3. практика: никакие курсы не заменят “живой” работы с реальными задачами. В настоящий момент я руковожу разработкой в рамках 5 крупных прикладных и фундаментальных научных проектов, один из них - грант Российского научного фонда.

Из книг для старта посоветовала бы:

  • HANDBOOK OF TEST DEVELOPMENT. Под редакцией Steven M. Downing, Thomas M. Haladyna - основы тест дева, отлично подойдет для начинающих;
  • Constructing Measures: An Item Response Modeling Approach, Mark Wilson - знакомит с тем, как понять преимущества и недостатки инструментов  измерения, какие методы применять для разработки новых инструментов или адаптации уже существующих;
  • Computational Psychometrics: New Methodologies for a New Generation of Digital Learning and Assessment. Под редакцией Davier von A.A., Mislevy R.J., Hao J. (или как минимум прочитать рецензию на эту книгу, которая представлена в журнале “Вопросы образования” - Тарасова К. В., Грачева Д. А. Вычислительная психометрика: ближайшее будущее или уже реальность // Вопросы образования. 2023. № 3. С. 221–230) - свежий взгляд всемирно-известных ученых в этой области на развитие тест дева, новых актуальных форматов заданий,  и психометрики в целом в цифровую эпоху.

— Осталось ли что-то о чем мы не спросили, но вы хотите этим поделиться/ считаете важным?)

Хочется дать четвертый совет (к п.9) — бонусный: постарайтесь сохранить ироничное отношение к себе и своей работе. Это помогает выжить в моменты, когда модель “не сходится”, а данные “ведут себя странно”,  и найти в себе достаточно терпения и креативности для доработки.