• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
28
Март

Психометрические теории и анализ тестовых заданий

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
8
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1-3 модуль

Преподаватели

Программа дисциплины

Аннотация

Курс "Психометрические теории и анализ тестовых заданий" познакомит студентов с методологией анализа результатов оценивания в рамках классической и современной теорий тестирования. Этот курс необходим для всех, кто занимается оцениванием качества инструментов измерения в социальных науках: тестов и опросников. В результате его освоения студенты научатся проводить анализ тестов и опросников и интерпретировать результаты, а также решать специфические проблемы тестирования, связанные с вопросами справедливости оценивания и измерений.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Психометрические теории и анализ тестовых заданий» является овладение студентами основными теоретическими принципами и практическими навыками анализа тестовых заданий, построения и анализа инструментов и шкал в рамках классической и современной теорий тестирования.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • проводить анализ тестовых заданий и теста в рамках классической теории тестрования, интерпретировать и представлять результаты анализа;
  • знать основы классической теории тестирования;
  • проводить шкалирование, выравнивание методами КТТ
  • знать основы современной теории тестирования IRT;
  • Понимать свойства моделей Раша
  • Понимать методы оценки параметров
  • проводить анализ тестовых заданий и теста в рамках современной теории тестирования IRT, интерпретировать и представлять результаты анализа;
  • - уметь выбирать и применять различные модели IRT, соответствующие целям анализа (дихотомические и политомические, одномерные и многомерные, многофасетные и т.д.);
  • уметь выбирать и применять различные модели IRT, соответствующие целям анализа (дихотомические и политомические, одномерные и многомерные, многофасетные и т.д.);
  • владеть практическими навыками использования стандартных методов и моделей IRT для построения и анализа конкретных инструментов оценивания в образовании, построения и анализа шкал и методик в психологии, социологии и других социальных науках
  • Оценивать характеристики заданий в IRT
  • выполнять анализ дифференцированного функционирования тестовых заданий и корректировать инструменты для минимизации искажений; исследовать сопоставимость результатов тестирования, проводить процедуры связывания и выравнивания;
  • исследовать сопоставимость результатов тестирования, проводить процедуры связывания и выравнивания;
  • владеть практическими навыками анализа результатов тестирования в рамках современной теории тестирования IRT с применением специализированных программных продуктов, составления отчета и представления результатов
  • использовать методы IRT в различных социальных науках
  • Понимать особенности компьютерного тестирования
  • Проводить анализ с использованием многомерных моделей IRT
  • Понимать сущность баесовских методов в оценивании
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Основы классической теории тестирования
    Предпосылки классической теории тестирования (КТТ). Структура наблюдаемого тестового балла. Определение истинного тестового балла. Определение ошибки измере-ния. Основные уравнения КТТ. Концепция надежности в КТТ. Процедуры и методы вычисления надежности ре-зультатов тестирования (формула Кронбаха; формула Кьюдера-Ричардсона; формула Спирмена-Брауна). Вычисление ошибки измерения истинного тестового балла. Построе-ние доверительных интервалов для исходных тестовых баллов. Концепция валидности в КТТ. Виды валидности. Процедуры исследования валидности теста.
  • Тема 3. Шкалирование и интерпретация результатов тестирования. Специфические проблемы тестирования
    Представление результатов тестирования. Нормирование и шкалирование результа-тов тестирования. z-шкала и шкалы, полученные ее преобразованием. Шкала проценти-лей. Проверка параллельности вариантов. Методы выравнивания результатов в КТТ. Анализ диффиренцирующей способности заданий (DIF). Методы установления пороговых баллов.
  • Тема 2. Анализ тестовых заданий в рамках классической теории тестирования
    Характеристики тестовых заданий в КТТ. Оценивание трудности, дифференцирую-щей способности и валидности задания. Интерпретация значений параметров. Компью-терные программы оценивания параметров в рамках КТТ.
  • Тема 4. Недостатки КТТ. Принципы измерения латентных переменных в рамках IRT.
    Недостатки и ограничения классический теории тестирования. Принципы измерения латентных переменных в рамках IRT и их применение для конкретных задач измерений в образовании и психологии. Преимущества IRT по сравне-нию с классической теорией тестирования. История развития IRT. Основные предположения IRT. Характеристическая кривая задания.
  • Тема 5. Основные математические модели IRT. Модели Раша
    Основные дихотомические и политомичсекие модели IRT. Простейшие свойства мо-делей. Параметры моделей и их интерпретация. Области применения различных моделей. Сравнение моделей и их свойств. Выбор модели измерения. Обоснование полезных свойств и преимуществ IRT по сравнению с классической теорией тестирования.Свойства и преимущества моделей Раша.
  • Тема 6. Методы оценивания параметров моделей
    Свойства оценок. Различные методы оценивания параметров. Метод максимального правдоподобия и его вариации. Оценивание мер испытуемых. Оценивание параметров заданий. Оценивание ошибки измерения. Сравнение различных методов оценивания параметров. Компьютерные программы оценивания параметров IRT моделей.
  • Тема 7. Оценивание адекватности эмпирических данных модели измерения.
    Проверка основных предположений IRT и свойств IRT моделей (одномерность, ло-кальная независимость). Исследование согласия экспериментальных данных тестирования с используемой моделью измерения. Статистики согласия, основанные на стандартизированных остатках (уклонениях). Свойства статистик согласия и их распределений. Анализ согласия по заданиям теста. Анализ согласия ответов испытуемых. Примеры анализа согласия эмпирических данных с моделью измерения. Причины неадекватности эмпирических данных используемой модели измерения. Эмпирические характеристические кривые заданий и их сравнение с теоретическими (модельными) характеристическими кривыми. Обоснование выбора модели измерения по результатам анализа адекватности эмпирических данных.
  • Тема 8. Общий анализ теста в рамках IRT
    Анализ теста, состоящего из дихотомических заданий. Общая схема анализа. Проверка выполнения основных предположений IRT: размерность, локальная независимость, согласие с моделью измерения, инвариантность оценок параметров. Точность измерений. Обоснование валидности конструкта. Исследование однородности выборок и проверка различных гипотез тестирования. Шкалирование результатов тестирования. Представление и интерпретация результатов тестирования. Представление результатов анализа.
  • Тема 9. Дихотомические модели IRT. Выбор модели
    Дихотомические модели IRT: однопараметрическая модель (дихотомическая модель Раша); двух- и трехпараметрические модели Бирнбаума. Свойства моделей и их парамет-ров. Области применения. Сравнение моделей и их свойств. Статистические критерии выбора модели измерения
  • Тема10. Основные политомические модели IRT
    Политомическиемодели IRT: Partial Credit Model, Rating Scale Model, Generalized Partial Credit Model, Graded-Response Model. Свойства моделей. Параметры моделей и их интерпретация. Области применения различных моделей. Сравнение моделей и их свойств. Выбор модели измерения. Компьютерные программы, работающие с политомическими моделями IRT.
  • Тема 11. Измерения в психологии с использованием шкал Ликерта
    Особенности рейтинговых шкал. Rating Scale Model и ее свойства. Анализ данных в рамках RSM. Применение IRT моделирования для разработки психологических методик, построе-ния шкал, исследования их психометрических свойств – исследование размерности, функционирование категорий, оптимизация числа ответных категорий. Исследование стилей ответов респондентов.
  • Тема 12. Анализ измерительных свойств заданий в IRT.
    Характеристическая кривая задания (дихотомического и политомического) и ее свойства. Функционирование категорий задания, оцениваемого политомически. Оптимизация схемы оценивания политомических заданий различных форм. Примеры анализа по-литомических заданий. Информационная функция задания теста (дихотомического и политомического) и ее свойства. Информационная функция теста и ее свойства. Вклад различных заданий в из-мерение латентной черты. Связь информационной функции теста и ошибки измерения. Эффективность теста как измерительного инструмента. Сравнение эффективности двух тестов. Конструирование теста с наперед заданными свойствами при наличии банка заданий. Конструирование критериально-ориентированного теста с заданным проходным баллом.
  • Тема 14. Общий анализ теста. Представление результатов
    Особенности анализа теста при наличии политомических заданий. Исследование размерности теста. Анализ функционирования заданий, оцениваемых политомически. Исследование совместного функционирования дихотомических и политомических заданий. Исследование совместного функционирования заданий различных форм. Представление результатов анализа различным группам пользователей.
  • Тема 13. Применение IRT моделирования для решения специфических задач тестирования. Методы обнаружения искажений в результатах тестирования. Анализ испытуемых.
    Выравнивание результатов, полученных по отчасти различным наборам заданий и, возможно, в разное время. Условия выравнивания. Методы и процедуры выравнивания. Горизонтальное и вертикальное выравнивание. Измерение прогресса. Различное функционирование заданий по отношению к различным группам испытуемых Методы идентификации таких заданий (DIF анализ). Методы установления проходного балла. Методы установления пороговых оценок (benchmarks). Методы обнаружения искажений в результатах тестирования. Анализ испытуемых.
  • Тема 15. Измерение латентных переменных в социальных и экономических сферах.
    Математические модели и технология обработки информации применительно к за-дачам управления в социальных и экономических сферах. Методика измерения латентных переменных с помощью IRT моделирования. Математические модели для данных на номинальной шкале. Применение IRT моделирования для анализа данных многокритериального мониторинга и построения единого интегрального показателя.
  • Тема 16. Введение в компьютерное тестирование. Симуляции в КАТ.
    Введение в компьютерное тестирование (КТ). Модели КТ: Линейное тестирование, Случайный выбор заданий, LOFT, Многоступенчатое тестирование, Компьютерное адап-тивное тестирование. КАТ: структура, механизмы, практические проблемы. Правила ядра КАТ: начало, следующий вопрос, начисление баллов, остановка. Симуляционные исследования. Использование симуляций для определения параметров КАТ: варьирование правил КАТ для выбора оптимальных правил. Дизайн симуляционного исследования. Анализ результатов симуляций.
  • Тема 17. Более сложные модели IRT.
    Многопараметрические модели IRT и их свойства. Применение многопараметрических моделей для анализа деятельности экспертов, оценивающих выполнение заданий. Многомерные модели IRT и их свойства. Классификация многомерных моделей (многомерность между заданиями и многомерность внутри заданий). Различные подходы к анализу многомерных данных тестирования. Преимущества многомерного подхода. Применение многомерных моделей для оценивания испытуемых. Другие модели IRT. Компьютерные программы обработки данных в рамках рас-сматриваемых моделей
  • Тема 18. Байесовский подход в психометрике. Интеллектуальные технологии в измерительных инструментах.
    Байесовская вероятность и статистика. Байесовский поход в теории IRT. Моделиро-вание сложных конструктов с помощью байесовских сетей. Оценивание параметров методами EM и МСМС. Критерии для оценки и сравнения моделей в байесовском подходе. Методология CRISP-DM для работы с психометрическими данными. Машинное обучение с учителем (supervised learning) и без учителя (unsupervised learning). Критерии оценки качества моделей машинного обучения. Применение интеллектуальных техноло-гий в измерительных инструментах: автоматическое оценивание заданий открытого типа, анализ поведения респондентов и выявление поведенческих паттернов, автоматическая генерация заданий. Этические вопросы, связанные с применением искусственного интел-лекта для решения психометрических задач.
Элементы контроля

Элементы контроля

  • неблокирующий Домашние проекты
  • неблокирующий Контрольная
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * Домашние проекты + 0.2 * Контрольная + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Culbertson, M. J. (2015). Bayesian Networks in Educational Assessment: The State of the Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3F4DC55C
  • Fundamentals of item response theory, Hambleton R. K., Swaminathan H., 1991
  • Gareth James, Daniela Witten, Trevor Hastie, Rob Tibshirani, & Maintainer Trevor Hastie. (2013). Type Package Title Data for An Introduction to Statistical Learning with Applications in R Version 1.0. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.28D80286
  • Introduction to classical and modern test theory, Crocker L., Algina J., 2008

Рекомендуемая дополнительная литература

  • Bias and equivalence in cross-cultural assessment:An overview. (1997). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.6EF6D868
  • Computerized adaptive testing for polytomous motivation items: Administration mode effects and a comparison with short forms. (2007). Applied Psychological Measurement, 31, 412–429. https://doi.org/10.1177/0146621606297314
  • Hambleton, R. K., & Rovinelli, R. J. (1986). Assessing the Dimensionality of a Set of Test Items. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED270478
  • Han Bao, & Robert J. Mislevy. (n.d.). LOCAL DEPENDENCE - 1- Running head: ASSESSING LOCAL DEPENDENCE IN BUILDING EXPLANATION TASKS Assessing Local Item Dependence in Building Explanation Tasks An Application of the Multidimensional Random Coefficients Multinomial Logit Item Bundle Model. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.5E21519B
  • Heng Li. (2003). The Resolution of Some Paradoxes Related to Reliability and Validity. Journal of Educational and Behavioral Statistics, (2), 89. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.sae.jedbes.v28y2003i2p89.95
  • Kane, M. (2000). Current Concerns in Validity Theory. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED446094
  • Lim, R. L. (1993). Linking Results of Distinct Assessments. Applied Measurement in Education, 6(1), 83. https://doi.org/10.1207/s15324818ame0601_5
  • Ronald K. Hambleton, & Russell W. Jones. (n.d.). ========================= = ITEMS. Instructional Topics in Educational Measurement ========================= An NCME Instructional Module on Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.46F2C9F0
  • Thomas, S. (1994). Standard setting in The Netherlands: impact of the human factor on guideline development. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3F7B9D2F