• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Аспирантура 2019/2020

Углубленная психометрика

Статус: Курс по выбору
Направление: 44.06.01. Образование и педагогические науки
Когда читается: 2-й курс, 1 семестр
Формат изучения: Full time
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Целью освоения дисциплины «Углубленная психометрика» является изучение продвинутых психометрических методов современной теории тестирования. В частности, аспиранты познакомятся с моделями современной теории тестирования, особенностями и проблемами широкомасштабных программ оценивания, технологиями компьютерного тестирования, современными технологическими возможностями и сложностями процедур сбора данных, современной концепцией валидности. Дисциплина относится к циклу дисциплин по выбору и изучается на 2-м году обучения в асирантуре. Обучение по дисциплине требует от аспирантов глубокого понимания модели Раша, одно-, двух- и трехпараметрических моделей IRT, знания принципов и процедур конструирования инструментов измерения и создания тестовых заданий. Кроме того, при рассмотрении сложностей и возможностей, которые возникают в процессе разработки инструментов, презентуемых на цифровых платформах, предполагается, что аспиранты уже знакомы с процедурами разработки инструментов измерения в традиционном виде. Наконец, изучение современной концепции валидности теста и альтернативных теорий основывается на уже имеющемся у аспирантов понимании валидности теста.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Углубленная психометрика» является изучение продвинутых психометрических методов современной теории тестирования. В частности, аспиранты познакомятся с моделями современной теории тестирования, особенностями и проблемами широкомасштабных программ оценивания, технологиями компьютерного тестирования, современными технологическими возможностями и сложностями процедур сбора данных. Также аспиранты познакомятся с современной критикой теории валидности и подробно изучат различные модели, используемые для разработки измерительных шкал.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Интерпретирует полученные результаты в рамках поставленных вопросов и существующих теорий в области психометрики.
  • Способен аргументировать выбор и применить для решения исследовательских задач соответствующие методы современной теории тестирования.
  • Критически анализирует и оценивает особенности и проблемы валидности, широкомасштабных программ оценивания и технологий компьютерного тестирования, а также современные технологические возможности.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Справедливость оценивания. DIF анализ.
    Справедливость оценивания. Универсальный дизайн оценивания. Анализ различного функционирования заданий по отношению к различным группам испытуемых (DIF анализ). Инструкции по удалению или переработке заданий на основе DIF анализа.
  • Политомические модели IRT
    Политомические модели Раша: Partial Credit Model, Rating Scale Model. Описание моделей, параметры моделей и их оценивание и интерпретация. Области применения различных моделей. Политомические модели IRT: Graded Response Model, Modified Graded Response Model, Generalized Partial Credit Model. Описание моделей, параметры моделей и их оценивание и интерпретация. Области применения различных моделей. Сравнение моделей и их свойств. Выбор модели измерения. Особенности анализа теста при наличии комбинации дихотомических и политомических заданий. Анализ размерности теста. Анализ функционирования политомических заданий. Анализ совместного функционирования дихотомических и политомических заданий различных форм.
  • Задания открытого типа. Оценка деятельности экспертов.
    Различные формы заданий открытого типа: задания с коротким ответом (на дополнение), задания с регламентированным ответом, задания со свободно конструируемым ответом, их особенности, плюсы и минусы. Правила разработки заданий открытого типа. Разработка рубрик и критериев оценивания заданий открытого типа. Различные виды рубрик и их особенности. Способы оценивания (скоринга) заданий открытого типа. Надежность экспертного оценивания. Обучение экспертов. Контроль качества оценок экспертов и различные эффекты экспертного оценивания. Многофасетные модели IRT и их применение для оценки деятельности экспертов.
  • Использование технологий в образовательной оценке
    Введение в модели компьютерного тестирования: Компьютерное Адаптивное Тестирование и Многоступенчатое Тестирование: различия, процедуры разработки, ограничения, достоинства и возможности. Компьютерное адаптивное тестирование (КАТ) – различные виды, процедуры, области применения. Различные алгоритмы КАТ: правила выбора первого задания (блока заданий), правила выбора следующего задания, правила завершения тестирования, процедуры оценивания и начисления баллов. Технологически-усовершенствованные задания. Способы использования технологий в модификации заданий: классификации технологически-усовершенствованных заданий. Технологически-усовершенствованные задания и ECD. Сопоставимость результатов между классическими и новыми форматами заданий. Калибровка технологически-усовершенствованных заданий. Справедливость измерений: доступность тестов для лиц с ОВЗ. Стандарт доступности заданий для лиц с ОВЗ. Универсальный дизайн тестов и технологически-усовершенствованные задания. Сопоставимость результатов измерений между группами лиц с ОВЗ и без ОВЗ. Аккомодации. Стандарт доступности заданий для лиц с ОВЗ APIP. Платформы доставки тестов до респондентов на примере TAO. Стандарты хранения данных: QTI-формат заданий, форматы сбора и хранения данных о процессе ответа на задания. Возможности и ограничения TAO. Особенности хранения и сбора данных в QTI-формате. Методы автоматической проверки ответов на открытые вопросы. Тренировка и валидация сети. Сценарные типы заданий и симуляции. Разработка сценариев в многофасетных теориях Г.Раша и Л.Гуттмана: принципы, ограничения, анализ и примеры.
  • Оценивание многомерных конструктов
    Одномерный, последовательный и многомерный подход к моделированию многомерных конструктов. Многомерные IRT модели и их характеристики. Не-компенсаторные (Between-Item Multidimensionality) и компенсаторные (Within-Item Multidimensionality) модели современной теории тестирования. Моделирование локальной зависимости заданий.
  • Психометрические аспекты широкомасштабных программ тестирования
    Исследование сопоставимости результатов тестирования различных тестовых форм. Проблема сопоставимости результатов тестирования различных тестовых форм. Проблема сопоставимости результатов тестирования в бланковой и компьютерной формах. Возможность построения единой шкалы для двух тестовых форм. Факторы, влияющие на сравнимость результатов тестирования. Дизайны исследования эквивалентности тестовых форм. Связывание и выравнивание: принципы, подходы, процедуры, применение. Практические аспекты выравнивания. Горизонтальное и вертикальное выравнивание. Международные бенчмарки. Дизайн широкомасштабных опросов и тестирований. Создание единой шкалы при спиралевидном дизайне. Проблема миссингов (пропущенных данных) и методы интерполяции. Оценивание испытуемых - plausible values, взвешивание
  • Проблемы лонгитюдных исследований
    Оценивание роста (прогресса). Вертикальное выравнивание. Различные методы оценивания роста (изменения тестового балла на eдиной шкале, регрессионные методы, процентилльные методы), их достоинства и недостатки. Банк заданий для лонгитюдного исследования. Поддержка банка. Вопросы информационной безопасности тестирования. Разработка и использование мер по обеспечению информационной безопасности. Проблема нечестной сдачи теста (списывания) и методы его обнаружения.
  • Уровни достижений: названия и дескрипторы. Методы установления пороговых баллов. Работа с экспертами.
    Нормативно-ориентированное и критериально-ориентированное тестирование. Описание уровней достижений. Классификация методов установления пороговых баллов. Общий фреймворк процедуры установления пороговых баллов: разработка описания уровней достижений, выбор метода установления пороговых баллов, отбор экспертов, обучение экспертов, модерация сессий установления пороговых баллов, документация, оценка валидности полученных результатов, принятие итогового варианта пороговых баллов. Методы установления пороговых баллов. Особенности работы с экспертами. Раунды установления пороговых баллов. Виды обратной связи для экспертов (нормативная, про характеристики заданий, о последствиях). Корректировка и утверждение итоговых пороговых баллов, вертикальное выравнивание пороговых баллов, общественные и политические вопросы. Анализ последствий принятия тех или иных пороговых баллов, цена ложноположительных и ложноотрицательных решений, ошибки измерения (тестовых заданий, согласованность экспертов), сопоставление результатов различных методов установления пороговых баллов.
  • Валидность программы оценивания. Сообщение результатов тестирования
    Исследование валидности программы оценивания. Правильное использование инструмента оценивания, обоснованность принятых решений. Рекомендации по анализу программы оценивания. Технический отчет, обоснование качества инструментария и валидности измерений. Дизайн отчета с результатами измерений для разных групп пользователей. Руководство к тесту. Преобразование тестовых баллов для сообщения пользователям, различные шкалы.
  • Диагностические оценивание
    Диагностические оценивание – определение, различные формы, цели. Дизайны диагностирующего оценивания. Обзор различных аспектов формирующего оценивания. Итоговое оценивание. Диагностические IRT модели.
  • Критика современной теории тестирования
    Позиция Мичелла относительно психологического тестирования. Дефицит правдоподобных самостоятельных теорий, способных управлять измерениями ментальных атрибутов. Три структуры атрибутов, измеряющихся в науке: классификация, гетерогенный порядок и количественная структура. Измеримость атрибутов и неколичественно-упорядоченные атрибуты. Психометрические заблуждения. Критика Мичелом современной теории тестирования и теория соединенного измерения (Conjoint measurement). Операциональные и репрезентационные концепции измерения. Теория соединенного измерения (conjoint measurement): необходимые и достаточные условия для квантификации атрибута. Допущения модели Раша. Роль ошибки в количественном атрибуте. Природа парадокса Раша. Релевантность теории для психометрики. Отношения между заданиями теста. Критика современной концепции валидности: Позиция Борбума и Лизитца. Возвращение к теориям валидности: тесты как измерение конструктов vs. тесты как выборка поведения. Номологический подход Кронбаха и Мила. Валидность как интерпретация (Мессик). Введение причинности как главной причины дисперсии в результатах измерения. Статус психологического конструкта: онтология vs. эпистемология, референция vs. значение, причинность vs. корреляция.
  • Возвращение к теориям валидности
    Возвращение к теориям валидности: каузальные и рефлективные модели. Рефлективные модели измерения: эксплицитное использование идеи причинности между конструктами и тестовыми показателями. Путевые диаграммы. Теории регулярности и рефлективные модели. Теории от противного как особый тип вероятностной принности. Предсказание и объяснения. Процессуальные теории. Модели когнитивной переработки информации. Выводы, основанные на теории. Возвращение к теориям валидности: оценка формативных измерительных моделей. Валидность как оценивание. Наблюдаемые и латентные переменные. Каузальные индикаторы и понимание, основанное на фактах. Формативные модели vs. модели регулярности vs. доказательства от противного. Процессуальная интерпретация наблюдаемых индикаторов и латентные переменные. Возвращение к теориям валидности: открытые вопросы о значении тестовых показателей. Интегративный взгляд на валидность (позиция Борсбума и Маркуса). Доказательства валидности, связанные с перспективами рефлективных, формативных и каузальных моделей. Сетевые модели измерения
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа 1
  • неблокирующий Контрольная работа 2
  • неблокирующий Домашнее задание
  • неблокирующий Домашнее задание 2
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (I семестр)
    0.15 * Домашнее задание + 0.15 * Домашнее задание 2 + 0.1 * Контрольная работа 1 + 0.1 * Контрольная работа 2 + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Bias and equivalence in cross-cultural assessment:An overview. (1997). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.6EF6D868
  • Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model : Fundamental Measurement in the Human Sciences, Third Edition (Vol. Third edition). New York: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1002030
  • Cizek, G. J., & Bunch, M. B. (2007). Standard Setting : A Guide to Establishing and Evaluating Performance Standards on Tests. Thousand Oaks, Calif: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=294629
  • Elements of adaptive testing. (2010). Springer. https://doi.org/10.1007/978-0-387-85461-8
  • Frontiers of test validity theory: measurement, causation, and meaning. (2013). Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsnar&AN=edsnar.oai.dare.uva.nl.publications.56b9825f.0348.46b0.af80.5b15a4f2afe0
  • Fundamentals of item response theory, Hambleton R. K., Swaminathan H., 1991
  • Joel Michell. (2000). Normal science, pathological science and psychometrics. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.858D34B6
  • Kurtz, M. D. (2018). Value-Added and Student Growth Percentile Models: What Drives Differences in Estimated Classroom Effects? Statistics & Public Policy, 5(1), 1–8. https://doi.org/10.1080/2330443X.2018.1438938
  • Ludlow, L. H., Matz-Costa, C., Johnson, C., Brown, M., Besen, E., & James, J. B. (2014). Measuring Engagement in Later Life Activities: Rasch-Based Scenario Scales for Work, Caregiving, Informal Helping, and Volunteering. Measurement & Evaluation in Counseling & Development, 47(2), 127–149. https://doi.org/10.1177/0748175614522273
  • Michael Russell, Thomas Hoffmann, & Jennifer Higgins. (n.d.). Meeting the Needs of All Students: A Universal Design Approach to Computer-Based Testing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.C4AC4ED8
  • Michell, J. (2009). The psychometricians’ fallacy: Too clever by half? British Journal of Mathematical & Statistical Psychology, 62(1), 41–55. https://doi.org/10.1348/000711007X243582
  • Moore, S. (2007). David H. Rose, Anne Meyer, Teaching Every Student in the Digital Age: Universal Design for Learning. In Educational Technology Research & Development (Vol. 55, pp. 521–525). Springer Nature. https://doi.org/10.1007/s11423-007-9056-3
  • Nathan A. Thompson, & David J. Weiss. (2011). A Framework for the Development of Computerized Adaptive Tests. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.FF885EF4
  • William, D., & Black, P. (1996). Meanings and consequences: A basis for distinguishing formative and summative functions of.. British Educational Research Journal, 22(5), 537. https://doi.org/10.1080/0141192960220502

Рекомендуемая дополнительная литература

  • Alan Huebner. (2010). An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive Assessments. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.C5E4E435
  • Allen, D. D., & Wilson, M. (2006). Introducing multidimensional item response modeling in health behavior and health education research. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.69FB7536
  • Andrich, D., & Hagquist, C. (2014). Real and Artificial Differential Item Functioning in Polytomous Items. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E4A6BD97
  • Beaton, A. E., Linn, R. L., Bohrnstedt, G. W., & American Institutes for Research. (2012). Alternative Approaches to Setting Performance Standards for the National Assessment of Educational Progress (NAEP). American Institutes for Research. American Institutes for Research. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED529928
  • BOO, J., & VISPOEL, W. (2012). Computer Versus Paper-And-Pencil Assessment of Educational Development: A Comparison of Psychometric Features and Examinee Preferences. Psychological Reports, 111(2), 443–460. https://doi.org/10.2466/10.03.11.PR0.111.5.443-460
  • Bouhlila, D., & Sellaouti, F. (2013). Multiple imputation using chained equations for missing data in TIMSS: a case study. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.79EF63E
  • Deconstructing the construct: A network perspective on psychological phenomena. (2013). New Ideas in Psychology, 31(1), 43–53. https://doi.org/10.1016/j.newideapsych.2011.02.007
  • Foster, D. (2010). Worldwide Testing and Test Security Issues: Ethical Challenges and Solutions. Ethics & Behavior, 20(3/4), 207–228. https://doi.org/10.1080/10508421003798943
  • Geer, J. G. (1988). What Do Open-Ended Questions Measure? Public Opinion Quarterly, 52(3), 365. https://doi.org/10.1086/269113
  • McNamara, D. S., Crossley, S. A., Roscoe, R. D., Allen, L. K., & Dai, J. (2015). A Hierarchical Classification Approach to Automated Essay Scoring. Grantee Submission, 23, 35–59. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED585773
  • Measurement and assessment in teaching, Miller M. D., Linn R. L., 2009
  • Rutkowski, D., Davier, M. von, & Rutkowski, L. (2013). Handbook of International Large-Scale Assessment : Background, Technical Issues, and Methods of Data Analysis. Boca Raton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=668795
  • Tindal, G., Heath, B., Hollenbeck, K., Almond, P., & Harniss, M. (1998). Accommodating Students with Disabilities on Large-Scale Tests: An Empirical Study of Student Response and Test Administration Demands. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED423632
  • Truth and evidence in validity theory. (2013). Journal of Educational Measurement, 50(1), 110–114. https://doi.org/10.1111/jedm.12006