• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2020/2021

Современные методы анализа данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Маго-лего
Когда читается: 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 3
Контактные часы: 44

Программа дисциплины

Аннотация

Дисциплина Современные методы анализа данных базируется на дисциплине Теория вероятностей и математическая статистика. Данный курс посвящён изучению робастных методов обработки данных, которые успешно применяются в условиях априорной стохастической неопределённости. Применение методов будет проиллюстрировано большим количеством примеров из медицины, биологии, социологии. Занятия в 4-м модуле будут проводиться дистанционно на платформе Zoom. Ссылки на конференцию будут отправляться через LMS накануне занятия.
Цель освоения дисциплины

Цель освоения дисциплины

  • сформировать теоретические знания в области математической статистики
  • обучить студентов применять основные модели и методы математической статистики для обработки реальных социально-экономических данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать: основные методы первичной обработки статистических данных; основные методы проверки однородности экспериментальных данных; основные методы дисперсионного анализа; принципы сравнения статистических критериев; методы оценивание параметров линейных регрессионных моделей.
  • Уметь: строить математические модели, адекватно описывающие социально-экономические явления; использовать статистические критерии для проверки гипотез относительно наблюдаемых случайных данных.
  • Владеть: навыками решения типовых задач математической статистики; основными определениями, методами и алгоритмами анализа данных, содержащих случайную составляющую; стандартными инструментариями обработки статистической информации.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Понятие о робастных и непараметрических методах статистического анализа данных
    Краткий обзор известных методов оценивания параметров и основ проверки статистических гипотез. Демонстрация примеров правильного и неправильного выбора альтернативных гипотез в задачах с дихотомическими данными. Причины возникновения робастных и непараметрических статистических методов. Понятие о робастных оценках в терминах кривой чувствительности SC (sensitivity curve) и высокой пороговой точки (high breakdown point). Определение B-робастной оценки, исследование свойства B-робастности для выборочного среднего и выборочной медианы. Вычисление пороговой точки для выборочного среднего, α-урезанного среднего и выборочной медианы. М-оценки (MAD и MADN) для оценивания параметра масштаба. Методы сравнения статистических критериев. Функция мощности. Относительная асимптотическая эффективность (ОАЭ) статистических критериев по Питмену.
  • Исследование однородности двух выборок
    Понятие об однородности выборок. Ранги, связки, средние ранги. Непараметрические ранговые критерии. Выявление неоднородности, связанной со сдвигом (классический критерий Стьюдента, ранговый критерий Вилкоксона, Фишера – Йейтса) или масштабом (классический F- критерий, ранговый критерий Ансари-Брэдли). Проверка однородности против альтернатив общего вида (критерий Колмогорова – Смирнова, критерий омега-квадрат). Сравнительный анализ ОАЭ изученных критериев для различных распределений выборок.
  • Дисперсионный анализ
    Задача однофакторного анализа (классический F-критерий, ранговый критерий Краскела – Уоллиса). Доверительное оценивание контрастов в гауссовской модели. Критерий Джонкхиера для упорядоченных альтернатив. ОАЭ классического критерия и критерия Краскела – Уоллиса.
  • Анализ статистической взаимосвязи социально-экономических явлений
    Шкалы измерений (количественная, порядковая, номинальная). Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). λ-меры прогноза Гутмана. Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации). Случайные векторы. Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Частные коэффициенты корреляции. Анализ структуры и тесноты связи между количественными переменными. Критерий хи-квадрат. Измерение тесноты связи при нелинейной зависимости (индекс корреляции и его оценивание по сгруппированным и несгруппированным данным). Анализ множественных связей (множественный коэффициент корреляции, его вычисление и свойства для общих и нормальных моделей).
  • Регрессионный анализ. Робастные методы оценивания параметров линейной регрессии. Сравнение свойств оценок, полученных различными методами
    Обзор методов оценивания параметров в линейных регрессионных моделях (ЛРМ): МНК, метод наименьших модулей (МНМ), ранговые методы, монотонные М-оценки Хьюбера и немонотонные М-оценки Тьюки, LMS и LTS -оценки. Асимптотические распределения М, R и L-оценок в ЛРМ. Определение пороговой точки BP (breakdown point) оценки параметров ЛРМ. Оценки с высокой пороговой точкой (HBP-оценки). Сравнительный анализ свойств оценок параметров ЛРМ, полученных различными методами.
Элементы контроля

Элементы контроля

  • неблокирующий О_накопл
  • неблокирующий О_экз.
    Форма экзамена: Экзамен проводится в письменной форме с использованием асинхронного прокторинга. Асинхронный прокторинг означает, что за всеми действиями студента во время проведения экзамена будет “наблюдать” компьютер. Процесс проведения экзамена записывается, анализируется искусственным интеллектом и человеком (проктором). Пожалуйста, будьте внимательны и чётко следуйте инструкциям! Платформа проведения: Экзамен проводится на платформе Moodle, онлайн платформе для проведения тестовых заданий различного уровня сложности. Прокторинг осуществляется с помощью системы Экзамус. Ссылка на прохождение экзаменационного задания будет размещена в ЛМС. К экзамену необходимо подключиться за 15 минут до начала. Технические требования и правила проведения экзамена: https://elearning.hse.ru/student_steps Для участия в экзамене студент обязан: Подготовить документ, удостоверяющий личность (паспорт, разворот с именем и фотографией) для идентификации перед началом выполнения экзаменационного задания; Проверить работу видеокамеры и микрофона, скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для выполнения экзаменационных заданий инструментов. Отключить в диспетчере задач компьютера иные приложения, кроме браузера, в котором будет выполняться вход на платформу StartExam. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 7 дней до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Выключать видеокамеру, микрофон; Покидать место выполнения экзаменационного задания (выходить за угол обзора камеры); Отводить взгляд от экрана компьютера, рабочего стола; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Нарушения связи: Кратковременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформой Экзамус не более 1 минуты. Долговременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформой Экзамус более 1 минуты. Долговременное нарушение связи во время экзамена является основанием для принятия решения о прекращении экзамена и выставление оценки “неудовлетворительно” (0 по десятибалльной шкале. В случае долговременного нарушения связи с платформой Экзамус во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * О_накопл + 0.5 * О_экз.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Прикладные методы анализа статистических данных : учеб. пособие для вузов, Горяинова, Е. Р., 2012

Рекомендуемая дополнительная литература

  • Maronna, R. A. (2018). Robust Statistics : Theory and Methods (with R) (Vol. Second edition). [Place of publication not identified]: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1921437
  • Анализ данных на компьютере, Тюрин, Ю. Н., 2003
  • Анализ социологических данных с помощью пакета SPSS : учеб. пособие для вузов, Крыштановский, А. О., 2006
  • Статистический анализ данных на компьютере, Тюрин, Ю. Н., 1998