• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Технологии анализа данных

Направление: 38.04.05. Бизнес-информатика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Информационная аналитика в управлении предприятием
Язык: русский
Кредиты: 7
Контактные часы: 90

Программа дисциплины

Аннотация

Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и результатам обучения студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих дисциплину «Технологии анализа данных», учебных ассистентов и студентов направления подготовки 38.04.05 Бизнес-информатика, обучающихся по образовательной программе «Информационная аналитика в управлении предприятием».
Цель освоения дисциплины

Цель освоения дисциплины

  • приобретение студентами базовых знаний по основам анализа данных
  • знакомство с прикладными задачами дисциплины
  • анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении
  • получения практических навыков использования статистических и эмпирических методов анализа в ходе разработки и экспериментального исследования новых программных продуктов
  • развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на проверку данных на выбросы, нормальное распределение.
  • Решает задачи теории статистического оценивания и проверки гипотез. Может оценить взаимосвязь между несколькими переменными.
  • Решает задачи классификации и кластеризации пространства наблюдений
  • Решает задачи классификации и кластеризации пространства наблюдений.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Предварительный анализ данных и визуализция
    Статистические методы обработки экспериментальных данных. Основные понятия и задачи математической статистики. Генеральная совокупность, выборка, результаты наблюдений, статистика, статистическая оценка, требования к оценкам. Классификация признаков по шкалам измерений. Описательная статистика: среднее значение, математическое ожидание, медиана, мода, дисперсия, среднее квадратичное отклонение, коэффициент вариации, показатель точности опыта, минимум, максимум, размах выборки, моменты распределения. Вариационная статистика: параметры классовых интервалов, группировка, функции эмпирического распределения. Ранжирование. Проверка случайности выборки из нормальной совокупности. Статистические гипотезы и статистические критерии. Характеристики критериев. Тест Вальда. Тест Стьюдента. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Введение в A/B-тестирование. Критерий последовательного отношения правдоподобия. Непараметрические критерии.
  • Раздел 2. Корреляционный анализ данных
    Парный коэффициент корреляции. Проверка гипотезы о значимости коэффициента корреляции. Доверительный интервал для парного коэффициента корреляции. Частный коэффициент корреляции. Проверка гипотезы о значимости частного коэффициента корреляции. Доверительный интервал для частного коэффициента корреляции. Множественный коэффициент корреляции. Проверка гипотезы о значимости множественного коэффициента корреляции. Корреляционный анализ качественных данных. Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). lambda−меры прогноза Гутмана. Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации).
  • Раздел 3. Методы классификации многомерных наблюдений
    Классификация многомерных наблюдений без обучения (непараметрический случай), кластерный анализ. Общая постановка задачи автоматической классификации, классификации без обучения, понятия кластерного анализа. Метрики расстояния и близости между объектами, расстояния между кластерами. Функционалы качества разбиения. Основные типы задач и алгоритмов кластерного анализа. Иерархические, параллельные и последовательные процедуры кластерного анализа. Метод к-средних. Зависимость выбора алгоритма классификации от цели статистического исследования. Классификация многомерных наблюдений при наличии обучающих выборок, дискриминантный анализ. Методы классификации с обучением, основные понятия дискриминантного анализа. Обучающие выборки. Линейный дискриминантый анализ при известных параметрах многомерного нормального закона распределения (случай двух классов и общий случай). Вероятность ошибочной классификации с помощью дискриминантной функции. Оценка качества дискриминантной функции и информативности отдельных признаков. Классификация многомерных наблюдений без обучения (параметрический случай), расщепление смесей вероятностных распределений. Канонические корреляции. Понятие и задача расщепления смеси вероятностных распределений. Алгоритм решения задачи автоматической классификации в рамках модели смеси распределений, приводящий к схеме дискриминантного анализа Канонические корреляции и канонические величины генеральной совокупности, их оценивание, интерпретация и использование в экономических исследованиях.
  • Раздел 4. Регрессионный анализ
    Анализ однофакторной регрессионной модели Простейшая линейная регрессионная модель (ПЛРМ). Природа случайной ошибки. Корреляционное поле наблюдений и его применение к выбору формы регрессии. Оценки методом наименьших квадратов коэффициентов ПЛРМ. Интерпретация коэффициентов ПЛРМ. Коэффициент детерминации и его свойства. Теорема Гаусса–Маркова. Доверительные интервалы для коэффициентов регрессии и проверка гипотез об их значимости (t – тест). Проверка значимости всей регрессии на основе критерия Фишера. Прогнозирование значения зависимой переменной по ПЛРМ, точность прогноза. Функциональные преобразования в линейной регрессионной модели. Линеаризация нелинейной регрессионной модели. Анализ общей линейной модели наблюдений при классических предположениях Множественный регрессионный анализ: особенности спецификации модели, отбор факторов при построении множественной регрессии. Классическая нормальная линейная модель множественной регрессии, оценка параметров методом МНК, ковариационная матрица и ее выборочная оценка. Оценка дисперсии возмущений. Определение доверительных интервалов для коэффициентов и функции регрессии. Оценка значимости множественной регрессии. Анализ линейной модели наблюдений при отклонениях от классических предположений Возможные отклонения от предположений классической общей линейной модели наблюдений (ОЛМН): закон распределения, отличный от нормального; автокорреляция, ее суть, причины, последствия, обнаружение и методы устранения; гетероскедастичность, ее суть, последствия, обнаружение и методы смягчения проблемы гетероскедастичности; Исследовательские методы проверки отсутствия гомоскедастичности: тесты Спирмена, Голдфелда–Квандта, Уайта. Мультиколлинеарность, ее суть, последствия, определение и методы устранения. Взвешенный МНК как частный случай обобщенного МНК; содержательный смысл этого подхода. Метод максимального правдоподобия. Реализация этого метода для модели с двумя группами однородных наблюдений.
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Самостоятельная работа
  • неблокирующий Аудиторная работа
  • неблокирующий Экзамен
    Проведение экзамена по дисциплине «Технологии анализа данных» магистры 1 курс экзамен предполагает написание теста в системе контроля знаний «Траектория». Также возможно получение оценки за экзамен по средней арифметической накопленных оценок. Так же для получения оценки за экзамен можно выполнить индивидуальный проект (самостоятельная работа) Критерии оценивания Приведено полное верное решение. Решение подробно обосновано 9-10 Приведено полное верное решение. Решение подробно обосновано. Но в решении присутствуют незначительные ошибки 7-8 Приведено полное верное решение, но отсутствует его объяснение или в решении допущены отдельные существенные ошибки 4-6 Выбран верный метод решения, но в решении имеются существенные ошибки 2-3 Выбран неверный метод. Решение не соответствует постановке задачи 1 Решение отсутствует 0. Проект (самостоятельная работа) выполняется студентом самостоятельно. Тема выбирается на выбор студента. Примеры возможной темы: предсказание вероятности мошеннической транзакции в финансовом секторе. стоимости квартиры на основании существующих объявлений на Avito с целью оценки стоимости собственной недвижимости для её последующей продажи. Проект должен включать в себя - формулировку решаемой реальной (или приближенной к реальной) проблемы и постановку задачи машинного обучения; - загрузку, очистку и преобразование данных; - обучение нескольких моделей машинного обучения для решения поставленной задачи; - оценка качества работы обученных моделей; - выводы о возможности применение одной из обученных моделей для решения поставленной проблемы; - откомментированный программный код на языке R, с выполнением различных этапов проекта, в том числе с использованием функций языка R, не проходившихся в рамках курса.
  • неблокирующий Домашняя работа
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.1 * Аудиторная работа + 0.2 * Домашняя работа + 0.2 * Контрольная работа + 0.1 * Самостоятельная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Миркин, Б. Г. Введение в анализ данных : учебник и практикум / Б. Г. Миркин. — Москва : Издательство Юрайт, 2016. — 174 с. — (Авторский учебник). — ISBN 978-5-9916-5009-0. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://biblio-online.ru/bcode/388371

Рекомендуемая дополнительная литература

  • Эконометрика : учебник для бакалавриата и магистратуры / И. И. Елисеева [и др.] ; под редакцией И. И. Елисеевой. — Москва : Издательство Юрайт, 2019. — 449 с. — (Бакалавр и магистр. Академический курс). — ISBN 978-5-534-00313-0. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://www.biblio-online.ru/bcode/431129 (дата обращения: 08.09.2019)
  • Эконометрика. Практикум: Учебное пособие / С.А. Бородич. - М.: НИЦ ИНФРА-М; Мн.: Нов. знание, 2014. - 329 с.: ил.; 60x90 1/16. - (Высшее образование: Бакалавриат). (переплет) ISBN 978-5-16-009429-8 - Режим доступа: http://znanium.com/catalog/product/440758