• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2019/2020

Статистический анализ и визуализация данных в среде R

Статус: Курс по выбору (Маркетинг и рыночная аналитика)
Направление: 38.03.02. Менеджмент
Кто читает: Кафедра стратегического маркетинга
Когда читается: 3-й курс, 4 модуль
Формат изучения: с онлайн-курсом
Преподаватели: Вейлер Дарья Александровна
Язык: русский
Кредиты: 4
Контактные часы: 4

Программа дисциплины

Аннотация

Статистическая обработка данных и визуализация результатов анализа - это неизбежный этап работы с данными, полученными в различных областях естественных наук, в маркетинге, в социологии, психологии или экономике. В этом курсе подробно разберем основы статистики и познакомимся с основами языка статистического программирования R. Вы научитесь гибко использовать средства визуализации (диаграммы, графики и т.п.), чтобы сделать результаты анализа максимально доступными и понятными. Вы научитесь рассчитывать основные описательные статистики: медиану и квантили, среднее и стандартное отклонение. Вы познакомитесь с принципами использования теоретических распределений статистик для построения доверительных интервалов и тестирования гипотез (на примере t-критерия). Вы узнаете о сложностях, возникающих при множественном тестировании гипотез и научитесь преодолевать их. Этот курс для людей, начинающих знакомство со статистикой, а также для тех, кто хочет не только освоить базовые возможности языка R, но и научиться строить сложные графики и анализировать простые и множественные регрессии. Если вы сталкиваетесь с необходимостью поиска и описания взаимосвязей между теми или иными явлениями, которые могут быть измерены количественно, тогда этот курс - хорошая возможность понять, как устроены простая и множественная линейная регрессия, узнать о возможностях и ограничениях этих методов. Онлайн курс размещен на платформе Coursera: (1) Знакомство с R https://www.coursera.org/learn/znakomstvo-r-bazovaya-statistika? и (2) Линейная регрессия https://www.coursera.org/learn/lineynaya-regressiya? (преподаватели: Варфоломеева М.А. и Хайтов В.М.). Курс подготовлен преподавателями Санкт-Петербургского государственного университета.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство со статистическим языком программирования R
  • Развить навыки программирования: построения графиков, исследования данных, построения линейных регрессий в R.
Планируемые результаты обучения

Планируемые результаты обучения

  • Установлены и настроены R и RStudio
  • Умение разными способами извлекать части векторов и таблиц и использовать для вычислений только нужные фрагменты данных.
  • Умение открывать данные из внешних источников на примере .xlsx или .csv файлов
  • Умение строить графики разной степени сложности, пользуясь принципами грамматики графиков (средствами пакета ggplot2).
  • Знание, как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr.
  • Умение использовать описательные статистики в анализе выборок
  • Умение интерпретировать коэффициенты регрессии
  • Знание, когда и как можно использовать линейные модели для предсказаний на новых данных.
  • Умение написать на языке R полный скрипт для подбора, диагностики и представления результатов простой линейной регрессии.
  • Понимание структуры линейной регрессии и принципов ее построения.
  • Знание модельной матрицы и хат-матрицы
  • Умение рассчитывать остаточную дисперсию, вариационно-ковариационную матрицу и использовать все это для построения доверительной зоны регрессии
  • Знание методов выявления мультиколлинеарности и методов "борьбы"
  • Знание приемов создания информативных графиков, в случае если переменных больше двух.
  • Умение сравнивать линейные модели
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Знакомство с R
    Знакомство с языком статистического программирования R - основным инструментом, который мы будем использовать для анализа данных. Вы узнаете, как установить и настроить R и RStudio и как получить помощь. К концу модуля вы сможете использовать операторы и функции R для работы с числами и векторами.
  • Работа с данными
    Существует множество способов представления и хранения данных в R. Какие бывают типы данных, методы их препарирования. Принципы организации табличных данных для удобства машинного анализа (опрятные данные, tidy data).
  • Графики с использованием ggplot2
    Графическое представление данных позволяет получить максимум информации за минимальный промежуток времени - часто это лучший способ представить данные в отчете. Как создавать в R автоматизированные отчеты с помощью rmarkdown и knitr.
  • Описательная статистика
    Чаще всего, анализируя данные, мы имеем дело с выборками, но хотим делать выводы о свойствах генеральной совокупности, из которой они взяты. Описание выборок - это первый этап анализа данных. Знакомство с основными описательными статистиками и их свойствами (медиана, квартили, среднее, дисперсия, стандартное отклонение). Свойства нормального и t- распределения. Вычисление вероятности с помощью статистик. Центральная предельная теорема, построение доверительных интервалов к оценкам средних.
  • Корреляционный анализ. Простая линейная регрессия
    Методы численного описания связей между количественными величинами с коэффициентами ковариации и корреляции, которые позволяют оценить силу и направление связи. Какую дополнительную информацию о связях можно получить, построив линейную модель зависимости между величинами.
  • Проверка значимости и валидности линейных моделей
    Построить линейную модель и записать ее уравнение - это только самое начало анализа. Описание результатов регрессионного анализа: проверка статистической значимости модели в целом или ее коэффициентов, оценка качества подгонки. У линейных моделей (вернее, у статистических тестов, которые для них используются), как у любого метода, есть свои ограничения. Ограничения линейной модели. Использование графических методов диагностики.
  • Краткое введение в мир линейной алгебры
    Погружение в самое сердце линейных моделей. Изучить или вспомнить основы линейной алгебры.Разновидности матриц, способы их создания в R и основные операции с ними. Что такое модельная матрица, научитесь записывать уравнение линейной регрессии в виде матриц и находить его коэффициенты. Хэт-матрица, которая позволяет получать предсказанные значения. Вы научитесь рассчитывать остаточную дисперсию, вариационно-ковариационную матрицу и использовать все это для построения доверительной зоны регрессии. Эти знания помогут разобраться с устройством более сложных моделей: с дискретными предикторами, с другими распределениями остатков, с иным устройством вариационно-ковариационной матрицы.
  • Множественная линейная регрессия
    Чаще всего связи между величинами устроены сложнее, чем это можно описать при помощи простой линейной регрессии. Множественная линейная регрессия используется, чтобы описать, как переменная-отклик зависит от нескольких предикторов. С появлением в модели множества предикторов у линейной регрессии появляется новое условие применимости - требование отсутствия мультиколлинеарности. Выявление проблемы мультиколлинеарности, методы "борьбы" с проблемой. Нередко во множественных моделях переменных больше, чем это можно изобразить на плоскости, поэтому мы научим вас простым приемам, которые помогут создавать информативные графики.
  • Сравнение линейных моделей
    Множественные линейные модели подобны конструктору: более сложные модели можно разбирать на части и упрощать. Вы узнаете, как сравнение вложенных моделей при помощи частного F-теста используется при проверке значимости отдельных предикторов или их групп. Более сложные модели лучше описывают исходные данные, но избыточное усложнение опасно, т.к. такие модели начинают давать плохие предсказания на новых данных. При помощи частных F-тестов можно упрощать модели, постепенно исключая незначимые предикторы. Упрощенные модели легче использовать для интерпретации и представления результатов.
Элементы контроля

Элементы контроля

  • неблокирующий Тесты
  • неблокирующий Письменный экзамен
    Дисциплина читается в формате MOOC на платформе Coursera и состоит из двух курсов: (1) "Знакомство с R и базовая статистика" https://www.coursera.org/learn/znakomstvo-r-bazovaya-statistika?specialization=prosto-o-statistike; (2) "Линейная Регрессия” https://www.coursera.org/learn/lineynaya-regressiya?. Дедлайн завершения курса 16 июня 2020. Выполнение индивидуального итогового проекта по курсу: "Линейная Регрессия” https://www.coursera.org/learn/lineynaya-regressiya?, направленного на проверку освоения знаний по темам курсов: "Знакомство с R и базовая статистика” и "Линейная Регрессия”, является экзаменом по дисциплине. Студенты могут пользоваться материалами курса и дополнительными материалами для выполнения экзаменационного задания и должны выполнить финальный проект самостоятельно.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.5 * Письменный экзамен + 0.5 * Тесты
Список литературы

Список литературы

Рекомендуемая основная литература

  • Демидова О. А., Малахов Д. И. - ЭКОНОМЕТРИКА. Учебник и практикум для прикладного бакалавриата - М.:Издательство Юрайт - 2019 - 334с. - ISBN: 978-5-534-00625-4 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/ekonometrika-432950

Рекомендуемая дополнительная литература

  • Cirillo, A. (2017). R Data Mining. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1643003