• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы анализа данных в R

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 1 модуль

Преподаватели


Юрескул Егор Анатольевич

Программа дисциплины

Аннотация

Курс призван помочь студентам освоить базовые навыки из области эконометрики. Акцент делается на практических навыках, погружении в решение реальных эконометрических задач в среде R. По окончании курса студенты смогут строить простейшие эконометрические модели в R и продолжить совершествовать свои навыки в более продвинутых дисциплинах. Для прохождения курса каких-либо знаний эконометрики и R не требуется, но желательно знакомство с математической статистикой на уровне первого курса бакалавриата ОП «Политология».
Цель освоения дисциплины

Цель освоения дисциплины

  • Основной целью дисциплины является обучение студентов базовым навыкам работы с данными в Rstudio, наиболее популярным методам математической статистики и другим видам количественного анализа в применении к задачам политической науки.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает основные понятия математической статистики. Способен самостоятельно загружать данные в Rstudio.
  • Владеет базовыми принципами визуализации данных. Понимает область применения различных графических инструментов. Владеет основными инструментами визуализации данных в R.
  • Понимает различия между точечными и интервальными оценками, истинными и оцениваемыми параметрами. Способен проводить простые статистические тесты.
  • Понимает область применения задач классификации. Способен проводить кластер-анализ данных несколькими инструментами. Умеет визуализировать результат. Способен решать задачу снижения размерности данных.
  • Способен проводить регрессионный анализ и оценивать качество полученных моделей. Знает ограничения и область применения регрессионных моделей.
  • Способен создавать и визуализировать сетевые графы. Умеет рассчитывать меры центральности.
  • Владеет основными понятиями машинного анализа текста. Может проводить базовый количественный анализ и визуализировать результаты.
  • Знает область применения и ограничения QCA. Способен пользоваться соответствующими программными средствами.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • 1. Основы математической статистики. Базовые принципы работы с Rstudio.
    Понятие статистического эксперимента. Исход. Вероятность. Случайная величина. Реализация случайной переменной. Распределение. Параметры распределения. Центр, разброс, закон распределения. Истинные и выборочные параметры распределения. Основные элементы пользовательского интерфейса Rstudio. Базовые команды. Загрузка данных из разных источников. Выбор переменных. Фильтрация наблюдений.
  • 2. Визуализация данных в R
    Построение графиков и диаграмм базовыми инструментами R. Основы ggplot.
  • 3. Статистические гипотезы и тесты.
    Доверительный интервал. Понятие статистической гипотезы. Проверка гипотезы о среднем. Проверка гипотез о связи. Критерий Хи-квадрат. Корреляция.
  • 4. Задача классификации
    Кластер-анализ. Иерархический кластер-анализ. Дендрограммы. Кластер-анализ методом к-средних. Факторный анализ.
  • 5. Регрессионный анализ
    Линейная регрессия методом наименьших квадратов. Оценка качества регрессионной модели. Логистическая регрессия.
  • 6. Сетевой анализ
    Основы сетевого анализа. Понятие графа. Меры центральности. ERGM-регрессия. Визуализация графов в Rstudio.
  • 7. Машинный анализ текста
    Основные понятия text mining. Форматы данных. Частотность и мера tf-idf. Слова, n-грамы, леммы. Кластеризация текстов. Анализ тональностей. Тематическое моделирование. Визуализация результатов.
  • 8. QCA
    Основные понятия теории множеств в приложении к QCA. Калибрация множеств. Необходимость и достаточность. Визуализация результатов.
Элементы контроля

Элементы контроля

  • неблокирующий Работа на семинарах
  • неблокирующий Домашнее задание
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.5 * Домашнее задание + 0.5 * Работа на семинарах
Список литературы

Список литературы

Рекомендуемая основная литература

  • Adrian Duşa. (2007). User manual for the QCA(GUI) package in R. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.CE9BC08A
  • Beck, V. L. (2017). Linear Regression : Models, Analysis, and Applications. Hauppauge, New York: Nova Science Publishers, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1562876
  • Berry, M. W., & Kogan, J. (2010). Text Mining : Applications and Theory. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=314553
  • Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
  • Carrington, P. J., Scott, J., & Wasserman, S. (2005). Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=132264
  • Charu C. Aggarwal. (n.d.). Chapter 1 AN INTRODUCTION TO SOCIAL NETWORK DATA ANALYTICS. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.A1C03FD0
  • Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.
  • Han Lin Shang. (2012). Graphics for statistics and data analysis with R. Journal of Applied Statistics, (8), 1843. https://doi.org/10.1080/02664763.2012.679355
  • Hogg, R. V., McKean, J. W., & Craig, A. T. (2014). Introduction to Mathematical Statistics: Pearson New International Edition. Harlow: Pearson. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1418145
  • Kabacoff, R. (DE-588)14294372X, (DE-576)350576106. (2011). R in action : data analysis and graphics with R / Robert I. Kabacoff. Shelter Island, NY: Manning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.347663451
  • Kao, A., Poteet S. Natural Language Processing and Text Mining. - Springer, 2007. - ЭБС Books 24x7.
  • Krum, R. (2014). Cool Infographics : Effective Communication with Data Visualization and Design. Indianapolis, Indiana: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=654832
  • Lazega, E., & Snijders, T. A. B. (2016). Multilevel Network Analysis for the Social Sciences : Theory, Methods and Applications. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1119294
  • Palumbo, F., International Federation of Classification Societies, Montanari, A., & Vichi, M. (2017). Data Science : Innovative Developments in Data Analysis and Clustering. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1548455
  • Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983
  • Statistics : учеб. пособие по англ. яз. для студентов 4 курса факультета "Экономика" отделения "Статистика, анализ данных и демография", Захарова, А. В., 2013
  • Анализ социологических данных : методология, дескриптивная статистика, изучение связей между номинальными признаками : учеб.пособие для вузов, Толстова, Ю. Н., 2000
  • Математико - статистические модели в социологии : математическая статистика для социологов: учеб. пособие, Толстова, Ю. Н., 2007

Рекомендуемая дополнительная литература

  • An introduction to data analysis with 'R’ ; Introduction à l’analyse de données avec le logiciel R. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BE2A1501
  • Configurational comparative methods : qualitative comparative analysis (QCA) and related techniques, , 2009
  • Friendly, M., & Meyer, D. (2016). Discrete Data Analysis with R : Visualization and Modeling Techniques for Categorical and Count Data. Boca Raton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1910511
  • Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.
  • Политический анализ и прогнозирование. Ч. 2: ., Ахременко, А. С., 2018