Бакалавриат
2020/2021
Основы анализа данных в R
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Политология)
Направление:
41.03.04. Политология
Кто читает:
Департамент политики и управления
Где читается:
Факультет социальных наук
Когда читается:
2-й курс, 1 модуль
Формат изучения:
с онлайн-курсом
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Курс призван помочь студентам освоить базовые навыки из области эконометрики. Акцент делается на практических навыках, погружении в решение реальных эконометрических задач в среде R. По окончании курса студенты смогут строить простейшие эконометрические модели в R и продолжить совершествовать свои навыки в более продвинутых дисциплинах. Для прохождения курса каких-либо знаний эконометрики и R не требуется, но желательно знакомство с математической статистикой на уровне первого курса бакалавриата ОП «Политология».
Цель освоения дисциплины
- Основной целью дисциплины является обучение студентов базовым навыкам работы с данными в Rstudio, наиболее популярным методам математической статистики и другим видам количественного анализа в применении к задачам политической науки.
Планируемые результаты обучения
- Знает основные понятия математической статистики. Способен самостоятельно загружать данные в Rstudio.
- Владеет базовыми принципами визуализации данных. Понимает область применения различных графических инструментов. Владеет основными инструментами визуализации данных в R.
- Понимает различия между точечными и интервальными оценками, истинными и оцениваемыми параметрами. Способен проводить простые статистические тесты.
- Понимает область применения задач классификации. Способен проводить кластер-анализ данных несколькими инструментами. Умеет визуализировать результат. Способен решать задачу снижения размерности данных.
- Способен проводить регрессионный анализ и оценивать качество полученных моделей. Знает ограничения и область применения регрессионных моделей.
- Способен создавать и визуализировать сетевые графы. Умеет рассчитывать меры центральности.
- Владеет основными понятиями машинного анализа текста. Может проводить базовый количественный анализ и визуализировать результаты.
- Знает область применения и ограничения QCA. Способен пользоваться соответствующими программными средствами.
Содержание учебной дисциплины
- 1. Основы математической статистики. Базовые принципы работы с Rstudio.Понятие статистического эксперимента. Исход. Вероятность. Случайная величина. Реализация случайной переменной. Распределение. Параметры распределения. Центр, разброс, закон распределения. Истинные и выборочные параметры распределения. Основные элементы пользовательского интерфейса Rstudio. Базовые команды. Загрузка данных из разных источников. Выбор переменных. Фильтрация наблюдений.
- 2. Визуализация данных в RПостроение графиков и диаграмм базовыми инструментами R. Основы ggplot.
- 3. Статистические гипотезы и тесты.Доверительный интервал. Понятие статистической гипотезы. Проверка гипотезы о среднем. Проверка гипотез о связи. Критерий Хи-квадрат. Корреляция.
- 4. Задача классификацииКластер-анализ. Иерархический кластер-анализ. Дендрограммы. Кластер-анализ методом к-средних. Факторный анализ.
- 5. Регрессионный анализЛинейная регрессия методом наименьших квадратов. Оценка качества регрессионной модели. Логистическая регрессия.
- 6. Сетевой анализОсновы сетевого анализа. Понятие графа. Меры центральности. ERGM-регрессия. Визуализация графов в Rstudio.
- 7. Машинный анализ текстаОсновные понятия text mining. Форматы данных. Частотность и мера tf-idf. Слова, n-грамы, леммы. Кластеризация текстов. Анализ тональностей. Тематическое моделирование. Визуализация результатов.
- 8. QCAОсновные понятия теории множеств в приложении к QCA. Калибрация множеств. Необходимость и достаточность. Визуализация результатов.
Промежуточная аттестация
- Промежуточная аттестация (1 модуль)0.5 * Домашнее задание + 0.5 * Работа на семинарах
Список литературы
Рекомендуемая основная литература
- Adrian Duşa. (2007). User manual for the QCA(GUI) package in R. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.CE9BC08A
- Beck, V. L. (2017). Linear Regression : Models, Analysis, and Applications. Hauppauge, New York: Nova Science Publishers, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1562876
- Berry, M. W., & Kogan, J. (2010). Text Mining : Applications and Theory. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=314553
- Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
- Carrington, P. J., Scott, J., & Wasserman, S. (2005). Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=132264
- Charu C. Aggarwal. (n.d.). Chapter 1 AN INTRODUCTION TO SOCIAL NETWORK DATA ANALYTICS. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.A1C03FD0
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.
- Han Lin Shang. (2012). Graphics for statistics and data analysis with R. Journal of Applied Statistics, (8), 1843. https://doi.org/10.1080/02664763.2012.679355
- Hogg, R. V., McKean, J. W., & Craig, A. T. (2014). Introduction to Mathematical Statistics: Pearson New International Edition. Harlow: Pearson. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1418145
- Kabacoff, R. (DE-588)14294372X, (DE-576)350576106. (2011). R in action : data analysis and graphics with R / Robert I. Kabacoff. Shelter Island, NY: Manning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.347663451
- Kao, A., Poteet S. Natural Language Processing and Text Mining. - Springer, 2007. - ЭБС Books 24x7.
- Krum, R. (2014). Cool Infographics : Effective Communication with Data Visualization and Design. Indianapolis, Indiana: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=654832
- Lazega, E., & Snijders, T. A. B. (2016). Multilevel Network Analysis for the Social Sciences : Theory, Methods and Applications. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1119294
- Palumbo, F., International Federation of Classification Societies, Montanari, A., & Vichi, M. (2017). Data Science : Innovative Developments in Data Analysis and Clustering. Cham: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1548455
- Silge, J., & Robinson, D. (2017). Text Mining with R : A Tidy Approach (Vol. First edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1533983
- Statistics : учеб. пособие по англ. яз. для студентов 4 курса факультета "Экономика" отделения "Статистика, анализ данных и демография", Захарова, А. В., 2013
- Анализ социологических данных : методология, дескриптивная статистика, изучение связей между номинальными признаками : учеб.пособие для вузов, Толстова, Ю. Н., 2000
- Математико - статистические модели в социологии : математическая статистика для социологов: учеб. пособие, Толстова, Ю. Н., 2007
Рекомендуемая дополнительная литература
- An introduction to data analysis with 'R’ ; Introduction à l’analyse de données avec le logiciel R. (2019). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BE2A1501
- Configurational comparative methods : qualitative comparative analysis (QCA) and related techniques, , 2009
- Friendly, M., & Meyer, D. (2016). Discrete Data Analysis with R : Visualization and Modeling Techniques for Categorical and Count Data. Boca Raton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1910511
- Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.
- Политический анализ и прогнозирование. Ч. 2: ., Ахременко, А. С., 2018