• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Введение в Web Scraping и Data Mining в социальных науках

Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Социология)
Направление: 39.03.01. Социология
Когда читается: 4-й курс, 3 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 20
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4
Контактные часы: 42

Программа дисциплины

Аннотация

В результате освоения данной учебной дисциплины студенты: - освоят азы программирования в Python, достаточные для автоматизированной выгрузки с практически любых сайтов публичной информации, в т.ч. текстовой - освоят основные понятия и определения, относящимся к большим данным, DM, ОЛМ и ДК - научатся ориентироваться в методах математического объяснения и прогнозирования, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности - расширят свои знания и навыки применения статистических программных сред MS Excel, Python, SPSS. Изучение данной учебной дисциплины базируется на следующих дисциплинах: - введение в интеллектуальный анализ данных - компьютерные методы анализа социологических данных (или аналогичные дисциплины). Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения … что такое статистическая гипотеза … каковы типы шкал социологического измерения и их основные свойства … что такое парная и множественная связь и какими методами она измерима … что такое среда программирования Python, каковы основные опции статистических приложений MS Excel и SPSS • умение… … оценивать законы распределения случайных величин … проверять статистические гипотезы … измерять парную и множественную связи … строить простые логические и математические модели для решения содержательных задач в области анализа данных … писать релевантные алгоритмы в Python, задействуя релевантные модули, а также применять релевантные функции MS Excel и SPSS (ряд функций SPSS уникальны и не реализованы в известных модулях Python). Основные положения данной учебной дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин: - методы анализа больших данных в исследованиях поведения покупателей - научно-исследовательский семинар кафедры методов сбора и анализа социологической информации.
Цель освоения дисциплины

Цель освоения дисциплины

  • Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области построения прогностических моделей в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных. Достижение этого предлагается через решение следующих задач: а. Сопоставление парадигм анализа данных: «конфирматорная» (т.н. Theory-Driven), генетически связанная с эконометрикой и «эксплораторная» (т.н. Data-Driven), генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением БД б. Рассмотрение структуры Data Mining (часто переводится как «интеллектуальный анализ данных, но этот перевод не точен, поэтому в данной программе название сохранено в англоязычном виде, далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных в. Освоение алгоритмов веб-скрэпинга (web-scraping) для автоматизированного сбора социальных БД числовой, текстовой и прочих модальностей и последующего построения на этих данных поддающихся интерпретации прогностических моделей г. Изучение и сравнение методов математического объяснения и прогнозирования из класса обобщённых линейных моделей (General, или Generalized, linear models, далее – ОЛМ) и деревьев классификации (Answer trees, или Classification trees, далее – ДК). В частности, изучение критериев качества получаемых посредством этих методов моделей и путей максимизации и балансировки этих критериев.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
  • Знать определение Data Mining и больших данных в контексте социальных наук
  • Владеть методами построения объяснительных и прогностических моделей, относящихся к ОЛМ и ДК
  • Владеть общим алгоритмом построения объяснительных и прогностических моделей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
  • Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
  • Структурирование социальных больших данных: построения объяснительных и прогностических моделей
  • Общий алгоритм построения объяснительных и прогностических моделей
Элементы контроля

Элементы контроля

  • неблокирующий Активность
  • неблокирующий Проект (1-ый этап)
  • неблокирующий Проект (2-ой этап)
  • неблокирующий Контрольная работа №1
  • неблокирующий Контрольная работа №2
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 3 модуль
    0.2 * Активность + 0.125 * Контрольная работа №1 + 0.125 * Контрольная работа №2 + 0.145 * Проект (1-ый этап) + 0.145 * Проект (2-ой этап) + 0.26 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alpaydin, E. (2014). Introduction to Machine Learning (Vol. Third edition). Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=836612
  • Attewell, P. A., & Monaghan, D. B. (2015). Data Mining for the Social Sciences : An Introduction (Vol. First edition). Oakland, California: University of California Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=967323
  • Chu, W. W. (2013). Data Mining and Knowledge Discovery for Big Data : Methodologies, Challenge and Opportunities. Heidelberg: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=643546
  • Eagle, N., & Greene, K. (2014). Reality Mining : Using Big Data to Engineer a Better World. Cambridge, Massachusetts: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=826635
  • Kollo, T., & World Scientific (Firm). (2013). Multivariate Statistics: Theory And Applications - Proceedings Of The Ix Tartu Conference On Multivariate Statistics And Xx International Workshop On Matrices And Statistics. Singapore: World Scientific. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=689795
  • Kotu, V., & Deshpande, B. (2014). Predictive Analytics and Data Mining : Concepts and Practice with RapidMiner. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=919334
  • Larose, D. T., & Larose, C. D. (2015). Data Mining and Predictive Analytics. Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=958471
  • Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115

Рекомендуемая дополнительная литература

  • Kantardzic, M., & Recorded Books, I. (2019). Data Mining : Concepts, Models, Methods, and Algorithms (Vol. Third edition). [Place of publication not identified]: Wiley-IEEE Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2282578