• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Methodology and Research Methods in Sociology: Contemporary Methods of Sociological Data Analysis

2020/2021
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Delivered at:
School of Sociology
Course type:
Compulsory course
When:
1 year, 3, 4 module

Instructors

Программа дисциплины

Аннотация

В результате освоения данной учебной дисциплины студенты: - освоят азы программирования в Python, достаточные для автоматизированной выгрузки с практически любых сайтов публичной информации, в т.ч. текстовой - освоят основные понятия и определения, относящимся к большим данным, DM, ОЛМ и ДК - научатся ориентироваться в методах математического объяснения и прогнозирования, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности - расширят свои знания и навыки применения статистических программных сред MS Excel, Python, SPSS. Изучение данной учебной дисциплины базируется на следующих дисциплинах: - введение в интеллектуальный анализ данных - компьютерные методы анализа социологических данных (или аналогичные дисциплины). Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения … что такое статистическая гипотеза … каковы типы шкал социологического измерения и их основные свойства … что такое парная и множественная связь и какими методами она измерима … что такое среда программирования Python, каковы основные опции статистических приложений MS Excel и SPSS • умение… … оценивать законы распределения случайных величин … проверять статистические гипотезы … измерять парную и множественную связи … строить простые логические и математические модели для решения содержательных задач в области анализа данных … писать релевантные алгоритмы в Python, задействуя релевантные модули, а также применять релевантные функции MS Excel и SPSS (ряд функций SPSS уникальны и не реализованы в известных модулях Python). Основные положения данной учебной дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин: - методы анализа больших данных в исследованиях поведения покупателей - научно-исследовательский семинар кафедры методов сбора и анализа социологической информации.
Цель освоения дисциплины

Цель освоения дисциплины

  • Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области построения прогностических моделей в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных. Достижение этого предлагается через решение следующих задач: а. Сопоставление парадигм анализа данных: «конфирматорная» (т.н. Theory-Driven), генетически связанная с эконометрикой и «эксплораторная» (т.н. Data-Driven), генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением БД б. Рассмотрение структуры Data Mining (часто переводится как «интеллектуальный анализ данных, но этот перевод не точен, поэтому в данной программе название сохранено в англоязычном виде, далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных в. Освоение алгоритмов веб-скрэпинга (web-scraping) для автоматизированного сбора социальных БД числовой, текстовой и прочих модальностей и последующего построения на этих данных поддающихся интерпретации прогностических моделей г. Изучение и сравнение методов математического объяснения и прогнозирования из класса обобщённых линейных моделей (General, или Generalized, linear models, далее – ОЛМ) и деревьев классификации (Answer trees, или Classification trees, далее – ДК). В частности, изучение критериев качества получаемых посредством этих методов моделей и путей максимизации и балансировки этих критериев.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать определение Data Mining и больших данных в контексте социальных наук
  • Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
  • Владеть методами построения объяснительных и прогностических моделей, относящихся к ОЛМ и ДК
  • Владеть общим алгоритмом построения объяснительных и прогностических моделей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
    Основы современного Data Mining в социальных науках: эксплораторность, большие данные, программирование Парадигмы анализа данных: «конфирматорная» и «эксплораторная»: история конкуренции и современное состояние. Идеи Дж.О. Юла, Э. Симпсона и Дж. Тьюки. Влияние на анализ данных появления нереактивных данных и больших данных. Перенос подходов Data Mining (далее – DM) из компьютерных наук в социальные. Определение DM в социальных науках: • DM как первичное нереактивное измерение – прежде всего в онлайн-среде (web scraping); • DM как идеология работы с собранными данными, лежащая в основе эксплораторного дизайна исследования в противовес конфирматорному дизайну; • DM как техники углублённого «понимания» респондентов в контексте массовых опросов. Под «пониманием» респондентов подразумевается адаптация исследовательских шкал под имеющиеся ответы респондентов для более насыщенной интерпретации этих ответов. Оцифровка – одна из процедур такой адаптации; • DM как интеллектуальный анализ данных, т.е. анализ, предполагающий разработку уникального методно-аналитического комплекса под каждую сложную аналитическую задачу. Уникальность состоит в учёте множества логических развилок на пути решения сложной задачи и обоснованном выборе более подходящей ветви в рамках каждой развилки; в возврате к предыдущей развилке в случае неудовлетворительно результата ранее выбранной развилки; в итеративности таких выборов и возвратов. Под сложной задачей понимается задача, включающая много содержательных слоёв, или уровней, каждый из которых требует содержательной интерпретации. Специфика социальных больших данных Специфика применения DM к социальным большим данным по сравнению с ситуацией в компьютерных науках: • в социальных науках при обычном (реактивном) сборе данных в большей мере используются категориальные шкалы, тогда как большие данные обычно организованы в формате метрических и бинарных переменных. Кроме того, в социальных больших данных тоже есть место для категориальных шкал: категориальными шкалами обычно выражается экспертная оценка, с которой как с эталоном (т.н. учитель, или словарь) машина соотносит собираемые данные; • в компьютерных науках модели должны иметь прогностическую силу (величину, обратную Loss) не ниже 0,9. Такая прогностическая сила достигается даже в ущерб непереобученности (overfitting) модели. Это не удивительно, т.к., во-первых, большие данные в компьютерных науках – это обычно и есть генеральная совокупность, и, во-вторых, практические задачи в компьютерных науках требуют крайне высокой точности: скажем, распознать образ на 50% – это не распознать его вовсе. Обратной стороной смещения баланса между прогностической силой и непереобученностью модели является риск неработоспособности модели за пределами больших данных, на которых она построена; • в компьютерных науках в погоне за высокой прогностической силой из исходных переменных создаются новые, зачастую многомерные, переменные (т.н. feature engineering), которые затруднительно или невозможно интерпретировать (т.н. принцип чёрного ящика в машинном обучении). В эконометрике и социальных науках есть отчасти аналогичный процесс – создание многомерных эффектов взаимодействия, но к эффектам взаимодействия предъявляется строго требование интерпретируемости. Таким образом, формулировку баланса «прогностическая сила – непереобученность», к которому следует стремиться в социальных науках, можно дополнить в следующем ключе: «прогностическая сила – непереобученность и интерпретируемость»; • в компьютерных и социальных науках разный язык касательно области анализа данных. Основные источники социальных больших данных: • «обычные» веб-сайты (не имеют собственных API) • социальные сети (имеют собственные API). Основные форматы социальных больших данных: • файлы форматов txt, csv, xls, sav • данные в форматах json, xml.
  • Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
    Ограничения веб-скрэпинга: • проблемы архитектуры изучаемых сайтов, • необходимость авторизации, • прямой запрет, указанный на станицах формата */robots.txt Фреймворки, модули, классы и методы программной среды Python для веб-скрэпинга: • фреймворк scrapy https://docs.scrapy.org/en/latest/ • модуль requests http://docs.python-requests.org/en/master/ • класс BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Фреймворки, модули, классы и методы программной среды Python для структурирования больших данных, факторизации и кластеризации: • модуль pandas https://pandas.pydata.org/ • модуль sklearn http://scikit-learn.org/stable/ • модуль statsmodels http://www.statsmodels.org/ • модуль prince https://github.com/MaxHalford/prince Универсальный алгоритм веб-скрэпинга 1. Выгрузка неструктурированной информации с одной нединамической интернет-страницы. 2. Цикл для перехода между блоками html-кода. 3. Выгрузка неструктурированной информации с нескольких нединамических интернет-страниц. Ориентиры и циклы для перехода между страницами 4. Запись выгруженной информации в словарь и в data frame 5. Токенизация и лемматизация текстовой информации
  • Структурирование социальных больших данных: построения объяснительных и прогностических моделей
    Прогнозирование – пожалуй, самая трудная задача в любой науке. В этом смысле рассматриваемые методы являются ключевым элементом анализа данных («количественного»). Они более требовательны к входным данным, чем методы, нацеленные на поиск связи и на описание. Поэтому они предполагают проверку множества параметров качества итоговых моделей. Применение регрессии и классификации в социальных науках (по сравнению с эконометрикой и компьютерными науками) сопряжено с дополнительными трудностями и требует проверки дополнительных параметров качества итоговых моделей. Проблемы построения объяснительных и прогностических моделей в социальных науках Во-первых, ориентируясь на условно эконометрическую и компьютерную парадигмы построения моделей, представители социальных наук зачастую берут худшее из обеих: из эконометрической берут пренебрежение к требованию высокой прогностической силы создаваемых моделей, но не берут всесторонне проработанный инструментарий проверки технических характеристик модели, а из компьютерной парадигмы берут пренебрежение к требованиям генерализуемости создаваемых моделей. Во-вторых, данные, на которых строятся модели в социальных науках, зачастую уступают по своему качеству как данным в экономике, так и данным в компьютерных науках, поскольку в социальных науках обычно источником данных выступают респонденты (которые, грубо говоря, зачастую уклоняются как от участия в выборке, приводя к её смещению и необходимости постоянного ремонта, так и от правдивых ответов на отдельные «неудобные» вопросы), тогда как в экономике основным источником данных выступают беспристрастные экономические институты и организации, а в компьютерных науках данные собираются в основном помимо воли источника данных (нереактивные данные). Поэтому в социальных науках большинство моделей, претендующих на математическое объяснение и прогнозирование, на деле, не дают приращения знания по сравнению с аналогичными корреляционными моделями и редко получают практическое применение. Решением обозначенных проблем является частичный переход социальных наук на нереактивные данные и внедрение принципов построения практически полезных объяснительных и прогностических моделей. Области практического применения объяснительных и прогностических моделей в прикладных социальных исследованиях: сегментация целевой аудитории, многомерное содержательное описание сегментов, персонализация рыночных предложений. В основе решения всех подобных задач лежат ответы на два вопроса: … зная значения предикторов, какие можно получить значение отклика? … имея целевое значение отклика, какие релевантные значения предикторов подобрать? Различия методов для построения объяснительных и прогностических моделей С точки зрения типа шкалы зависимой переменной, или отклика: числовая континуальная VS дискретная категориальная – рассматриваемые методы делятся на регрессию и классификацию соответственно. В терминах компьютерных наук регрессия и классификация – методы обучения без учителя. С точки зрения конкретных алгоритмов, рассматриваемые методы делятся на: обобщённые линейные модели (General, или Generalized, linear models, далее – ОЛМ) и деревья классификации (Answer trees, или Classification trees, далее – ДК). ОЛМ и ДК, в свою очередь, включают много методов. Ниже приведены примеры методов для построения объяснительных и прогностических моделей: ОЛМ ДК Регрессия Линейная регрессия методом наименьших квадратов CHAID, основанный на критерии Фишера Классификация Логистическая регрессия, основанная на биномиальном распределении CHAID, основанный на критерии Хи-квадрат
  • Общий алгоритм построения объяснительных и прогностических моделей
    1. Проверить данные, подлежащие анализу, на соответствие требованиям регрессии / классификации. 2. Построить первую предварительную модель и проверить её по основному критерию качества: прогностической силе (R^2, псевдо-R^2). 3. В случае несоответствия прогностической силы предварительной модели требуемому уровню, выяснить причину этого: неправильное семейство кривых или неправильная номенклатура предикторов? Использовать дисперсионный анализ. Если прогностическая сила насыщенной дисперсионной модели НЕ удовлетворяет требуемому уровню, значит в первой предварительной модели неправильно подобрана номенклатура предикторов. Тогда следует обратиться к дополнительным теоретическим рамкам и дополнить номенклатуру. Если прогностическая сила насыщенной дисперсионной модели удовлетворяет требуемому уровню, значит в первой предварительной модели неправильно выбрано семейство кривых. Тогда следует ввести в модель эффекты взаимодействия. Строится вторая предварительная модель. Эффекты взаимодействия следует проверить по техническим критериям качества: значимость, несмещённость, «сила». Не соответствующие хотя бы одному из технических критериев качества эффекты взаимодействия следует удалить из второй предварительной модели. 4. Проверить вторую предварительную модель по техническим критериям качества: значимость предикторов и отсутствие мультиколлинеарности между ними, гомоскедастичность, несмещённость, непереобученность. При необходимости, поправить модель. Искомая модель построена. Предлагаемый алгоритм выступает одним из немногих существующих концептуальных решений упомянутых выше теоретических проблем регрессионного и классификационного моделирования.
Элементы контроля

Элементы контроля

  • неблокирующий активность на занятиях
  • неблокирующий домашние работы
  • неблокирующий контрольные работы
  • неблокирующий экзамен
    Экзамен проводится в форме теста. Экзамен проводится на платформе ZOOM. К экзамену (соответствующей конференции в ZOOM) необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка ZOOM. Для участия в экзамене студент обязан: зайти в ZOOM под своим именем и фамилией, включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру и микрофон. Во время экзамена студентам разрешено: пользоваться материалами курса и поисковыми системами в Интернете. Кратковременным считается нарушение связи во время экзамена менее 5 минут. Долговременным считается нарушение связи во время экзамена более 5 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи экзамена аналогично процедуре сдачи. Студенты будет предложен вариант экзаменационного теста, отличный от того, который студент писал первый раз.
  • неблокирующий активность на занятиях
  • неблокирующий домашние работы
  • неблокирующий контрольные работы
  • неблокирующий экзамен
    Экзамен проводится в форме теста. Экзамен проводится на платформе ZOOM. К экзамену (соответствующей конференции в ZOOM) необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка ZOOM. Для участия в экзамене студент обязан: зайти в ZOOM под своим именем и фамилией, включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру и микрофон. Во время экзамена студентам разрешено: пользоваться материалами курса и поисковыми системами в Интернете. Кратковременным считается нарушение связи во время экзамена менее 5 минут. Долговременным считается нарушение связи во время экзамена более 5 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи экзамена аналогично процедуре сдачи. Студенты будет предложен вариант экзаменационного теста, отличный от того, который студент писал первый раз.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.2 * активность на занятиях + 0.29 * домашние работы + 0.25 * контрольные работы + 0.26 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alpaydin, E. (2014). Introduction to Machine Learning (Vol. Third edition). Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=836612
  • Attewell, P. A., & Monaghan, D. B. (2015). Data Mining for the Social Sciences : An Introduction (Vol. First edition). Oakland, California: University of California Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=967323
  • Chu, W. W. (2013). Data Mining and Knowledge Discovery for Big Data : Methodologies, Challenge and Opportunities. Heidelberg: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=643546
  • Eagle, N., & Greene, K. (2014). Reality Mining : Using Big Data to Engineer a Better World. Cambridge, Massachusetts: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=826635
  • Kollo, T., & World Scientific (Firm). (2013). Multivariate Statistics: Theory And Applications - Proceedings Of The Ix Tartu Conference On Multivariate Statistics And Xx International Workshop On Matrices And Statistics. Singapore: World Scientific. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=689795
  • Kotu, V., & Deshpande, B. (2014). Predictive Analytics and Data Mining : Concepts and Practice with RapidMiner. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=919334
  • Larose, D. T., & Larose, C. D. (2015). Data Mining and Predictive Analytics. Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=958471
  • Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115

Рекомендуемая дополнительная литература

  • Kantardzic, M., & Recorded Books, I. (2019). Data Mining : Concepts, Models, Methods, and Algorithms (Vol. Third edition). [Place of publication not identified]: Wiley-IEEE Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2282578