Delivered at:: School of Sociology

Course type:: Compulsory course

When:: 1 year, 3, 4 module

Instructors

Zhuchkova, Svetlana

Rotmistrov, Alexey

Полная версия программы учебной дисциплины

Аннотация

В результате освоения данной учебной дисциплины студенты: - освоят азы программирования в Python, достаточные для автоматизированной выгрузки с практически любых сайтов публичной информации, в т.ч. текстовой - освоят основные понятия и определения, относящимся к большим данным, DM, ОЛМ и ДК - научатся ориентироваться в методах математического объяснения и прогнозирования, выбирать среди них наиболее подходящий для каждой конкретной задачи, корректно применять его, грамотно интерпретировать результаты и формулировать выводы, полезные для их проектной, консалтинговой или аналогичной деятельности - расширят свои знания и навыки применения статистических программных сред MS Excel, Python, SPSS. Изучение данной учебной дисциплины базируется на следующих дисциплинах: - введение в интеллектуальный анализ данных - компьютерные методы анализа социологических данных (или аналогичные дисциплины). Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • знания о том,… … что такое случайная величина и каковы основные законы её распределения … что такое статистическая гипотеза … каковы типы шкал социологического измерения и их основные свойства … что такое парная и множественная связь и какими методами она измерима … что такое среда программирования Python, каковы основные опции статистических приложений MS Excel и SPSS • умение… … оценивать законы распределения случайных величин … проверять статистические гипотезы … измерять парную и множественную связи … строить простые логические и математические модели для решения содержательных задач в области анализа данных … писать релевантные алгоритмы в Python, задействуя релевантные модули, а также применять релевантные функции MS Excel и SPSS (ряд функций SPSS уникальны и не реализованы в известных модулях Python). Основные положения данной учебной дисциплины могут быть использованы в дальнейшем при изучении следующих дисциплин: - методы анализа больших данных в исследованиях поведения покупателей - научно-исследовательский семинар кафедры методов сбора и анализа социологической информации.

Цель освоения дисциплины

Учебная дисциплина нацелена на формирование у студентов разносторонних компетенций в области построения прогностических моделей в «трудных» случаях: случаи категориальных переменных (номинальных, порядковых и бинарных) и больших данных. Достижение этого предлагается через решение следующих задач: а. Сопоставление парадигм анализа данных: «конфирматорная» (т.н. Theory-Driven), генетически связанная с эконометрикой и «эксплораторная» (т.н. Data-Driven), генетически связанная с компьютерными науками и с идеями Юла, Тьюки, Симпсона. Обоснование логической связи «эксплораторной» парадигмы с явлением БД б. Рассмотрение структуры Data Mining (часто переводится как «интеллектуальный анализ данных, но этот перевод не точен, поэтому в данной программе название сохранено в англоязычном виде, далее – DM) в социальных науках: как первичного нереактивного измерения, как идеологии работы с собранными данными, как техники углублённого «понимания» респондентов в контексте массовых опросов, как интеллектуального анализа данных в. Освоение алгоритмов веб-скрэпинга (web-scraping) для автоматизированного сбора социальных БД числовой, текстовой и прочих модальностей и последующего построения на этих данных поддающихся интерпретации прогностических моделей г. Изучение и сравнение методов математического объяснения и прогнозирования из класса обобщённых линейных моделей (General, или Generalized, linear models, далее – ОЛМ) и деревьев классификации (Answer trees, или Classification trees, далее – ДК). В частности, изучение критериев качества получаемых посредством этих методов моделей и путей максимизации и балансировки этих критериев.

Планируемые результаты обучения

Знать определение Data Mining и больших данных в контексте социальных наук
Знать источники и форматы социальных больших данных. Уметь пользоваться модулями в среде Python для выгрузки социальных больших данных. Владеть универсальным алгоритмом веб-скрэпинга
Владеть методами построения объяснительных и прогностических моделей, относящихся к ОЛМ и ДК
Владеть общим алгоритмом построения объяснительных и прогностических моделей

Содержание учебной дисциплины

Введение. Основы современного Data Mining в социальных науках. Социальные большие данные
Основы современного Data Mining в социальных науках: эксплораторность, большие данные, программирование Парадигмы анализа данных: «конфирматорная» и «эксплораторная»: история конкуренции и современное состояние. Идеи Дж.О. Юла, Э. Симпсона и Дж. Тьюки. Влияние на анализ данных появления нереактивных данных и больших данных. Перенос подходов Data Mining (далее – DM) из компьютерных наук в социальные. Определение DM в социальных науках: • DM как первичное нереактивное измерение – прежде всего в онлайн-среде (web scraping); • DM как идеология работы с собранными данными, лежащая в основе эксплораторного дизайна исследования в противовес конфирматорному дизайну; • DM как техники углублённого «понимания» респондентов в контексте массовых опросов. Под «пониманием» респондентов подразумевается адаптация исследовательских шкал под имеющиеся ответы респондентов для более насыщенной интерпретации этих ответов. Оцифровка – одна из процедур такой адаптации; • DM как интеллектуальный анализ данных, т.е. анализ, предполагающий разработку уникального методно-аналитического комплекса под каждую сложную аналитическую задачу. Уникальность состоит в учёте множества логических развилок на пути решения сложной задачи и обоснованном выборе более подходящей ветви в рамках каждой развилки; в возврате к предыдущей развилке в случае неудовлетворительно результата ранее выбранной развилки; в итеративности таких выборов и возвратов. Под сложной задачей понимается задача, включающая много содержательных слоёв, или уровней, каждый из которых требует содержательной интерпретации. Специфика социальных больших данных Специфика применения DM к социальным большим данным по сравнению с ситуацией в компьютерных науках: • в социальных науках при обычном (реактивном) сборе данных в большей мере используются категориальные шкалы, тогда как большие данные обычно организованы в формате метрических и бинарных переменных. Кроме того, в социальных больших данных тоже есть место для категориальных шкал: категориальными шкалами обычно выражается экспертная оценка, с которой как с эталоном (т.н. учитель, или словарь) машина соотносит собираемые данные; • в компьютерных науках модели должны иметь прогностическую силу (величину, обратную Loss) не ниже 0,9. Такая прогностическая сила достигается даже в ущерб непереобученности (overfitting) модели. Это не удивительно, т.к., во-первых, большие данные в компьютерных науках – это обычно и есть генеральная совокупность, и, во-вторых, практические задачи в компьютерных науках требуют крайне высокой точности: скажем, распознать образ на 50% – это не распознать его вовсе. Обратной стороной смещения баланса между прогностической силой и непереобученностью модели является риск неработоспособности модели за пределами больших данных, на которых она построена; • в компьютерных науках в погоне за высокой прогностической силой из исходных переменных создаются новые, зачастую многомерные, переменные (т.н. feature engineering), которые затруднительно или невозможно интерпретировать (т.н. принцип чёрного ящика в машинном обучении). В эконометрике и социальных науках есть отчасти аналогичный процесс – создание многомерных эффектов взаимодействия, но к эффектам взаимодействия предъявляется строго требование интерпретируемости. Таким образом, формулировку баланса «прогностическая сила – непереобученность», к которому следует стремиться в социальных науках, можно дополнить в следующем ключе: «прогностическая сила – непереобученность и интерпретируемость»; • в компьютерных и социальных науках разный язык касательно области анализа данных. Основные источники социальных больших данных: • «обычные» веб-сайты (не имеют собственных API) • социальные сети (имеют собственные API). Основные форматы социальных больших данных: • файлы форматов txt, csv, xls, sav • данные в форматах json, xml.
Основы веб-скрэпинга: требуемые основы программной среды Python и универсальный алгоритм веб-скрэпинга
Ограничения веб-скрэпинга: • проблемы архитектуры изучаемых сайтов, • необходимость авторизации, • прямой запрет, указанный на станицах формата */robots.txt Фреймворки, модули, классы и методы программной среды Python для веб-скрэпинга: • фреймворк scrapy https://docs.scrapy.org/en/latest/ • модуль requests http://docs.python-requests.org/en/master/ • класс BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Фреймворки, модули, классы и методы программной среды Python для структурирования больших данных, факторизации и кластеризации: • модуль pandas https://pandas.pydata.org/ • модуль sklearn http://scikit-learn.org/stable/ • модуль statsmodels http://www.statsmodels.org/ • модуль prince https://github.com/MaxHalford/prince Универсальный алгоритм веб-скрэпинга 1. Выгрузка неструктурированной информации с одной нединамической интернет-страницы. 2. Цикл для перехода между блоками html-кода. 3. Выгрузка неструктурированной информации с нескольких нединамических интернет-страниц. Ориентиры и циклы для перехода между страницами 4. Запись выгруженной информации в словарь и в data frame 5. Токенизация и лемматизация текстовой информации
Структурирование социальных больших данных: построения объяснительных и прогностических моделей
Прогнозирование – пожалуй, самая трудная задача в любой науке. В этом смысле рассматриваемые методы являются ключевым элементом анализа данных («количественного»). Они более требовательны к входным данным, чем методы, нацеленные на поиск связи и на описание. Поэтому они предполагают проверку множества параметров качества итоговых моделей. Применение регрессии и классификации в социальных науках (по сравнению с эконометрикой и компьютерными науками) сопряжено с дополнительными трудностями и требует проверки дополнительных параметров качества итоговых моделей. Проблемы построения объяснительных и прогностических моделей в социальных науках Во-первых, ориентируясь на условно эконометрическую и компьютерную парадигмы построения моделей, представители социальных наук зачастую берут худшее из обеих: из эконометрической берут пренебрежение к требованию высокой прогностической силы создаваемых моделей, но не берут всесторонне проработанный инструментарий проверки технических характеристик модели, а из компьютерной парадигмы берут пренебрежение к требованиям генерализуемости создаваемых моделей. Во-вторых, данные, на которых строятся модели в социальных науках, зачастую уступают по своему качеству как данным в экономике, так и данным в компьютерных науках, поскольку в социальных науках обычно источником данных выступают респонденты (которые, грубо говоря, зачастую уклоняются как от участия в выборке, приводя к её смещению и необходимости постоянного ремонта, так и от правдивых ответов на отдельные «неудобные» вопросы), тогда как в экономике основным источником данных выступают беспристрастные экономические институты и организации, а в компьютерных науках данные собираются в основном помимо воли источника данных (нереактивные данные). Поэтому в социальных науках большинство моделей, претендующих на математическое объяснение и прогнозирование, на деле, не дают приращения знания по сравнению с аналогичными корреляционными моделями и редко получают практическое применение. Решением обозначенных проблем является частичный переход социальных наук на нереактивные данные и внедрение принципов построения практически полезных объяснительных и прогностических моделей. Области практического применения объяснительных и прогностических моделей в прикладных социальных исследованиях: сегментация целевой аудитории, многомерное содержательное описание сегментов, персонализация рыночных предложений. В основе решения всех подобных задач лежат ответы на два вопроса: … зная значения предикторов, какие можно получить значение отклика? … имея целевое значение отклика, какие релевантные значения предикторов подобрать? Различия методов для построения объяснительных и прогностических моделей С точки зрения типа шкалы зависимой переменной, или отклика: числовая континуальная VS дискретная категориальная – рассматриваемые методы делятся на регрессию и классификацию соответственно. В терминах компьютерных наук регрессия и классификация – методы обучения без учителя. С точки зрения конкретных алгоритмов, рассматриваемые методы делятся на: обобщённые линейные модели (General, или Generalized, linear models, далее – ОЛМ) и деревья классификации (Answer trees, или Classification trees, далее – ДК). ОЛМ и ДК, в свою очередь, включают много методов. Ниже приведены примеры методов для построения объяснительных и прогностических моделей: ОЛМ ДК Регрессия Линейная регрессия методом наименьших квадратов CHAID, основанный на критерии Фишера Классификация Логистическая регрессия, основанная на биномиальном распределении CHAID, основанный на критерии Хи-квадрат
Общий алгоритм построения объяснительных и прогностических моделей
1. Проверить данные, подлежащие анализу, на соответствие требованиям регрессии / классификации. 2. Построить первую предварительную модель и проверить её по основному критерию качества: прогностической силе (R^2, псевдо-R^2). 3. В случае несоответствия прогностической силы предварительной модели требуемому уровню, выяснить причину этого: неправильное семейство кривых или неправильная номенклатура предикторов? Использовать дисперсионный анализ. Если прогностическая сила насыщенной дисперсионной модели НЕ удовлетворяет требуемому уровню, значит в первой предварительной модели неправильно подобрана номенклатура предикторов. Тогда следует обратиться к дополнительным теоретическим рамкам и дополнить номенклатуру. Если прогностическая сила насыщенной дисперсионной модели удовлетворяет требуемому уровню, значит в первой предварительной модели неправильно выбрано семейство кривых. Тогда следует ввести в модель эффекты взаимодействия. Строится вторая предварительная модель. Эффекты взаимодействия следует проверить по техническим критериям качества: значимость, несмещённость, «сила». Не соответствующие хотя бы одному из технических критериев качества эффекты взаимодействия следует удалить из второй предварительной модели. 4. Проверить вторую предварительную модель по техническим критериям качества: значимость предикторов и отсутствие мультиколлинеарности между ними, гомоскедастичность, несмещённость, непереобученность. При необходимости, поправить модель. Искомая модель построена. Предлагаемый алгоритм выступает одним из немногих существующих концептуальных решений упомянутых выше теоретических проблем регрессионного и классификационного моделирования.

Элементы контроля

активность на занятиях
домашние работы
контрольные работы
экзамен
Экзамен проводится в форме теста. Экзамен проводится на платформе ZOOM. К экзамену (соответствующей конференции в ZOOM) необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка ZOOM. Для участия в экзамене студент обязан: зайти в ZOOM под своим именем и фамилией, включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру и микрофон. Во время экзамена студентам разрешено: пользоваться материалами курса и поисковыми системами в Интернете. Кратковременным считается нарушение связи во время экзамена менее 5 минут. Долговременным считается нарушение связи во время экзамена более 5 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи экзамена аналогично процедуре сдачи. Студенты будет предложен вариант экзаменационного теста, отличный от того, который студент писал первый раз.
активность на занятиях
домашние работы
контрольные работы
экзамен
Экзамен проводится в форме теста. Экзамен проводится на платформе ZOOM. К экзамену (соответствующей конференции в ZOOM) необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка ZOOM. Для участия в экзамене студент обязан: зайти в ZOOM под своим именем и фамилией, включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру и микрофон. Во время экзамена студентам разрешено: пользоваться материалами курса и поисковыми системами в Интернете. Кратковременным считается нарушение связи во время экзамена менее 5 минут. Долговременным считается нарушение связи во время экзамена более 5 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи экзамена аналогично процедуре сдачи. Студенты будет предложен вариант экзаменационного теста, отличный от того, который студент писал первый раз.

Промежуточная аттестация

Промежуточная аттестация (4 модуль)
0.2 * активность на занятиях + 0.29 * домашние работы + 0.25 * контрольные работы + 0.26 * экзамен

Master’s Programme 'Social Analysis of Markets on Digital and Survey Data'

Methodology and Research Methods in Sociology: Contemporary Methods of Sociological Data Analysis

Author

Instructors

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература