• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis in Python

2021/2022
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
3 year, 3, 4 module

Instructor


Rogovich, Tatiana

Программа дисциплины

Аннотация

Сегодня стремительно растет количество и виды данных, к которым могут обращаться социальные науки. У современного исследователя есть в потребность в гибких, мощных и легко масштабируемых инструментах для сбора и анализа информации. Язык программирования Python и его библиотеки являются стандартом индустрии машинного обучения и анализа больших данных. Многие из этих инструментов окажутся полезны для студентов-политологов, выбери они исследовательскую карьеру или работу в государственном и частных секторах. Целью этого курса является развитие навыков программирования и создание крепкой практической базы для анализа и презентации данных. Также мы познакомимся с задачами и разными алгоритмами машинного обучения, что задаст вектор развития для тех студентов, которые захотят углубиться в предмет. В этом курсе мы освежим в памяти навык программирования на языке Python, углубим навыки работы со специализированными библиотеками для анализа и визуализации данных - numpy, pandas, scipy, matplotlib, plotly. Будем решать исследовательские задачи от постановки задачи и сбора данных до применения математических моделей для оценки корректности наших гипотез. К знакомым из статистики регрессионным моделям добавим в наш исследовательский инструментарий решающие деревья и случайный лес, алгоритмы классификации и кластеризации, научимся строить социальные графы. Отдельное внимание уделим текстовому анализу, потому что огромное количество исследовательских и коммерческих задач завязано именно на нем. Обсудим, что такое нейронные сети и как можно применить готовые решения для своих задач.
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие и закрепление навыков программирования на языке Python.
  • Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, scipy, sklearn, plotly, matplotlib).
  • Развитие навыков работы с данными: сбор, обработка, визуализация, разведывательный анализ.
  • Освоение терминологии области машинного обучения и знакомство с базовыми алгоритмами
  • Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов
  • Развитие навыков презентации полученных результатов (оформление отчета о проделанной работе и устная защита исследования)
Планируемые результаты обучения

Планируемые результаты обучения

  • Уверенно пользоваться языком Python для решения аналитических задач
  • Умение подсчитывать описательные статистики, оценивать распределения, интерпретировать корреляции
  • Загружать данные в pandas и работать с ними (фильтрация, агрегация, заполнение пропущенных значений)
  • Определять тип задачи машинного обучения, выбирать корректные модели для ее решения, осуществлять подбор параметров и выбирать лучшую модель
  • Проводить разведывательный анализ данных
  • Работать с сайтом соревнований по машинному обучению kaggle
  • Решать задачи машинного обучения от постановки исследовательского вопроса до интерпретации результатов
  • Решать простые задачи классификации, регрессии и кластеризации
  • Собирать и подготавливать данные для текстового анализа. Проводить стандартизацию текста. Решать задачи классификации и кластеризации для текстовых данных
  • Создавать интерактивные визуализации с помощью plotly
  • Умение выбирать корректные графики для визуализации данных, уметь кастомизировать их внешний вид, интерпретировать графики
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Python для анализа данных, алгоритмы
  • Библиотеки для работы с данными в Python
  • Визуализация данных
  • Машинное обучение
  • Текстовый анализ
Элементы контроля

Элементы контроля

  • неблокирующий Контрольные работы
    Всего две работы, 10 баллов каждая. В итоговую оценку идет среднее двух работ.
  • неблокирующий Самостоятельные работы
    Всего будет проведено десять работ, 10 баллов каждое. В итоговую оценку идет среднее ВОСЬМИ лучших оценок из десяти.
  • неблокирующий Домашнее задание
    Всего 4 задания, 10 баллов каждое. В итоговую оценку идет среднее четырех заданий
  • неблокирующий Работа на семинарах
    Чтобы набрать максимальный балл студент должен поучаствовать в работе на семинаре 4 раза за семестр (2 раза в третьем модуле и 2 раза в четвертом модуле). За каждый ответ можно получить 0, 1.25 или 2.5 балла. 0 баллов ставится если студент не справился с заданием, 1.25, если студент справился с заданием с помощью преподавателя, 2.5, если справился с заданием самостоятельно или с минимальной помощью.
  • неблокирующий Проект (экзамен)
    Для домашних заданий предусмотрен поздний дедлайн для сдачи со штрафом. Также студентам будет предоставлена возможность получить бонусные баллы. Пропущенные элементы контроля не переписываются, дедлайны не продлеваются. Если контрольная или самостоятельная работа пропущена по уважительной причине, при подтверждении от УО оценка студента пересчитывается без учета этого элемента контроля. Преподаватель оставляет за собой право изменить темы домашних и контрольных работы, а также устроить устную защиту любой из форм контроля. При установлении факта плагиата обнуляются оценки всех студентов за текущий элемент контроля, в чьих работах обнаружены одинаковые решения. Студент может быть вызван на защиту, но работа может быть обнулена и без защиты с последующей запиской в деканат.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.15 * Работа на семинарах + 0.25 * Самостоятельные работы + 0.2 * Домашнее задание + 0.25 * Контрольные работы + 0.15 * Проект (экзамен)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Бонцанини, М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python / М. Бонцанини ; перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 288 с. — ISBN 978-5-97060-574-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/108129 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани ; перевод с английского С. Э. Мастицкого. — Москва : ДМК Пресс, 2017. — 456 с. — ISBN 978-5-97060-495-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/93580 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Маккинни, У. Python и анализ данных / У. Маккинни ; перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • HEER, J., BOSTOCK, M., & OGIEVETSKY, V. (2010). A Tour Through the Visualization Zoo. Communications of the ACM, 53(6), 59–67. https://doi.org/10.1145/1743546.1743567