2024/2025




Продвинутые инструменты анализа данных
Статус:
Факультатив
Когда читается:
4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Контактные часы:
34
Программа дисциплины
Аннотация
Дисциплина «Продвинутые инструменты анализа данных» направлена на освоение студентами более глубоких цифровых компетенций в дополнение к стандартному курсу по анализу данных. В рамках дисциплины будут рассмотрены темы парсинга и структурирования данных, логическая регрессия, деревья решений, работа с текстами. Студенты будут работать над индивидуальными проектными идеями по анализу данных и получат практические рекомендации для реализации своих проектных идей с помощью продвинутых инструментов.
Цель освоения дисциплины
- Целью освоения дисциплины «Анализ данных» является овладение студентами основами статистики и анализа данных для применения в решении различных практических задач. В рамках ОП «Юриспруденция» дисциплина позволяет формировать цифровые и аналитические компетенции, необходимые для работы с различными текстовыми юридическими источниками.
Планируемые результаты обучения
- - Парсить данные с использованием BeautifulSoup/Selenium; - Применять методы предобработки и анализа текстов (TF-IDF, n-граммы, лемматизация - Решать задачи бинарной классификации с помощью логистической регрессии - Строить и интерпретировать решающие деревья
- - Уметь реализовывать все шаги проверки статистических гипотез - Применять параметрические статистические критерии для проверки гипотез - Применять непараметрические статистические критерии для проверки гипотез - Построить уравнение линейной регрессии с использованием метода наименьших квадратов - Оценивать качество модели линейной регрессии с помощью релевантных метрик - Решать задачу классификации с использованием логистической регрессии и KNN
- - Переводить значения признака в z-оценки - Обрабатывать пропущенные значения и выбросы - Вычислять релевантные описательные статистики и интерпретировать полученные результаты - Вычислять коэффициент корреляции Пирсона и интерпретировать полученные результаты
- - Корректно открывать табличные данные различных форматов - Фильтровать данные по нескольким условиям - Сортировать данные - Использовать собственноручно написанные функции для обработки данных, создания новых переменных - Создавать сводные таблицы
Содержание учебной дисциплины
- Парсинг данных
- Работа с текстами
- Логистическая регрессия
- Решающее дерево и ансамбли
Промежуточная аттестация
- 2024/2025 4th module0.25 * ДЗ 1 + 0.25 * ДЗ 2 + 0.3 * Защита работы + 0.2 * Тест
Список литературы
Рекомендуемая основная литература
- Elementary statistics : a step by step approach, Bluman, A. G., 1995
- Elementary statistics : a step by step approach, Bluman, A. G., 2007
- Essentials of statistics for the behavioral sciences, Gravetter, F. J., 2011
- Essentials of statistics for the behavioral sciences, Gravetter, F. J., 2014
- Excel 2007. Анализ данных и бизнес-моделирование, Винстон, У.Л., 2008
- Анализ инвестиционных проектов для развития банковского бизнеса : автореф. дис. ... канд. экон. наук : 08.00.12, Савельева, М. Г., 2006
- Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Бизнес, статистика и котики, Савельев, В. В., 2023