Бакалавриат
2019/2020
Извлечение и анализ интернет-данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Экономика и статистика)
Направление:
38.03.01. Экономика
Где читается:
Факультет экономических наук
Когда читается:
3-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Голубев Илья Сергеевич
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Знание языка программирования python позволяет с одной стороны разрабатывать серьезные приложения, а с другой — без труда быстро решать и автоматизировать повседневные аналитические задачи. В этом курсе будут затронуты темы анализа и визуализации данных с помощью языка python, а также изучены инструменты для статистического анализа данных и для автоматического извлечения данных из Интернета. Студенты будут решать практические занятия и получат базовые знания, что позволит им в последствии использовать язык для своих нужд и в случае необоходимости самостоятельно углубиться в его дальнейшее изучение.
Цель освоения дисциплины
- Ознакомление студентов с основными способами извлечения информации из интернета и эффективного анализа этой информации
- Формирование у студентов практических навыков анализа и извлечения данных и работы с ними
Планируемые результаты обучения
- Знать основные языковые конструкции и типы данных языка python
- Владение инструментарием pandas: уметь работать с табличными данными средствами python
- Научиться пользоваться документацией языка и его библиотек
- удалить текст удалить текст удалить текст
- Знание основных типов графиков и инструментов визуализации для python. Уметь изобразить гистограмму, диаграмму рассеяния, поточечный график. Уметь добавлять описание графика
- Понимать внутренню структуру форматов xml/json/html. Уметь обрабатывать файлы таких форматов с помощью модулей python: json, BeautifulSoup и др.
- Иметь представление о модулях python для статистического анализа и машинного обученя
- Владеть инструментами python для доступа к web. Библиотека request.
Содержание учебной дисциплины
- Основы анализа данных в pythonПовторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.
- Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данныхВведение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.
- Парсинг открытых данных в различных форматах (xml/json/html)Изучение языков и библиотек для работы с xml/json/html
- Основы машинного обучения и практика примененияОсновные термины, понятия и алгоритмы машинного обучения. Обсуждение самых популярных систем, основанных на машинном обучении (распознавание изображений, поиск, диалоговые системы). Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.
- Извлечение и последующий анализ данных с ресурсов Википедия, Яндекс.Погода, InstagramИзвлечение данных с перечисленных ресурсов, их последующий анализ и обработка. Визуализация полученных данных.
Элементы контроля
- Работа на семинаре 1
- Работа на семинаре 2
- Работа на семинаре 3
- Работа на семинаре 4
- Работа на семинаре 5
- Домашнее задание 1
- Домашнее задание 2
- Домашнее задание 3
- Домашнее задание 4
- Домашнее задание 5
- Экзамен
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.06 * Домашнее задание 1 + 0.06 * Домашнее задание 2 + 0.06 * Домашнее задание 3 + 0.08 * Домашнее задание 4 + 0.08 * Домашнее задание 5 + 0.06 * Работа на семинаре 1 + 0.06 * Работа на семинаре 2 + 0.06 * Работа на семинаре 3 + 0.08 * Работа на семинаре 4 + 0.08 * Работа на семинаре 5 + 0.32 * Экзамен
Список литературы
Рекомендуемая основная литература
- Rossant, C. (2015). Learning IPython for Interactive Computing and Data Visualization - Second Edition (Vol. Second edition). Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1084592
- Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
Рекомендуемая дополнительная литература
- Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392