• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Web mining

2019/2020
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Elective course
When:
4 year, 2 module

Instructor

Программа дисциплины

Аннотация

Знание языка программирования python позволяет с одной стороны разрабатывать серьезные приложения, а с другой — без труда быстро решать и автоматизировать повседневные аналитические задачи. В этом курсе будут затронуты темы анализа и визуализации данных с помощью языка python, а также изучены инструменты для статистического анализа данных и для автоматического извлечения данных из Интернета. Студенты будут решать практические занятия и получат базовые знания, что позволит им в последствии использовать язык для своих нужд и в случае необоходимости самостоятельно углубиться в его дальнейшее изучение.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с основными способами извлечения информации из интернета и эффективного анализа этой информации
  • Формирование у студентов практических навыков анализа и извлечения данных и работы с ними
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Знать основные языковые конструкции и типы данных языка python
  • Владение инструментарием pandas: уметь работать с табличными данными средствами python
  • Научиться пользоваться документацией языка и его библиотек
  • удалить текст удалить текст удалить текст
  • Знание основных типов графиков и инструментов визуализации для python. Уметь изобразить гистограмму, диаграмму рассеяния, поточечный график. Уметь добавлять описание графика
  • Понимать внутренню структуру форматов xml/json/html. Уметь обрабатывать файлы таких форматов с помощью модулей python: json, BeautifulSoup и др.
  • Иметь представление о модулях python для статистического анализа и машинного обученя
  • Владеть инструментами python для доступа к web. Библиотека request.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы анализа данных в python
    Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.
  • Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных
    Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.
  • Парсинг открытых данных в различных форматах (xml/json/html)
    Изучение языков и библиотек для работы с xml/json/html
  • Основы машинного обучения и практика применения
    Основные термины, понятия и алгоритмы машинного обучения. Обсуждение самых популярных систем, основанных на машинном обучении (распознавание изображений, поиск, диалоговые системы). Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.
  • Извлечение и последующий анализ данных с ресурсов Википедия, Яндекс.Погода, Instagram
    Извлечение данных с перечисленных ресурсов, их последующий анализ и обработка. Визуализация полученных данных.
Элементы контроля

Элементы контроля

  • Работа на семинаре 1 (неблокирующий)
  • Работа на семинаре 2 (неблокирующий)
  • Работа на семинаре 3 (неблокирующий)
  • Работа на семинаре 4 (неблокирующий)
  • Работа на семинаре 5 (неблокирующий)
  • Домашнее задание 1 (неблокирующий)
  • Домашнее задание 2 (неблокирующий)
  • Домашнее задание 3 (неблокирующий)
  • Домашнее задание 4 (неблокирующий)
  • Домашнее задание 5 (неблокирующий)
  • Экзамен (неблокирующий)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.06 * Домашнее задание 1 + 0.06 * Домашнее задание 2 + 0.06 * Домашнее задание 3 + 0.08 * Домашнее задание 4 + 0.08 * Домашнее задание 5 + 0.06 * Работа на семинаре 1 + 0.06 * Работа на семинаре 2 + 0.06 * Работа на семинаре 3 + 0.08 * Работа на семинаре 4 + 0.08 * Работа на семинаре 5 + 0.32 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Rossant, C. (2015). Learning IPython for Interactive Computing and Data Visualization - Second Edition (Vol. Second edition). Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1084592
  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081

Рекомендуемая дополнительная литература

  • Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392