• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Python для извлечения и обработки данных

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3 модуль

Преподаватель


Якунина Анастасия Димитриевна

Программа дисциплины

Аннотация

Язык программирования Python является одним из самых простых в освоении и популярных языков программирования. Данный язык является мощным инструментом анализа данных и может повысить эффективность практически любой деятельности в науке и индустрии. С помощью языка Python можно автоматизировать рутинные операции и обрабатывать объемы данных, на несколько порядков превышающие объемы, доступные для обработки вручную или с помощью электронных таблиц. Целевой аудиторией курса “Python для обработки и анализа данных” являются студенты не-математических специальностей (гуманитарные, социальные науки, международные отношения, менеджмент, журналистика и медиакоммуникации и т.д.), а также все желающие научиться программировать на языке Python “с нуля”, чтобы уметь решать задачи анализа и обработки данных, возникающие на практике в различных предметных областях. Целью освоения данной дисциплины является приобретение учащимися следующих компетенций: ● Базовые знания языка программирования Python; ● Базовые навыки сбора данных и их первичной обработки; ● Визуализация и публикация результатов обработки данных. В результате прохождения курса, слушатели смогут решать задачи анализа данных, чаще всего возникающие на практике: - получать доступ к данным через API (например, обработка социальных сетей или открытые данные государственной статистики) - получать доступ к структурированным данным (например, обработка больших баз хорошо структурированных объявлений о продаже квартир, автомобилей, услуг) - получать доступ к плохо структурированным данным (например, обработка произвольных таблиц с сайтов, электронных таблиц) - проводить анализ текстов (например, выделение ключевых слов в статьях для понимания тенденций) - выполнять визуализацию данных (построение графиков и диаграмм по полученным данным без использования Excel) - публиковать актуальный анализ по быстро меняющимся данным в интернете (например, автоматическое обновление сайта) - работать с геоданными (получение географических данных и визуализация на картах)
Цель освоения дисциплины

Цель освоения дисциплины

  • Цели освоения дисциплины «Python для извлечения и обработки данных» — обучить студентов навыкам программирования на языках Python, а также базовым приёмам извлечения данных из сети интернет и различных типов файлов, и их обработки, необходимым для дальнейшего обучения и в работе по специальности.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на ввод-вывод и целочисленную арифметику
  • Применяет логические выражения, условный оператор, оператор цикла while
  • Решает задачи на работу с вещественными числами, применяет функции работы со строками
  • Применяет цикл for, функцию range, решает задачи с использованием локальных и глобальных переменных
  • Применяет словари, множества, методы работы с отдельными элементами и всеми структурами
  • Умеет работать с текстом, файлами csv, электронными таблицами xlsx и листами в них
  • Знает основы HTML, получает ресурсы по URL-адресу, использует библиотеки для обработки HTML
  • Размечает данные с помощью XML, умеет получать геоданные
  • Обрабатывает данные в формате json, работает с публичным интерфейсом API
  • Визуализирует графики с использованием pyplot, отображает картографическую информацию с помощью API leaflet
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Арифметика
    Ввод-вывод и целочисленная арифметика
  • Условный оператор, цикл while
    Логические выражения и условный оператор, оператор цикла while
  • Вещественные числа и строки
    Работа с вещественными числами, функции работы со строками, срезы
  • Цикл for, функции
    Цикл for, функция range, функции, локальные и глобальные переменные
  • Словари и множества
    Словари, множества, методы работы с отдельными элементами и всеми структурами
  • Обработка текстовых файлов и электронных таблиц
    Работа с текстом, файлами csv, электронные таблицы xlsx и листы в них, доступ к ячейкам, чтение и запись
  • Обработка и создание HTML-страниц
    Основы HTML, получение ресурсов по URL-адресу, использование библиотек для обработки HTML
  • XML и передача параметров в URL
    Разметка данных с помощью XML, примеры XML, геоданные OpenStreetMap и их получение
  • json и API
    Обработка данных в формате json, работа с публичным интерфейсом API
  • Визуализация данных
    Визуализация графиков с использованием pyplot, отображение картографической информации с помощью API leaflet
Элементы контроля

Элементы контроля

  • неблокирующий Оценка за онлайн курс
    Онлайн курс проходится исключительно с корпоративного почтового адреса студента. Подключение студентов к онлайн курсу на платформе НПОО (https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ по заявке администратора учебного офиса образовательной программы. Скрытая сессия для студентов ВШЭ автоматически появляется в личном аккаунте на платформе. Регистрироваться на открытую сессию для всех желающих слушателей нельзя. Если студент проходит онлайн курс в открытой сессии для всех желающих слушателей или с личного почтового адреса, результат прохождения онлайн курса не засчитывается.
  • неблокирующий Домашнее задание
  • неблокирующий Оценка за самостоятельную работу
  • неблокирующий Экзамен
    Экзамен проводится в письменной форме с использованием синхронного прокторинга. Время экзамена – 1 час 30 минут. Экзамен состоит из двух частей. Первая часть в форме теста (30 минут). Вторая часть - набора задач (1 час). Перерыва между частями нет. Экзамен проводится на платформе online HSE moodle (https://et.hse.ru), прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf. Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать, использовать телефон (смартфон). Во время первой части экзамена запрещено открывать программы, иные вкладки в браузере кроме задания экзамена на платформе moodle. На экзамене студент может использовать конспекты. После выполнения заданий второй части студенты прикрепляют все файлы с решениями в поле ответа на платформе moodle и завершают экзамен. Кратковременным нарушением связи во время экзамена считается прерывание связи до 5 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 5 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.25 * Домашнее задание + 0.25 * Оценка за онлайн курс + 0.25 * Оценка за самостоятельную работу + 0.25 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392

Рекомендуемая дополнительная литература

  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081