• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Практикум: Web-scraping: сбор данных из баз данных и интернет-источников

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс по выбору (Психология)
Направление: 37.03.01. Психология
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 20

Программа дисциплины

Аннотация

Учебная дисциплина «Практикум: Web-scraping - сбор данных из баз данных и интернет-источников» раскроет студентам-психологам основы сбора данных из интернет-источников средствами Python. Особое внимание на курсе уделяется работе с текстом и выгрузке информации из социальных сетей.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладение инструментами Python для сбора данных из интернет-источников и выгрузки текстовой информации из социальных сетей.
Планируемые результаты обучения

Планируемые результаты обучения

  • владеть навыками работы с различными структурами данных в Python
  • владеть навыками выгрузки данных из веб-страниц с помощью библиотеки BeautifulSoup
  • владеть навыками управления браузером помощью библиотеки Selenium
  • владеть основами синтаксиса HTML, уметь работать с тэгами и их атрибутами
  • уметь формировать запросы к API средствами Python
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в web-scraping. Язык HTML и его особенности.
  • Структуры данных в Python: списки, кортежи, словари.
  • Библиотека BeautifulSoup как инструмент для выгрузки данных из HTML-страниц.
  • Библиотека Selenium как инструмент управления браузером.
  • Web-scraping: часто встречающиеся проблемы и способы их решения.
  • Работа с API средствами Python.
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Домашние задания представляют собой набор задач разной сложности, которые весят разное количество баллов. Оценка за домашние задания, которая подставляется в формулу оценивания, определяется как неокругленное среднее арифметическое оценок, полученных за домашние работы. Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%, в пределах недели – штраф 70%. Домашние задания, сданные через неделю после указанного срока и позже, не принимаются и не оцениваются.
  • неблокирующий Проект
    Проект представляет собой написание корректно работающей программы по сбору данных из интернет-источников средствами Python. Результаты проекта представляются в следующем виде: программа на Python (файл с расширением .py или файл Jupyter Notebook с расширением .ipynb), файл с документацией программы, который содержит её описание, ограничения и потенциальные проблемы. Проект выполняется индивидуально. Тема проекта выбирается студентами самостоятельно.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.6 * Домашние задания + 0.4 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • G. Nair, V. (2014). Getting Started with Beautiful Soup. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=691839
  • Федоров Д. Ю. - ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд. Учебное пособие для СПО - М.:Издательство Юрайт - 2019 - 161с. - ISBN: 978-5-534-11961-9 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-446505

Рекомендуемая дополнительная литература

  • Budi Kurniawan - HTML : A Beginner's Tutorial - Brainy Software, 2015-116 - Текст электронный - https://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4339838