Master
2021/2022
Data Mining in Internet Research
Category 'Best Course for New Knowledge and Skills'
Type:
Elective course (Media Production and Media Analysis)
Area of studies:
Media Communications
Delivered by:
Department of Foreign Languages
When:
2 year, 1, 2 module
Mode of studies:
offline
Open to:
students of one campus
Instructors:
Павлова Ольга Михайловна
Master’s programme:
Media Production and Media Analysis
Language:
English
ECTS credits:
7
Contact hours:
32
Course Syllabus
Abstract
В рамках изучения курса, студенты знакомятся с базовыми функциями языка программирования python. Умеют писать базовые команды для парсинга информации с html-страниц, с использованием простых скреперов. Умеют классифицировать собранную информацию, записывать в csv и tsv форматах; проводить её базовый анализ.
Learning Objectives
- Изучение основных функций языка программирования Python и получение знаний о том, как собирать данные в сети Интернет, их анализировать и представлять результаты анализа
Expected Learning Outcomes
- Студент декомпозирует задачу автоматизации на ключевые этапы решения с использованием паттернов быстрой автоматизации
- Студент понимает спектр задач, доступных для решения средствами визуального программирования, и умеет находить такие задачи в своей ежедневной профессиональной деятельности
- Студент предоставляет доступ к собранному технологическому решению для внешних пользователей
- Студент способен поставить задачу профильному IT-специалисту и интегрировать результат его работы в свой проект визуального программирования
- Студент учится основам программирования на r или python
Course Contents
- Основы Python
- Jupyter Notebook
- NumPy, Pandas
- MatPlotLib
- Основы HTML
- BeautifulSoup
- Основы SQL
- Использование API веб-сайтов, которые его предоставляют
Assessment Elements
- Система микрозадачМикрозадачи, выполняемые во время занятия, либо дома (на случай просмотра лекций онлайн на телефоне или неполадок с интернетом во время занятия).
- ЭкзаменСтудент скрапит веб-сайт по заранее подготовленному шаблону, восстанавливает записанную на сайте таблицу в Pandas DataFrame, сохраняет таблицу в CSV или SQL. Строит график числовых величин из таблицы, на дополнительный балл — частоты использования букв.
- ПосещаемостьПосещение лекций и семинаров
Bibliography
Recommended Core Bibliography
- Диков А.В. - Клиентские технологии веб-дизайна. HTML5 и CSS3: учебное пособие - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3822-8 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/122174
- Компьютерная графика и web-дизайн : учеб. пособие / Т.И. Немцова, Т.В. Казанкова, А.В. Шнякин / под ред. Л.Г. Гагариной. — М. : ИД «ФОРУМ» : ИНФРА-М, 2017. — 400 с. + Доп. материалы [Электронный ресурс; Режим доступа http://www.znanium.com]. — (Профессиональное образование). - Режим доступа: http://znanium.com/catalog/product/894969
- Мультимедийная журналистика [Электронный ресурс] : учебник для вузов/ под общ. ред. А. Г. Качкаевой, С А. Шомовой; Нац. исслед. ун-т «Высшая школа экономики». — 2-е изд. (эл.). — Электрон, текстовые дан. (1 файл pdf: 418 с). — М.: Изд. дом Высшей школы экономики, 2018. — (Учебники Высшей школы экономики). — Систем, требования: Adobe Reader XI либо Adobe Digital Editions 4.5 ; экран 10'. - ISBN 978-5-7598-1663-8- Текст : электронный. - URL: https://new.znanium.com/catalog/product/1018934 - Текст : электронный. - URL: http://znanium.com/catalog/product/1018934
Recommended Additional Bibliography
- Э. де Боно - Гениально! Инструменты решения креативных задач - Альпина Паблишер - 2015 - ISBN: 9785961439090 - Текст электронный // ЭБС Alpina - URL: https://hse.alpinadigital.ru/book/3037