• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2022/2023

Автоматизированный сбор больших данных в экономико-социологических исследованиях

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус: Маго-лего
Когда читается: 3, 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6
Контактные часы: 60

Программа дисциплины

Аннотация

Стремительный рост технологий привел к тому, что в данный момент исследователи имеют доступ к данными о самых разных аспектах жизни людей и о происходящих экономических и социальных процессах. Подобные данные отличаются большими объемами, разной степенью структурированности, многомерностью и специфическими формами хранения и доступа, и требуют от исследователя дополнительных навыков по сбору и обработке подобных данных. Курс направлен на знакомство с особенностями сбора и анализа больших данных в экономико-социологических исследованиях. Первая часть курса посвящена основам работы в среде R: элементы синтаксиса, объекты и структуры данных, манипуляции с данными. Вторая часть курса посвящена импорту и препроцессингу данных из разных источников - файловые базы данных разных форматов (в том числе *.sav), удаленные базы данных. Отдельное внимание уделено скрапингу данных веб-страниц, работе с открытыми API, в том числе с API социальных сетей (в частности, Vkontakte). В третьей части курса рассмотрены методы и принципы визуализации данных (статичные и интерактивные графики).
Цель освоения дисциплины

Цель освоения дисциплины

  • Дать студентам представление об основных задачах и инструментах, стоящих перед аналитиками в современных бизнес-компаниях.
  • Показать студентам возможные перспективы профессионального развития и заложить необходимые базовые навыки.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать виды источников данных. Уметь импортировать xlsx, sav, csv-файлы.
  • Знать основы синтаксиса R. Уметь делать базовые манипуляции с данными - семплинг, изменение строк и колонок, слияние таблиц, решейпинг, агрегации.
  • Знать общие концепции организации сети Интернет. Понимать и писать xpath-запросы и собирать данные с web-страниц. Уметь писать запросы к API Vkontakte.
  • Уметь визуализировать данные в основных типах графиков (линии, гистограммы, боксплоты). Знать правила корректных визуализаций.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в большие данные - идеи, технологии, методы и области применения.
  • Визуализация данных
  • Методы сбора удаленных данных. Скрапинг.
  • Виды источников данных
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Контрольная работа 1
  • неблокирующий Контрольная работа 2
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.35 * Контрольная работа 1 + 0.1 * Домашнее задание 1 + 0.35 * Контрольная работа 2 + 0.2 * Домашнее задание 2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Мастицкий, С. Э. Визуализация данных с помощью ggplot2 / С. Э. Мастицкий. — Москва : ДМК Пресс, 2017. — 222 с. — ISBN 978-5-97060-470-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/107895 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Мастицкий, С. Э. Статистический анализ и визуализация данных с помощью R / С. Э. Мастицкий, В. К. Шитиков. — Москва : ДМК Пресс, 2015. — 496 с. — ISBN 978-5-97060-301-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73072 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.