• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Открытые данные

2017/2018
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Программа дисциплины

Аннотация

Взаимодействие с источниками открытых данных и последующая обработка данных требует не только некоторого минимума технических знаний. Специалисту следует опираться на знания и представления о функционировании предметных областей (экономики, социума, политической сферы и т.п.); хорошо представлять модели и методы информационного поиска, статистики, машинного обучения и майнинга данных, извлечения знаний и онтологического моделирования. Это позволит развить общие компетенции исследователя данных [data scientist]. Дисциплина фокусируется на феномене открытых данных [Open Data], современном состоянии инструментов работы с ними и специфике явления, получившего названия «журналистика данных» [Data Journalism].
Цель освоения дисциплины

Цель освоения дисциплины

  • Цель освоения дисциплины «Открытые данные» – овладение знаниями и навыками, необходимыми для: <ul> <li>поиска, получения и преобразования данных из источников открытых данных;</li> <li>интеграции данных, оценки их качества и пригодности к дальнейшему использованию, как в конкретном исследовании, так и в качестве новой порции открытых данных;</li> <li>подготовки данных для эффективного анализа, как методами математической статистики, так и методами интеллектуального анализа. </li></ul>
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает специфичные свойства открытых данных и способы доступа к ним; понимает базовые модели, методы и инструменты статистического анализа, машинного обучения и майнинга данных применительно к открытым и связным данным.
  • Студент умеет адекватно применять современные модели, методы и инструменты (программные средства), позволяющие целостно решить задачи журналистики с использованием источников открытых данных.
  • Студент имеет навыки получения, оценки, интеграции и анализа реальных данных из источников открытых данных с помощью изученных методов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение, основные понятия в области обработки данных
    Информация, сведения, данные и документы. Задачи обработки данных. Информационные процессы и информационные системы. Системный подход к анализу данных. Базовые инструменты обработки данных, интерфейсы и протоколы, аутентификация и авторизация.<br /> Маленькие, большие и огромные данные. Форматы данных, основные типы атомарных данных, сериализация и десериализация. Данные и знания.<br /> Наборы данных и источники данных. Открытость как свойство набора данных и источника данных. Этапы анализа данных. Примеры прикладных задач анализа данных и их типы: описательная статистика, проверка гипотез, классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных.
  • Стандарты, протоколы доступа и форматы открытых данных
    Определение и основные свойства открытости [Openness]. Открытые лицензии. Стандарты в области открытых данных. Историческая справка и исторически сложившиеся условности. Основные типы открытых данных. Популярность формата CSV. Языки JSON и XML. Идеология по-лучения и анализа данных. Роли участников. Связные [Linked] данные.<br /> Инструменты исследователей и разработчиков. API доступа к открытым данным.
  • Базовые методы визуализации данных. Инструменты визуализации и построения отчётов
    Принципы и парадигмы визуализации. Классификация основных видов диаграмм. Отображение сходства и отличия. Отображение динамики изменения. Геоинформация и карты.<br /> Способы и инструменты извлечения, преобразования данных для последующей визуализации. Microsoft Excel как пример инструмента.<br /> Интерактивная визуализация. Microsoft PowerBI и Tableau Software Tableau как примеры инструментов.<br /> Возможности использования в работе журналиста.
  • Язык Python в анализе открытых данных
    Основные особенности языка Python. Типы данных и структуры данных. Управляющие конструкции. Функции. Ввод/вывод данных.<br /> Необходимые библиотеки и пакеты, управление пакетами. Пакеты MatPlotLib и Pandas. Высокоуровневые средства анализа данных. Пакет Scikit-learn.
  • Статистический анализ числовых данных
    Вероятность и вероятностные пространства. Дискретные и непрерывные случайные величины. Таблицы и гистограммы. Функция распределения и функция плотности. Основные распределения.<br /> Математическая статистика. Генеральная совокупность и выборка. Представление данных. Описательная статистика, визуализация средних, медианы, моды, разбора, дисперсии и других характеристик. Понятие корреляции.<br /> Проверка статистических гипотез. Ошибки первого и второго рода, p-value, теоретическая и практическая значимость. Множественные сравнения.<br /> Линейная регрессия. Основы факторного анализа.<br /> Работа с реальными данными. Неполнота и противоречивость данных. Шумы и выбросы. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.<br /> Примеры реализации статистических методов в Pandas. Оптимальная визуализация результатов статистического анализа.
  • Моделирование данных и высокоуровневые языки манипулирования данными
    Модели данных, сетевые, реляционные, объектовые и другие модели. Реляционная модель с точки зрения аналитика. Язык манипулирования данными SQL. Подъязыки DDL и DML. Структура запросов на выборку (SELECT). Современные реляционные системы управления базами данных. Хранилища больших данных. NoSQL и конвергенция технологий доступа к данным. Способы построения выборок из гетерогенных данных.
  • Интеллектуальный анализ данных. Числовые данные
    Введение в машинное обучение и интеллектуальный анализ данных. Постановки задач машинного обучения. Классификация: от линейной регрессии к более мощным методам. Проблема переобучения.<br />Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Пример задачи кредитного скоринга. Логистическая регрессия. Максимизация зазора как пример регуляризации и устранения неоднозначности решения.<br /> Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений и жадные алгоритмы. Критерий ветвления. Выбор оптимального разбиения. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев. Композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.<br /> Оценивание качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Классификация: доля верных ответов, ее недостатки. Точность и пол-нота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера).<br /> Оценки принадлежности классам: площади под кривыми. AUC-ROC, AUC-PRC, их свойства.<br /> Оценивание качества алгоритмов. Скользящий контроль. Кросс-валидация. Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.<br /> Задача кластеризация. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.<br /> Задачи обнаружения импликаций и построения ассоциативных правил. Анализ частых множеств признаков. Пример задачи анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори.
  • Интеллектуальный анализ данных. Тексты и сети
    Коллекции неструктурированных текстов как исходные данные для анализа. Предобработка: фильтрация, стеммирование, индексация. Ключевые слова. Меры сходства текстов. От синтаксиса к семантике. Пример задачи определения тональности высказываний. Доступные инструменты анализа текстов.<br /> Анализ сетей. Основные графовые модели. Значимость цепей и деревьев. Протяжённость и разветвлённость. Покрытия. Различные меры центральности. Пример задачи поиска сообществ в социальных сетях. Доступные инструменты анализа сетей.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Проект по анализу реальных данных
  • неблокирующий Экзамен
    На экзамене студент может получить дополнительный вопрос (дополнительную практическую задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    Промежуточный контроль по выполнению проекта по анализу реальных данных.
  • Промежуточная аттестация (4 модуль)
    О<sub>результ.</sub>= 0,1∙ О<sub>ДЗ1</sub> + 0,1∙ О<sub>ДЗ2</sub> + 0,1∙ О<sub>ДЗ3</sub> +0,5∙ О<sub>Проект</sub> + 0,2∙ О<sub>экз.</sub>
Список литературы

Список литературы

Рекомендуемая основная литература

  • Lutz, M. (2008). Learning Python (Vol. 3rd ed). Beijing: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=415392
  • Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.

Рекомендуемая дополнительная литература

  • Dekking F. M. et al. A Modern Introduction to Probability and Statistics: Understanding why and how. – Springer Science & Business Media, 2005. – 488 pp.
  • Stephen Boyd, Lieven Vandenberghe, & Lieven V. (2015). Additional Exercises for Convex Optimization. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7445CE1