Кто читает:: Департамент анализа данных и искусственного интеллекта

Статус:: Курс обязательный

Когда читается:: 1-й курс, 3, 4 модуль

Полная версия программы учебной дисциплины

Аннотация

Взаимодействие с источниками открытых данных и последующая обработка данных требует не только некоторого минимума технических знаний. Специалисту следует опираться на знания и представления о функционировании предметных областей (экономики, социума, политической сферы и т.п.); хорошо представлять модели и методы информационного поиска, статистики, машинного обучения и майнинга данных, извлечения знаний и онтологического моделирования. Это позволит развить общие компетенции исследователя данных [data scientist]. Дисциплина фокусируется на феномене открытых данных [Open Data], современном состоянии инструментов работы с ними и специфике явления, получившего названия «журналистика данных» [Data Journalism].

Цель освоения дисциплины

Цель освоения дисциплины «Открытые данные» – овладение знаниями и навыками, необходимыми для: <ul> <li>поиска, получения и преобразования данных из источников открытых данных;</li> <li>интеграции данных, оценки их качества и пригодности к дальнейшему использованию, как в конкретном исследовании, так и в качестве новой порции открытых данных;</li> <li>подготовки данных для эффективного анализа, как методами математической статистики, так и методами интеллектуального анализа. </li></ul>

Планируемые результаты обучения

Студент знает специфичные свойства открытых данных и способы доступа к ним; понимает базовые модели, методы и инструменты статистического анализа, машинного обучения и майнинга данных применительно к открытым и связным данным.
Студент умеет адекватно применять современные модели, методы и инструменты (программные средства), позволяющие целостно решить задачи журналистики с использованием источников открытых данных.
Студент имеет навыки получения, оценки, интеграции и анализа реальных данных из источников открытых данных с помощью изученных методов.

Содержание учебной дисциплины

Введение, основные понятия в области обработки данных
Информация, сведения, данные и документы. Задачи обработки данных. Информационные процессы и информационные системы. Системный подход к анализу данных. Базовые инструменты обработки данных, интерфейсы и протоколы, аутентификация и авторизация. Маленькие, большие и огромные данные. Форматы данных, основные типы атомарных данных, сериализация и десериализация. Данные и знания. Наборы данных и источники данных. Открытость как свойство набора данных и источника данных. Этапы анализа данных. Примеры прикладных задач анализа данных и их типы: описательная статистика, проверка гипотез, классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных.
Стандарты, протоколы доступа и форматы открытых данных
Определение и основные свойства открытости [Openness]. Открытые лицензии. Стандарты в области открытых данных. Историческая справка и исторически сложившиеся условности. Основные типы открытых данных. Популярность формата CSV. Языки JSON и XML. Идеология по-лучения и анализа данных. Роли участников. Связные [Linked] данные. Инструменты исследователей и разработчиков. API доступа к открытым данным.
Базовые методы визуализации данных. Инструменты визуализации и построения отчётов
Принципы и парадигмы визуализации. Классификация основных видов диаграмм. Отображение сходства и отличия. Отображение динамики изменения. Геоинформация и карты. Способы и инструменты извлечения, преобразования данных для последующей визуализации. Microsoft Excel как пример инструмента. Интерактивная визуализация. Microsoft PowerBI и Tableau Software Tableau как примеры инструментов. Возможности использования в работе журналиста.
Язык Python в анализе открытых данных
Основные особенности языка Python. Типы данных и структуры данных. Управляющие конструкции. Функции. Ввод/вывод данных. Необходимые библиотеки и пакеты, управление пакетами. Пакеты MatPlotLib и Pandas. Высокоуровневые средства анализа данных. Пакет Scikit-learn.
Статистический анализ числовых данных
Вероятность и вероятностные пространства. Дискретные и непрерывные случайные величины. Таблицы и гистограммы. Функция распределения и функция плотности. Основные распределения. Математическая статистика. Генеральная совокупность и выборка. Представление данных. Описательная статистика, визуализация средних, медианы, моды, разбора, дисперсии и других характеристик. Понятие корреляции. Проверка статистических гипотез. Ошибки первого и второго рода, p-value, теоретическая и практическая значимость. Множественные сравнения. Линейная регрессия. Основы факторного анализа. Работа с реальными данными. Неполнота и противоречивость данных. Шумы и выбросы. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов. Примеры реализации статистических методов в Pandas. Оптимальная визуализация результатов статистического анализа.
Моделирование данных и высокоуровневые языки манипулирования данными
Модели данных, сетевые, реляционные, объектовые и другие модели. Реляционная модель с точки зрения аналитика. Язык манипулирования данными SQL. Подъязыки DDL и DML. Структура запросов на выборку (SELECT). Современные реляционные системы управления базами данных. Хранилища больших данных. NoSQL и конвергенция технологий доступа к данным. Способы построения выборок из гетерогенных данных.
Интеллектуальный анализ данных. Числовые данные
Введение в машинное обучение и интеллектуальный анализ данных. Постановки задач машинного обучения. Классификация: от линейной регрессии к более мощным методам. Проблема переобучения. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Пример задачи кредитного скоринга. Логистическая регрессия. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений и жадные алгоритмы. Критерий ветвления. Выбор оптимального разбиения. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев. Композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag. Оценивание качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Классификация: доля верных ответов, ее недостатки. Точность и пол-нота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера). Оценки принадлежности классам: площади под кривыми. AUC-ROC, AUC-PRC, их свойства. Оценивание качества алгоритмов. Скользящий контроль. Кросс-валидация. Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки. Задача кластеризация. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации. Задачи обнаружения импликаций и построения ассоциативных правил. Анализ частых множеств признаков. Пример задачи анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори.
Интеллектуальный анализ данных. Тексты и сети
Коллекции неструктурированных текстов как исходные данные для анализа. Предобработка: фильтрация, стеммирование, индексация. Ключевые слова. Меры сходства текстов. От синтаксиса к семантике. Пример задачи определения тональности высказываний. Доступные инструменты анализа текстов. Анализ сетей. Основные графовые модели. Значимость цепей и деревьев. Протяжённость и разветвлённость. Покрытия. Различные меры центральности. Пример задачи поиска сообществ в социальных сетях. Доступные инструменты анализа сетей.

Элементы контроля

Домашнее задание 1
Домашнее задание 2
Домашнее задание 3
Проект по анализу реальных данных
Экзамен
На экзамене студент может получить дополнительный вопрос (дополнительную практическую задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл.

Промежуточная аттестация

Промежуточная аттестация (3 модуль)
Промежуточный контроль по выполнению проекта по анализу реальных данных.
Промежуточная аттестация (4 модуль)
Орезульт.= 0,1∙ ОДЗ1 + 0,1∙ ОДЗ2 + 0,1∙ ОДЗ3 +0,5∙ ОПроект + 0,2∙ Оэкз.

Магистерская программа «Журналистика данных»

Открытые данные

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература