• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

Научно-исследовательский семинар

Статус: Курс обязательный (Журналистика данных)
Направление: 42.04.02. Журналистика
Кто читает: Институт медиа
Когда читается: 2-й курс, 1-3 модуль
Формат изучения: без онлайн-курса
Преподаватели: Бобринская Мария Алексеевна, Макаров Илья Андреевич, Нестеренко Любовь Владимировна, Черненко Юлия Александровна
Прогр. обучения: Журналистика данных
Язык: русский
Кредиты: 15
Контактные часы: 96

Программа дисциплины

Аннотация

Научно-исследовательский семинар изучает научные методы работы в сфере журналистики данных, подробно останавливаясь на изучении и использовании пространственных данных, сетевом анализе, компьютерной лингвистике, а также научных методах исследования, академическом письме и мастерстве представления академического исследования, практики прикладного использования его результатов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Обучение студентов с теоретическими основами цифрового картографирования и практическими навыками работы с пространственными данными,использования геоинформационных систем, визуализации и картографического дизайна
  • Рассмотрение методов компьютерной лингвистики, применяемых при обработке текстов в предметно-ориентированных информационных системах.
  • Изучаются виды используемых лингвистических ресурсов и методы их разработки.
  • Рассматриваются задачи автоматического аннотирования тестов, рубрикации и кластеризации текстов, извлечения информации из текстов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет терминологией в области картографии и ГИС
  • Выбирает нужные параметры проекций и систем координат
  • Выбирает виды и источники данных в зависимости от задач
  • Создает слои данных, оценивает качество данных, работает с проектами
  • Использует инструменты пространственного анализа
  • Визуализирует атрибутивную информацию пространственных данных
  • Создает законченный проект на основе пространственных данных
  • Знает основные подходы к решению задач компьютерной лингвистики
  • Знает основные приложения автоматической обработки текстов, используемые в пред-метно-ориентированных информационных системах
  • Извлекает сущности из текста
  • Знает инструменты и библиотеки Python для компьютерной лингвистики
  • Ориентируется в задачах автоматической обработки текста
  • Делит большие задачи на мелкие подзадачи
  • Решает задачи предобработки текста с использованием приёмом программирования на Python
  • Применяет специализированные библиотеки Python для задач автоматической обработки текста
  • Оценивает работу систем автоматической обработки текста
  • Владеет навыками текстового анализа при помощи инструментов и библиотек Python
  • Владеет навыками оценки качества систем автоматической обработки текста
  • Владеет навыками логико-лингвистического моделирования предметной области с использованием стандартов и инструментальных средств, поддерживающих разработку лингвистического обеспечения информационной системы для конкретной предметной области
  • Владеет методами машинного обучения для структурной модели графа
  • Владеет методами машинного обучения для структурной модели графа с учетом текстовых эмбеддингов
  • Владеет методами представления результатов проекта в области сетевого анализа
  • Владеет навыками моделирования случайных графов для тестирования статистических гипотез на структурных данных
  • Демонстрирует общие знания об области применения анализа социальный сетей и программных средствам для работы с графами
  • Знает модели распространения влияния. Умеет прогнозировать достижение равновесия в сетевой модели на основе Марковских процессов в сетях
  • Знает понятие центральности как меры ранжирования вершин в графе на основе структурной информации
  • Знает понятия центральности и престижа как мер ранжирования вершин, взаимовлияние в ориентированных сетях
  • Знает статистические особенности реальных сетей, основные отличия реальных сетей от модельных данных
  • Умеет использовать информационные каскады как модель сетевого маркетинга и оценивать успешность сетевого маркетинга
  • Умеет моделировать распространение информации. Понимает сущность понятия эпидемии в информационном поле
  • Умеет находить структурно схожие элементы и меры схожести в структурной информации
  • Умеет обнаруживать сообщества в сетях, владеет методами кластеризации на графах
  • Умеет строить модель классификации элементов сети, выявлять агентов влияния, осуществлять количественные предсказания на основе временных динамических графов
  • Умеет строить рекомендации связей между элементами сети, владеет методами детектирования фрода в сетях
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в картографию и ГИС.
    Основные определения: карта, ГИС, пространственные данные, пространственный анализ. Развитие картографии и геоинформатики. Принцип создания карт, источники данных для них. Сферы применения ГИС.
  • Математические основы картографии
    Географические и плановые (метрические) координаты. Системы координат: местные, государственные, глобальные. Наиболее часто используемые системы координат. Картографические проекции, их виды, принципы использования. Правила выбора проекции. Основные ошибки использования систем координат и проекции. Проблема использования проекции Web Mercator. Масштаб, его актуальность в цифровой картографии.
  • Виды пространственных данных
    Векторные данные: геометрические примитивы, особенности использования и функциональное назначение, способы создания, форматы хранения. SHP-файл. Растровые данные: особенности использования и функциональное назначение, спутниковые снимки как основной источник растровых данных, форматы хранения. Атрибутивная информация пространственных данных. Топологические отношения. Ошибки данных, оценка качества и полноты данных. Источники данных.
  • Работа с данными в ГИС, создание слоев и проектов
    Загрузка и отображение данных в ГИС. Создание и редактирование слоев, добавление атрибутивной информации. Присоединение пространственной информации к статистическим данным, пространственное присоединение, прямое и обратное геокодирование.
  • Аналитические инструменты работы с данными
    Виды аналитических инструментов в ГИС. Вычислительные операции: площадь, длина, количество. Ошибки в вычислениях. Пространственный анализ: пространственные выборки, тепловые карты. Инструменты работы со спутниковыми снимками.
  • Визуализация данных, дизайн карт
    Элементы карты. Способы визуализации данных на карте: точечный, изолинии, картограммы, картодиаграммы. Шкалы условных знаков. Информативность и читабельность. Инструменты визуализации
  • Практическая работа: ГИС проект
    Практика создания, обработки, анализа и визуализации пространственных данных, создание карт
  • Введение в сетевой анализ
    Введение в сетевой анализ. Теория сложных сетей. Основные свойства сети и метрики. Примеры сетей.
  • Описательные статистики реальных сетей
    Степенной закон распределения и реальные сети. Закон Ципфа. Закон шести рукопожатий. Плотностей связей между друзьями.
  • Модели формирования сети
    Модель случайного графа Эрдоша-Рени. Распределения Пуассона и Бернулли. Распределение степеней вершин. Модель Барабаси-Альберта. Модель эволюции графа. Модель “маленького мира” (модель Ваттс-Строгаца). Статистики случайных графов.
  • Меры влияния агентов в неориентированных сетях
    Метрики центральности вершин: степенная, мостовая, по близости, относительно собственных векторов, структурные. Интерпретация центральности как меры влияния. Визуализация ключевых агентов в сети.
  • Меры влияния агентов в ориентированных сетях
    PageRank, стохастическая метрика и условие Перрона-Фробениуса. Итеративные методы. Хабы и источники. Алгоритм HITS.
  • Структурная эквивалентность
    Метрики структурной эквивалентности. Евклидова метрика и расстояние Хэмминга. Коэффициент корреляции. Косинусное сходство. Ассортативное смешивание и гомофилия. Смешивание по факторным и численным атрибутам.
  • Сообщества в социальных сетях
    Сетевые сообщества. Плотность сообществ и метрики разрезов. Алгоритм Ньюмена-Гирвина. Спектральные методы кластеризации. Приближенные и жадные алгоритмы. Иерархическая кластеризация. Локальная кластеризация. Графовые шаблоны, k-core, микро подграфы.
  • Распространение и эпидемии в сетях
    Модели эпидемий: SI, SIS, SIR. Решение дифференциальных уравнений. Предельные случаи. Моделирование распространения инфекции.
  • Распространение инноваций и информационные каскады
    Обучение на основе наблюдений. Информационные каскады. Каскады в сети. Независимая и линейная пороговая модели каскадов. Измерение распространения информации и оценка успешности компании в сетях.
  • Распространение влияния и консенсус в социальных сетях
    Физическая диффузия. Диффузионное уравнение. Распространение в сети и Лапласиан. Решение диффузионного уравнения. Случайные блуждания на графе. Социальная диффузия. Пороговая модель Грановеттера для описания коллективного поведения. Самые влиятельные узлы в сети.
  • Векторные модели сетей без атрибутов
    Графовые эмбеддинги. Модели на основе матричной факторизации, случайных блужданий и автоэнкодеров. Векторизация структурной модели.
  • Векторные модели сетей с текстовыми атрибутами
    Атрибутивные графовые эмбеддинги. Веткорные модели текстов и инициализации моделеи. Фьюжн информации и индуктивные модели обучения.
  • Предсказание связей и рекомендации в сетях
    Рост сети. Диаметр сжатия. Проблема предсказания связей. Обучение с учителем. Рекомендательные системы.
  • Классификация сетевых данных и графовые нейронные сети
    Задача классификации документов, оценка влияния агентов: предсказание свойств вершин. Графовые нейронные сети. Обучение со слабой разметкой или без учителя. Машинное обучение на графах.
  • Знакомство с компьютерной линвгистикой
    Знакомство с компьютерной линвгистикой: предмет, задачи, области. История развития компьютерной лингвистики. Направления компьютерной лингвистики. Основы предобработки текста. Модели представления знаний предметной области. Информаци- онно-поисковые системы. Система понятий и терминов как основа описания модели предметной области. Рубрикаторы: назначение и принципы создания. Информационно- поисковые тезаурусы (ИПТ): понятие информационно-поискового тезауруса, структура статьи информационно-поискового тезауруса, стандарты по разработке ИПТ. Онтологии в информационно-поисковых системах. Понятие лингвистической онтологии. Построение онтологии предметной области.
  • Регулярные выражения, tokenization etc.
  • Частотные списки, мера TF-IDF. Извлечение ключевых слов, алгоритм RAKE
  • Векторизация текстов, векторная семантика. Bag of Words, word2vec, ресурс RusVectores.
  • Автоматическая классификация документов
    Автоматическая классификация документов: тематическая классификаци, сенти-мент анализ. Оценка качества работы классификаторов. Тематическая структура текстов. Свойства связного текста: тематическая связность, риторическая связность, лексическая связность, референциальная связность. Моделирование свойств связного текста.
  • Text Mining
    Text Mining. Задача извлечения знаний из текстов: извлечение объектов, связей, фактов. Методы автоматического извлечения знаний из текстов. Системы автоматическо-го извлечения знаний из текстов. Методы извлечения знаний из текстов экспертом. Мето-ды извлечения устойчивых словосочетаний и терминов из текстов. Методы оценки каче-ства извлечения. Извлечение терминов как многофакторный процесс. Методы выявления отношений между терминами из текстов. Извлечение синонимов, родовидовых отношений, построение таксономий. Инструменты в Python
  • Сетевой анализ
Элементы контроля

Элементы контроля

  • неблокирующий Посещаемость 1 модуля
  • неблокирующий Выполнение заданий на семинарах 1 модуля
  • неблокирующий Финальный проект по итогам 1 модуля
  • неблокирующий Активность на занятиях и выполнение домашних заданий 3 модуля
  • неблокирующий Финальный проект 3 модуля
  • неблокирующий Посещение занятий и выполнение заданий 2 модуля
    Основной формой работы на семинарах является программирование в IPython Notebook. Формы работы и критерии оценивания на каждом конкретном семинаре преподаватель озвучивает студентам.
  • неблокирующий Проект 1
  • неблокирующий Проект 2
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.2 * Выполнение заданий на семинарах 1 модуля + 0.05 * Посещаемость 1 модуля + 0.1 * Посещение занятий и выполнение заданий 2 модуля + 0.15 * Проект 1 + 0.25 * Проект 2 + 0.25 * Финальный проект по итогам 1 модуля
  • Промежуточная аттестация (3 модуль)
    0.21 * Активность на занятиях и выполнение домашних заданий 3 модуля + 0.7 * Промежуточная аттестация (2 модуль) + 0.09 * Финальный проект 3 модуля
Список литературы

Список литературы

Рекомендуемая основная литература

  • Easley, D., & Kleinberg, J. (2010). Networks, Crowds, and Markets : Reasoning About a Highly Connected World. New York: Cambridge eText. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=324125
  • Витковский В.В. - Картография (теория картографических проекций) - Издательство "Лань" - 2013 - 473с. - ISBN: 978-5-507-31477-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/32797
  • Инновационное развитие: экономика, интеллектуальные ресурсы, управление знаниями : монография / под ред. Б.З. Мильнера. — М. : ИНФРАМ, 2018. — 624 с. — (Научная мысль). - Режим доступа: http://znanium.com/catalog/product/975926
  • Картография и ГИС : учеб. пособие / В.П. Раклов. — 3-е изд., стереотип. — М. : ИНФРА-М, 2019. — 215 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/1022695
  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2019. — 343 с. — (Среднее профессиональное образование). - Режим доступа: http://znanium.com/catalog/product/970143

Рекомендуемая дополнительная литература

  • Newman, M. E. J. (2010). Networks : An Introduction. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=458550
  • Understanding Geo-spatial Information on Social Media. (2016). https://doi.org/10.4233/uuid:06c072ad-4db6-4d3b-b747-784e30d862a4
  • Yanqing Xu, & Eugene Kennedy. (2015). An Introduction to Spatial Analysis in Social Science Research. Tutorials in Quantitative Methods for Psychology, (1), 22. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsdoj&AN=edsdoj.571b8abf375d4e059682324f8fae0c6d
  • Информатика и лингвистика : учеб. пособие / Т.М. Волосатова, Н.В. Чичварин. — Москва : ИНФРА-М, 2018. — 196 с. + Доп. материалы [Электронный ресурс; Режим доступа: https://new.znanium.com]. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/16175. - Текст : электронный. - URL: http://znanium.com/catalog/product/938009
  • Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471