• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2018/2019

Научно-исследовательский семинар "Вероятностные методы моделирования"

Статус: Курс обязательный (Анализ больших данных в бизнесе, экономике и обществе)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 1-4 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Анализ больших данных в бизнесе, экономике и обществе
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

Целями освоения дисциплины Научно-исследовательский семинар "Вероятностные методы моделирования" являются: • научить студентов азам научно-исследовательской деятельности; • научить студентов структурировать исследование и взаимосвязывать различные раз-делы исследования; • научить студентов выделять самое основное для презентации результатов исследова-ния и оформлять презентационные материалы.
Цель освоения дисциплины

Цель освоения дисциплины

  • научить студентов азам научно-исследовательской деятельности
  • научить студентов структурировать исследование и взаимосвязывать различные разделы исследования
  • научить студентов выделять самое основное для презентации результатов исследования и оформлять презентационные материалы
Планируемые результаты обучения

Планируемые результаты обучения

  • знает особенности и виды научно-исследовательской работы
  • умеет формулировать тему исследования и выдвигать гипотезы
  • умеет оформлять ссылки и список литературы
  • умеет собирать данные для практической части работы
  • умеет выбирать модели и методы исследования
  • умеет структурировать и оформлять работу
  • умеет презентовать результаты исследования
  • знает основные проблемы дата майнинга
  • знает основные модели алгоритмов сетевого анализа
  • умеет восстанавливать скрытые распределения пользователей Вконтакте, собирать и анализировать данные
  • умеет проводить тематическое моделирования, анализировать полученные результаты
  • умеет анализировать наиболее известных токенайзеров и проводить процедуры токенизации на основе китайского датасета
  • умеет выделять паттерны поведения из больших данных
  • демонстрирует умение выдвигать гипотезу исследования
  • умеет применять данные из школы Digital Traces
  • умеет применять классификаторы для предсказания котировок
  • умеет классифицировать медицинские данные
  • демонстрирует умение реализовывать классификаторы на основе данных из проекта РГНФ
  • знает требования и структуру исследовательского проекта
  • демонстрирует знание логики научной работы
  • готов к защите письменной работы
  • умеет презентовать и защищать научную работу
  • умеет презентовать научную работу
  • демонстрирует умение работать с научными статьями
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Научно-исследовательская работа студентов – виды, содержание, особенности
  • Выбор направления и формулировка темы исследования. Постановка целей и задач. Гипотезы. Предмет и объект исследования.
  • Работа с источниками, цитирование, оформление ссылок и списка литературы
  • Эмпирические/полевые/иные исследования - сбор материалов для практической части работы
  • Методы и модели – особенности, выбор, использование, совмещение
  • Структура работы, логика и взаимосвязь, использование иллюстративного материала, оформление
  • Представление итогов - речь, презентация, раздаточные материалы, правила выступления.
  • Введение в проблемы дата майнинга
    10 CHALLENGING PROBLEMS IN DATA MINING RESEARCH. QIANG YANG, De-partment of Computer Science Hong Kong University of Science and Technology Clearwater Bay, XINDONG WU Department of Computer Science University of Vermont
  • Алгоритмы сетевого анализа.
    Обсуждение различных моделей, понятие модулярити. Community detection in graphs, Santo Fortunato, Complex Networks and Systems Lagrange La-boratory.
  • Восстановление скрытых распределений пользователей в Вконтакте
    Для чего это нужно и как это можно сделать? Обсуждение проблемы шума в сырых данных. Задание на сбор данных и анализ полученных результатов. Работа с датасетом из Вконтакта. Demographic research with non-representative internet data, Emilio Zagheni Department of So-ciology, University of Washington, Seattle, Washington, USA, and Ingmar Weber Department of Social Computing, Qatar Computing Research Institute, Doha, Qatar The Privacy Jungle: On the Market for Data Protection in Social Networks Joseph Bonneau, Computer Laboratory, University of Cambridge Sören Preibusch
  • Медиа – войны в интернете
    11. Медиа – войны в интернете, на примере сравнения контента российских и украин-ских каналов. Задание на сбор данных, Анализ проблем препроцессинга русского языка, проведения тематического моделирования, анализ полученных результатов. Обучение рабо-те с программой TopicMiner. Работа с Российским и украинским датасетом.
  • Межстрановые исследования
    Обсуждение проблем препроцессинга китайского языка. Cross-Cultural Analysis of Blogs and Forums of UK, India, Singapur. Задание на обработку китайского датасета. Assessing Censorship on Microblogs in China. King-wa Fu, Chung-hong Chan, and Michael Chau. 2013 Cross-Cultural Analysis of Blogs and Forums with Mixed-Collection Topic Models, Michael Paul and Roxana Girju, University of Illinois at Urbana Champaign. Задание на анализ наиболее известных токенайзеров и попытка проведения процедуры то-кенизации на основе китайского датасета. A. Stanford word segmenter http://nlp.stanford.edu/software/segmenter.shtml B. ICTCLAS http://repos.6estates.com/nexus/content/groups/public/com/nus/ictclas-tool/ Huaping Zhang, Hongkui Yu, Deyi Xiong, Qun Liu. 2003. HHMM -based Chinese C. Lexical Analyzer ICTCLAS. In Proceedings of 2nd SIGHAN Workshop on Chinese Language Processing, pp.184-187 FNLP (Fudan NLP tool by Xipeng Qiu) http://jkx.fudan.edu.cn/~xpqiu/
  • Выделение патернов поведения из больших данных.
    Catch Me If You Can: Detecting Pickpocket Suspects from Large-Scale Transit Records. Bowen Du State Key Lab of Software Development Environment Beihang University
  • Исследование Инстаграм
    Обсуждение датасета и генерирование идей исследования. Проведение исследование. Дан-ные доступны по результатам летней школы Digital Traces (https://eu.spb.ru/digitaltraces2016/main) What We Instagram: A First Analysis of Instagram Photo Content and User Types Yuheng Hu Lydia Manikonda Subbarao Kambhampati Department of Computer Science, Arizona State University Visualizing Instagram: Tracing Cultural Visual Rhythms. Nadav Hochman History of Art and Ar-chitecture University of Pittsburgh, Raz Schwartz Human Computer Interaction Institute, Carnegie Mellon University
  • Анализ профилей пользователя и выявление скрытых особенностей
    Анализ профилей на основе работы Ingmar Weber. Возможность применения данных из школы Digital Traces (https://eu.spb.ru/digitaltraces2016/main). Возможность репликации рабо-ты Вебера на основе данных из Вконтакта. Crowdsourcing Health Labels: Inferring Body Weight from Profile Pictures. Ingmar Weber, Qatar Computing Research Institute, Yelena Mejova Qatar Computing Research Institute. Social Media Image Analysis for Public Health. Venkata Rama Kiran Garimella Aalto University Helsinki, Finland.
  • Применение классификаторов для предсказания котировок
    Где и как достать данные, препроцессинг. Краткий обзор классификаторов для анализа ко-тировок. Задание по предсказанию котировок.
  • Цели и задачи классификации медицинских данных
    Обсуждение датасета отзывов по врачам. Задание по классификации отзывов. Scope of Data Mining in Medicine, Divdeep Singh Sukhpreet Kaur, M.Tech CSE Assistant Pro-fessor Department of Computer Science and Engineering Department of Computer Science and En-gineering Sri Guru Granth Sahib World University Sri Guru Granth Sahib World University Uniqueness of medical data mining, Krzysztof J. Ciosa,b,c,d, G. William Mooree,f,g a Department of Computer Science and Engineering, University of Colorado at Denve What Affects Patient (Dis)satisfaction? Analyzing Online Doctor Ratings with a Joint Topic-Sentiment Mode, Michael J. Paul Dept. of Computer Science Johns Hopkins University.
  • Обзор методов Sentiment analysis
    Реализация классификаторов на основе данных из проекта РГНФ (http://linis-crowd.org/). За-дание по сентимент анализу. Sentiment Strength Detection in Short Informal Text, Mike Thelwall, Kevan Buckley, Georgios Paltoglou, Di Cai, Statistical Cybermetrics Research Group, School of Computing and Information Technology, University of Wolverhampton, Wulfruna Street, Wolverhampton Linis-crowd.org: A lexical resource for Russian sentiment analysis of social media, S. Alexeeva, S. Kolcov, O. Koltsova National Research Institute Higher School of Economics.
  • Требования и структура исследовательского проекта
    Цели, задачи, методы проведения исследования. Требования к научным работам. Основные принципы исследовательской деятельности. Разбор действующих документов в НИУ ВШЭ - Санкт-Петербург на предмет оформления работы. Приведение примеров для лучшего усвое-ния материала.
  • Методы исследования. Содержание и логика научной работы.
    Характеристика основных структурных элементов. Рассмотрение постановки научной цели (или целей), а также вытекающих из нее (из них) важных задач. Логика научной работы - специфика и необходимость. Взаимосвязь информационной базы и применяемых методов исследования, выявление специфики исследовательской базы на различных рынках. Рас-крытие взаимосвязи тематики исследования и используемых для этого методов.
  • Обсуждение будущей письменной работы и её защиты.
    возможных сложностей и ошибок. Выявление возможных сильных и слабых сторон буду-щей работы. Выбор правильных ориентиров для сбора и обработки информации. Обсужде-ние и проработка вопросов обработки недостоверной информации. При обсуждении тем будущих работ особое внимание уделяется способности каждого сту-дента находить информацию для выбранной темы исследования, а также умению аргумен-тировано отстаивать свою точку зрения.
  • Защита и презентация научной работы
    Научная работа может быть защищена с использованием презентаций. В презентации долж-ны быть представлены научные результаты. Желательным элементом является дискуссия. Важным моментом является критическое восприятие и умение корректно заимствовать сильные стороны работ сокурсников.
  • Подготовка, защита, пре-зентация научной работы
  • Обсуждение статей
Элементы контроля

Элементы контроля

  • неблокирующий Выступление
  • неблокирующий Аудиторная работа
  • неблокирующий Эссе
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.36 * Аудиторная работа + 0.12 * Выступление + 0.4 * Экзамен + 0.12 * Эссе
Список литературы

Список литературы

Рекомендуемая основная литература

  • Радаев, В.В. Как организовать и представить исследовательский проект. 75 простых правил / В.В. Радаев ; Нац. исслед. ун-т «Высшая школа экономки». — 2-е изд. (эл.). — Электрон. текстовые дан. (1 файл pdf: 204 с.). — Москва : Изд. дом Высшей школы экономики, 2019. — Систем. требования: Adobe Reader XI , либо Adobe Digital Editions 4.5 ; экран 10'. - ISBN 978-5-7598-1469-6. - Текст : электронный. - URL: https://new.znanium.com/catalog/product/1040849 - Текст : электронный. - URL: http://znanium.com/catalog/product/1040849

Рекомендуемая дополнительная литература

  • Розанова Н.М. - Научно-исследовательская работа студента (бакалавриат) - КноРус - 2018 - 255с. - ISBN: 978-5-406-06118-3 - Текст электронный // ЭБС BOOKRU - URL: https://book.ru/book/917087