• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2021/2022

Анализ неструктурированных данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 38.04.05. Бизнес-информатика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Бизнес-информатика: цифровое предприятие и управление информационными системами
Язык: русский
Кредиты: 5
Контактные часы: 40

Программа дисциплины

Аннотация

В рамках дисциплины «Анализ неструктурированных данных» студенты имеют возможность ознакомится с теоретическими и методологическими основами в области систем анализа неструктурированной информации, а также с практическими навыками, необходимыми для внедрения и использования такого сорта систем. Среди рассматриваемых методов анализа, особое внимание уделяется Контент анализу (Content analysis), Деревьям решений (Decision tree), Кластерному анализу (Cluster Analysis), Генетическим (эволюционным) алгоритмам (Genetic Algorithms) и Нейронным сетям (Neural network). На практических занятиях, с целью закрепления навыков и знаний, используется программное обеспечение от ведущих вендеров такое, как Anaconda, RStudio, JetBrains PyCharm, IBM SPSS Statistics и Microsoft Power BI.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знать основные модели и методы машинного обучения и разработки данных
  • Владеть математическим аппаратом и инструментальными средствами анализа неструктурированных данных
  • Владеть базовыми навыками анализа неструктурированных данных с использованием Python и интерпретации полученных результатов
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть методами и моделями решающих деревьев, простых нейронных сетей, xgboost, метода опорных векторов и уметь их обучать
  • Владеть методами кластеризации данных, сингулярного разложения, фактор-анализа, главных компонент
  • Владеть основами математики для анализа данных
  • Знать основные используемые методы обработки текстов, изображений и видео
  • Знать основные концепции и методы машинного обучения, применяемые при решении классификационных и регрессионных задач
  • Знать основные концепции нейронных сетей и методы их обучения в задачах анализа неструктурированных данных
  • Знать основные подходы к построению моделей обучения с подкреплением
  • Знать основные постановки задач и типы данных в машинном обучении
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы машинного обучения
  • Обучение с учителем
  • Обучение без учителя
  • Неструктурированные данные
Элементы контроля

Элементы контроля

  • неблокирующий Реферат
    Реферат формируется на основе лекционных материалов, отечественных и зарубежных (англоязычных) публикаций по вопросам теории и практики систем анализа неструктурированной информации
  • неблокирующий Контрольное домашнее задание
    Выполнение домашнего задания предусматривает построение моделей анализа неструктурированной информации, выявление регулярных выражений, построение аналитических срезов и фильтров, выделение корреляций между срезами, отображение взаимосвязей и визуализацию итогов анализа в BI системе
  • неблокирующий Аудиторная работа
  • неблокирующий Экзамен
    Экзаменационная работа состоит из двух частей: тест и письменная часть. Тест представляет из себя вопросы закрытого типа, письменная часть – анализ данных в рамках заданной предметной области и проблематики. Форма экзамена: Экзамен проводится в письменной форме. Платформа проведения: Экзамен проводится на платформе Canvas LMS. Для участия в экзамене студент обязан: Не позднее 7 дней до проведения экзамена проверить работоспособность компьютерного оборудования, необходимого для сдачи экзамена и убедиться в соответствие имеющегося оборудования требованиям к компьютеру для участия в экзамене на платформе Canvas LMS; Войти на платформу Canvas LMS под личной учетной записью (используется аккаунт студента @edu.hse.ru); Перед началом экзамена проверить скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для проведения экзамена инструменты: ручка, листы бумаги, калькулятор и т. д.; Отключить в диспетчере задач компьютера иные приложения, кроме браузера, в котором будет выполняться вход на платформу Canvas LMS, а также необходимого окружения Python. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 2 недели до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Пользоваться конспектами, учебниками, прочими учебными материалами; Покидать место выполнения экзаменационного задания; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Во время экзамена студентам разрешено: Использовать бумагу, ручку для ведения записей, расчетов; Использовать калькулятор для ведения расчетов; Запрашивать у преподавателя дополнительную информацию, связанную с выполнением экзаменационного задания; Взаимодействовать с другими студентами по разрешению преподавателя. В случае долговременного нарушения связи с платформами MS Teams и Canvas LMS во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 4 модуль
    0.3 * Экзамен + 0.296 * Контрольное домашнее задание + 0.284 * Реферат + 0.12 * Аудиторная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.
  • Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems: Vol. Second edition. O’Reilly Media.
  • Dipanjan Sarkar. (2019). Text Analytics with Python : A Practitioner’s Guide to Natural Language Processing: Vol. Second edition. Apress.
  • Lapan, M. (2020). Deep Reinforcement Learning Hands-On : Apply Modern RL Methods to Practical Problems of Chatbots, Robotics, Discrete Optimization, Web Automation, and More, 2nd Edition: Vol. Second edition. Packt Publishing.
  • Yang, X.-S. (2019). Introduction to Algorithms for Data Mining and Machine Learning. Academic Press.
  • Маккинни, У. Python и анализ данных / У. Маккинни ; перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Шарден, Б. Крупномасштабное машинное обучение вместе с Python : учебное пособие / Б. Шарден, Л. Массарон, А. Боскетти ; перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 358 с. — ISBN 978-5-97060-506-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/105836 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811
  • Sebastian Raschka, & Vahid Mirjalili. (2019). Python Machine Learning : Machine Learning and Deep Learning with Python, Scikit-learn, and TensorFlow 2, 3rd Edition. Packt Publishing.
  • Wei-Meng Lee. 2019. Python Machine Learning. John Wiley & Sons, Incorporated
  • Плас Дж. Вандер. Python для сложных задач: наука о данных и машинное обучение. - Санкт-Петербург : Питер, 2018. - 576 с. - ISBN 978-5-496-03068-7. - URL: https://ibooks.ru/bookshelf/356721/reading (дата обращения: 12.10.2020). - Текст: электронный.
  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка ; перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.