• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2022/2023

Глубинный анализ данных и текстов

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 38.04.05. Бизнес-информатика
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Бизнес-информатика: цифровое предприятие и управление информационными системами
Язык: русский
Кредиты: 6
Контактные часы: 48

Программа дисциплины

Аннотация

В рамках дисциплины "Глубинный анализ данных и текстов" студенты имеют возможность ознакомится с теоретическими и методологическими основами в области систем анализа неструктурированной информации, а также с практическими навыками, необходимыми для внедрения и использования такого сорта систем. Среди рассматриваемых методов анализа, особое внимание уделяется контент анализу, деревьям решений, кластерному анализу, обучение с подкреплению и нейронным сетям.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов комплекса теоретических знаний и практических навыков аналитики текстовых данных и углубленного анализа многомерных данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Использует базовые метрики качества в задачах классификации, регрессии и кластеризации
  • Применяет методы классификации, регрессии и кластеризации для анализа данных
  • Адекватно оценивает корректность использования методов анализа данных, применяемых при решении исследовательских задач
  • Адекватно оценивает корректность использования статистических методов, применяемых при формулировке и решении задач, владеет базовыми навыками анализа данных
  • Демонстрирует уверенное владение статистическим анализом данных с использованием Python и Jupyter
  • Воспроизводит основные определения науки о данных, и оценивает направления применения анализа больших данных в различных областях
  • Корректно применяет ансамбли моделей Random Forest и Gradient Boosting в машинном обучении
  • Применяет основные подходы к построению моделей обучения с подкреплением
  • Оценивает специфику применения рекомендательных систем, соревновательных нейронных сетей и автокодировщиков
  • Воспроизводит базовые принципы применения нейронных сетей
  • Применяет сверточные и рекуррентные нейронные сети для анализа текста
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Что такое большие данные и аналитика данных?
  • Введение в машинное обучение
  • Практика работы с данными на основе задачи классификации, регрессии и кластеризации
  • Ансамбли моделей в машинном обучении
  • Обучение с подкреплением
  • Нейронные сети
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
    Контрольная работа формируется на основе типовых заданий, решаемых в рамках семинарских занятий
  • неблокирующий Контрольное домашнее задание
    Выполнение домашнего задания предусматривает построение моделей анализа информации и текстов, выявление регулярных выражений, построение аналитических срезов и фильтров, выделение корреляций между срезами, отображение взаимосвязей и визуализацию итогов анализа
  • неблокирующий Аудиторная работа
  • неблокирующий Экзамен
    Экзаменационная работа состоит из двух частей: тест и практическая часть. Тест представляет из себя вопросы закрытого типа, практическая часть – проведение анализа данных заданного типа, на основе видов молей, пройденных после проведения контрольной работы. Платформа проведения: Экзамен проводится на платформах Webinar и Canvas LMS. К экзамену необходимо подключиться за 15 минут до начала. Компьютер студента должен удовлетворять требованиям платформ. Для участия в экзамене студент обязан: Не позднее 7 дней до проведения экзамена проверить работоспособность компьютерного оборудования, необходимого для сдачи экзамена и убедиться в соответствие имеющегося оборудования требованиям к компьютеру для участия в экзамене на платформах Webinar и Canvas LMS; Войти на платформы Webinar и Canvas LMS под личной учетной записью (используется аккаунт студента @edu.hse.ru); Перед началом экзамена проверить работоспособность микрофона, колонок или наушников для передачи звука и видеокамеры, скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для проведения экзамена инструменты: ручка, листы бумаги, калькулятор и т. д.); Отключить в диспетчере задач компьютера иные приложения, кроме приложения Webinar или браузера, в котором будет выполняться вход на платформы Webinar и Canvas LMS, а также необходимого окружения Python. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 2 недели до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Выключать видеокамеру; Пользоваться конспектами, учебниками, прочими учебными материалами; Покидать место выполнения экзаменационного задания (выходить за угол обзора камеры); Отводить взгляд от экрана компьютера, рабочего стола; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Во время экзамена студентам разрешено: Использовать бумагу, ручку для ведения записей, расчетов; Использовать калькулятор для ведения расчетов; Включать микрофон во время экзамена для ответов на вопросы преподавателя; Запрашивать у преподавателя дополнительную информацию, связанную с выполнением экзаменационного задания; Взаимодействовать с другими студентами по разрешению преподавателя. Нарушения связи: Кратковременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами Webinar и Canvas LMS не более 1 минуты. Долговременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами Webinar и Canvas LMS более 1 минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи экзамена. В случае долговременного нарушения связи с платформами Webinar и Canvas LMS во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.296 * Контрольная работа + 0.294 * Контрольное домашнее задание + 0.1 * Аудиторная работа + 0.31 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.
  • Haroon, D. (2017). Python Machine Learning Case Studies : Five Case Studies for the Data Scientist. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1623520
  • Lapan, M. (2020). Deep Reinforcement Learning Hands-On : Apply Modern RL Methods to Practical Problems of Chatbots, Robotics, Discrete Optimization, Web Automation, and More, 2nd Edition: Vol. Second edition. Packt Publishing.
  • Sarkar, D., Bali, R., & Sharma, T. (2018). Practical Machine Learning with Python : A Problem-Solver’s Guide to Building Real-World Intelligent Systems. [United States]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1667293
  • Sebastian Raschka, & Vahid Mirjalili. (2019). Python Machine Learning : Machine Learning and Deep Learning with Python, Scikit-learn, and TensorFlow 2, 3rd Edition. Packt Publishing.
  • Yang, X.-S. (2019). Introduction to Algorithms for Data Mining and Machine Learning. Academic Press.
  • Кудрявцев, В. Б.  Интеллектуальные системы : учебник и практикум для вузов / В. Б. Кудрявцев, Э. Э. Гасанов, А. С. Подколзин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2021. — 165 с. — (Высшее образование). — ISBN 978-5-534-07779-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/471014 (дата обращения: 28.08.2023).
  • Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Плас Дж. Вандер - Python для сложных задач: наука о данных и машинное обучение - 978-5-496-03068-7 - Санкт-Петербург: Питер - 2018 - 356721 - https://ibooks.ru/bookshelf/356721/reading - iBOOKS
  • Шарден, Б. Крупномасштабное машинное обучение вместе с Python : учебное пособие / Б. Шарден, Л. Массарон, А. Боскетти , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 358 с. — ISBN 978-5-97060-506-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/105836 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems: Vol. Second edition. O’Reilly Media.
  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811
  • Груздев, А. В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес : руководство / А. В. Груздев. — Москва : ДМК Пресс, 2018. — 642 с. — ISBN 978-5-97060-539-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/123700 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Подкорытова, О. А.  Анализ временных рядов : учебное пособие для вузов / О. А. Подкорытова, М. В. Соколов. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 267 с. — (Высшее образование). — ISBN 978-5-534-02556-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469322 (дата обращения: 28.08.2023).
  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Станкевич, Л. А.  Интеллектуальные системы и технологии : учебник и практикум для вузов / Л. А. Станкевич. — Москва : Издательство Юрайт, 2021. — 397 с. — (Высшее образование). — ISBN 978-5-534-02126-4. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469517 (дата обращения: 28.08.2023).
  • Статистика. В 2 ч. Часть 1 : учебник и практикум для вузов / В. С. Мхитарян [и др.] ; под редакцией В. С. Мхитаряна. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 249 с. — (Высшее образование). — ISBN 978-5-534-09353-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/475170 (дата обращения: 28.08.2023).
  • Статистика. В 2 ч. Часть 2 : учебник и практикум для вузов / В. С. Мхитарян, Т. Н. Агапова, С. Д. Ильенкова, А. Е. Суринов ; под редакцией В. С. Мхитаряна. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 270 с. — (Высшее образование). — ISBN 978-5-534-09357-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/475171 (дата обращения: 28.08.2023).