• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2018/2019

Python для гуманитариев-2

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 2 модуль
Преподаватели: Дереза Оксана Владимировна
Язык: русский
Кредиты: 3
Контактные часы: 32

Программа дисциплины

Аннотация

Настоящая дисциплина входит в цикл дисциплин свободного минора факультета гуманитарных наук НИУ ВШЭ. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями:  основы работы с языком программирования Python (по программе курса «Python для гуманитариев - 1»);  основы математики;  основы лингвистики. Основные положения дисциплины должны быть использованы в дальнейшем при изучении дисциплин: 1. Научно-исследовательский семинар 2. Подготовка и защита выпускной квалификационной работы
Цель освоения дисциплины

Цель освоения дисциплины

  • научить слушателей применять базовые навыки на языке программирования Python для решения возникающих на практике задач по работе с текстовыми данными: автоматическая обработка и анализ текстовых данных, поиск информации, создание корпусов данных и др.
Планируемые результаты обучения

Планируемые результаты обучения

  • проводить формализацию лингвистических знаний, анализ и синтез лингвистических структур, квантитативный анализ текстовых данных с использованием математических знаний и методов
  • участвовать в создании представительных текстовых массивов, корпусов текстов, корпусов звучащей речи, мультимодальных корпусов, лингвистических и социолингвистических баз данных и пользоваться этими ресурсами
  • проводить квалифицированное тестирование эффективности лингвистически ориентированного программного продукта
  • гибко адаптироваться к различным профессиональным ситуациям, проявлять творческий подход, инициативу и настойчивость в достижении целей профессиональной деятельности и личных
  • писать программы на языке Python, используя пройденные функции и библиотеки
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Повторение основ работы с Python
    Переменные и функции. Типы и структуры данных. Условные выражения. Циклы. Работа с файлами.
  • Регулярные выражения
    Язык регулярных выражений. Работа с регулярными выражениями в Python. Библиотека re.
  • Основы NLP
    Основы компьютерной обработки текстовых данных. Частотные списки, стоп- слова, закон Ципфа. N-граммы. Корпуса текстов.
  • NLTK
    Библиотека для автоматической обработки текстовых данных NLTK. Токенизация, сплиттиннг, стемминг, автоматический морфологический анализ.
  • Автоматический морфологический анализ
    Лемматизация. Частеречная раметка. Морфологический анализатор Mystem. Библиотеки pymystem3 и pymorphy2. Библиотека spacy.
  • NER
    Задача извлечения именованных сущностей. Библиотеки spacy и natasha.
  • Классификация и кластеризация
    «Мешок слов». Классификация и кластеризация текстов.
  • Дистрибутивная семантика
    Дистрибутивная семантика. Векторное представление слов. Тематическое моделирование. Библиотека gensim.
Элементы контроля

Элементы контроля

  • неблокирующий домашнее задание
  • неблокирующий домашнее задание
  • неблокирующий домашнее задание
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.33 * домашнее задание + 0.33 * домашнее задание + 0.34 * домашнее задание
Список литературы

Список литературы

Рекомендуемая основная литература

  • S.L. Hamilton. (2019). Pythons. [N.p.]: A&D Xtreme. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1729879

Рекомендуемая дополнительная литература

  • Bhasin, H. (2019). Python Basics : A Self-Teaching Introduction. Dulles, Virginia: Mercury Learning & Information. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1991381