2018/2019
Python для гуманитариев-2
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2 модуль
Преподаватели:
Дереза Оксана Владимировна
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Настоящая дисциплина входит в цикл дисциплин свободного минора факультета гуманитарных наук НИУ ВШЭ. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: основы работы с языком программирования Python (по программе курса «Python для гуманитариев - 1»); основы математики; основы лингвистики. Основные положения дисциплины должны быть использованы в дальнейшем при изучении дисциплин: 1. Научно-исследовательский семинар 2. Подготовка и защита выпускной квалификационной работы
Цель освоения дисциплины
- научить слушателей применять базовые навыки на языке программирования Python для решения возникающих на практике задач по работе с текстовыми данными: автоматическая обработка и анализ текстовых данных, поиск информации, создание корпусов данных и др.
Планируемые результаты обучения
- проводить формализацию лингвистических знаний, анализ и синтез лингвистических структур, квантитативный анализ текстовых данных с использованием математических знаний и методов
- участвовать в создании представительных текстовых массивов, корпусов текстов, корпусов звучащей речи, мультимодальных корпусов, лингвистических и социолингвистических баз данных и пользоваться этими ресурсами
- проводить квалифицированное тестирование эффективности лингвистически ориентированного программного продукта
- гибко адаптироваться к различным профессиональным ситуациям, проявлять творческий подход, инициативу и настойчивость в достижении целей профессиональной деятельности и личных
- писать программы на языке Python, используя пройденные функции и библиотеки
Содержание учебной дисциплины
- Повторение основ работы с PythonПеременные и функции. Типы и структуры данных. Условные выражения. Циклы. Работа с файлами.
- Регулярные выраженияЯзык регулярных выражений. Работа с регулярными выражениями в Python. Библиотека re.
- Основы NLPОсновы компьютерной обработки текстовых данных. Частотные списки, стоп- слова, закон Ципфа. N-граммы. Корпуса текстов.
- NLTKБиблиотека для автоматической обработки текстовых данных NLTK. Токенизация, сплиттиннг, стемминг, автоматический морфологический анализ.
- Автоматический морфологический анализЛемматизация. Частеречная раметка. Морфологический анализатор Mystem. Библиотеки pymystem3 и pymorphy2. Библиотека spacy.
- NERЗадача извлечения именованных сущностей. Библиотеки spacy и natasha.
- Классификация и кластеризация«Мешок слов». Классификация и кластеризация текстов.
- Дистрибутивная семантикаДистрибутивная семантика. Векторное представление слов. Тематическое моделирование. Библиотека gensim.
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.33 * домашнее задание + 0.33 * домашнее задание + 0.34 * домашнее задание
Список литературы
Рекомендуемая основная литература
- S.L. Hamilton. (2019). Pythons. [N.p.]: A&D Xtreme. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1729879
Рекомендуемая дополнительная литература
- Bhasin, H. (2019). Python Basics : A Self-Teaching Introduction. Dulles, Virginia: Mercury Learning & Information. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1991381