Бакалавриат
2024/2025




Научно-исследовательский семинар "Основы анализа данных"
Статус:
Курс обязательный (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Преподаватели:
Каляева Екатерина Валерьевна
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Фундаментальная и прикладная лингвистика» и направлен на формирование компетенций в области статистики и анализа данных с акцентом на текстовые данные. Знания и компетенции, полученные в результате освоения курса, будут полезны студентам в ходе продолжения обучения в НИУ ВШЭ (в том числе на дисциплинах “Интеллектуальный анализ данных”, “Введение в нейронные сети и машинный перевод”), при подготовке исследовательских проектов, курсовых работ и ВКР с прикладной компонентой, в том числе для проведения статистического анализа и классификации текстовых данных, для проверки статистических гипотез в лингвистических задачах, для построения визуализаций и отчетов.
Цель освоения дисциплины
- овладение студентами основами статистики и анализа данных для применения в решении практических лингвистических задач
Планируемые результаты обучения
- ● Использовать Python в применении к анализу данных.
- ● Работать с разными типами и структурами данных.
- ● Корректно открывать табличные данные различных форматов, работать с ними.
- ● Использовать собственноручно написанные функции для обработки данных, создания новых переменных.
- ● Корректно использовать основные статистические понятия.
- ● Вычислять описательные статистики и интерпретировать полученные результаты.
- ● Вычислять коэффициент корреляции Пирсона и интерпретировать полученные результаты.
- ● Визуализировать данные с помощью разных видов диаграмм: линейной, рассеяния, столбчатой, тепловой карты, ящика с усами.
- ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
- ● Применять параметрические и непараметрические статистические критерии для проверки гипотез.
- ● Решать задачу классификации с использованием линейной и логистической регрессии.
Содержание учебной дисциплины
- Введение в инструменты
- Форматы файлов
- Типы данных в статистике
- Работа с текстовыми данными
- Введение в статистику
- Описательные статистики: меры центральной тенденции и разброса. Распределения
- Введение в визуализацию данных
- Продвинутая визуализация данных
- Меры различий для несвязанных выборок
- Тестирование гипотез. Меры различий для связанных выборок
- Корреляционный анализ
- Введение в машинное обучение
- Регрессионный анализ. Линейная и логистическая регрессия
- Практические примеры решения задач анализа данных (занятия 14 и 15)
Промежуточная аттестация
- 2024/2025 4th module0.2 * Домашнее задание + 0.4 * Проект + 0.2 * Тест 1 + 0.2 * Тест 2
Список литературы
Рекомендуемая основная литература
- Frederick J Gravetter, Larry B. Wallnau, Lori-Ann B. Forzano, & James E. Witnauer. (2020). Essentials of Statistics for the Behavioral Sciences, Edition 10. Cengage Learning.
- Миркин, Б. Г. Введение в анализ данных : учебник и практикум / Б. Г. Миркин. — Москва : Издательство Юрайт, 2022. — 174 с. — (Высшее образование). — ISBN 978-5-9916-5009-0. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469306 (дата обращения: 27.08.2024).
Рекомендуемая дополнительная литература
- Jack A. Levin, & James Alan Fox. (2013). Elementary Statistics in Social Research: Pearson New International Edition : Essentials. Harlow, United Kingdom: Pearson. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1418805