Магистратура
2019/2020
HR аналитика: базовые и продвинутые методы
Статус:
Курс обязательный (HR-аналитика)
Направление:
38.04.02. Менеджмент
Где читается:
Высшая школа бизнеса
Когда читается:
1-й курс, 1-4 модуль
Формат изучения:
с онлайн-курсом
Прогр. обучения:
HR-аналитика
Язык:
русский
Кредиты:
7
Контактные часы:
112
Программа дисциплины
Аннотация
В курсе рассматриваются основные методологические и методические подходы анализа социологической информации для решения класса задач в рамках HR-аналитики. Курс ставит своей целью формирование у студентов представлений о системе накопления, дистрибуции и анализа эмпирических данных.
Цель освоения дисциплины
- Знание техник сбора социологической информации
- Формирование основных представлений о целях и методах анализа
- Изучение и практическое освоение SPSS как одной из программ, применяемых для статистического анализа данных
- Получение представлений о современных эффективных инструментах обработки и анализа данных.
- Освоение навыков программирования и использования современных средств анализа данных.
Планируемые результаты обучения
- понимает специфику анализа выборочных данных
- владеет навыком оценивания результатов на выборке и в генеральной совокупности
- умеет рассчитать коэффициенты связи для разных типов шкал
- умеет выбрать правильный метод и провести сравнение средних
- умеет провести процедуру регрессионного анализа, интерпретирует коэффициенты, оценивает качество модели
- умеет выполнить процедуру факторного анализа, оценить качество модели, интерпретировать факторы
- знает границы применения иерархического и "быстрого" кластерного анализа, оценивает качество модели, интерпретирует кластеры
- Знание эффективных алгоритмов и программных систем анализа данных.
- Умение разрабатывать программы для преобразования и анализа данных.
- Владение методологией анализа данных с помощью Excel.
- Знание способов разработки компьютерных программ на языках высокого уровня.
- Владение методологией разработки компьютерных программ и анализа данных с помощью Python.
- Знание основных даталогической и инфологической модели данных.
- Знание языка управления реляционными данными SQL.
- Знание основных принципов абстракции данных и знаний, способов реализации СУБД.
- Знание методов оценки качества проектных решений при создании БД, принципов работы со знаниями и экспертными системами.
- Умение строить инфологические и даталогические модели данных, аргументировано выбирать СУБД, создавать реляционные БД, конструировать компоненты доступа к данным на основе современных парадигм программирования.
- Владение методологией разработки баз данных.
- Владение методологией разработки систем сбора данных из html-сайтов.
Содержание учебной дисциплины
- Введение в SPSS, основные понятияПеременные, шкалы, файл данных. Интерфейс и архитектура пакета SPSS. Подготовка данных к анализу: перекодирование, вычисление новых переменных, агрегирование данных, пересчет значений. Метки переменных, механизм пропущенных значений. Работа с меню и окном синтакиса.
- Унивариантная статистикаОписательные статистики для различного типа шкал. Частотные (линейные) распределения ответов респондентов. Точечное и интервальное оценивание. Доверительный интервал и доверительная вероятность.
- Парные коэффициенты связи.Таблицы сопряжености, Хи-квадрат. Коэффициенты корреляции Пирсона и Спирмена. Проверка статистических гипотез. Уровень значимости и ошибка первого рода. Ошибка второго рода.
- Сравнение средних в группах.Сравнение средних в группах. T-test, дисперсионный анализ. Статистические гипотезы и их проверка.
- Регрессионный анализ, основные понятия.Простая и множественная линейная регрессия. Регрессия с фиктивными переменными. Требования к переменным. Основные этапы регрессионного моделирования. Оценка качества модели.
- Факторный анализ.Понятие латентной переменной. Классический факторный анализ и метод главных компонент. Основные этапы факторного анализа. Различные подходы к определению числа факторов. Процент объясненной дисперсии как показатель качества факторной модели. Вращение факторов. Сохранение факторов в виде новых переменных в файле данных. Интерпретация факторов.
- Кластерный анализ.Определение пространства признаков. Иерархический кластерный анализ. Выбор меры расстояния и метода кластеризации. Определение числа кластеров. Кластерный анализ методом k-средних. Проблема устойчивости, методы оценки устойчивости. Сохранение результатов кластерного анализа как новых переменных. Интерпретация кластеров.
- Анализ данных с помощью Microsoft Excel.Обзор современных средств анализа данных. Программные системы Microsoft Office 365. Типы данных. Форматы данных. Импорт и экспорт данных. Основные элементы Excel. Базовые операции. Использование функций. Фильтрация. Шахматка. Построение графиков. Описательные статистики. Модель данных в Excel. Дисперсионный анализ в среде MS Excel. Регрессионный анализ в среде MS Excel. Кластерный анализ в среде MS Excel. Факторный анализ в среде MS Excel. Программирование с помощью VBA. PowerPivot. PowerQuery. Microsoft Excel API.
- Введение в программирование с помощью Python.Desktop IDE (Jupyter lab, Jupyter, Pycharm). Cloud IDE. Базовые понятия программирования. Переменные, операторы, управляющие конструкции, циклы Python. Типы данных в Python. Функции. Понятие Класса. Пакеты. Пакет OS. Извлечение данных из файлов различных форматов (HTML, XML, CSV, JSON).
- Основы работы с базами данных.Обзор существующих СУБД. Основные характеристики БД и СУБД. Модель «сущность-связь». Проектирование баз данных. Инфологическое моделирование и модель «сущность-связь». Даталогическое проектирование и реляционная модель данных. Язык манипулирования данными SQL (Structured Query Language). Язык определения данных (DDL), управления данными (DML), запроса данных (DQL), управления курсорами (CCL), управления транзакциями (TPL), управления доступом (DCL). Синтаксис и семантика основных конструкций. Типы данных языка SQL, особенности различных реализаций. Трёхзначная логика, значение NULL. Операторы SELECT, INSERT, UPDATE и DELETE. Построение сложных запросов на выборку. Методы и средства защиты данных и обеспечения целостности данных, понятие транзакций. Ссылочная целостность и ограничения. Каскадное обновление и удаление. Хранимые процедуры и триггеры. Представления (Views) и их использование. Транзакции в SQL. Управление пользователями в языке SQL и SQL-серверах. Большие данные и NoSQL СУБД. Обработка текста в Microsoft SQL Server. Работа с базой данных с помощью Python. NoSQL БД.
- Открытые данные.Понятие и свойства открытые, доступных и больших данных. Принципы источников открытых данных. Cпособы получения данных. Клиент-серверная архитектура. Прикладной программный интерфейс (API). Типы API. Понятие веб-сервиса. Архитекутра REST. Протокол HTTP. URI. Сбор данных сайтов с помощью Python. Библиотеки Requests и BeautifulSoup. Cистема Scrapy. Облачные сервисы развертывания краулеров. Визуальные системы разработки краулеров.
- Инструменты анализа данных с помощью Python.Библиотеки numpy и Scipy. Библиотеки pandas, Statsmodels, Scikit-learn, Matplotlib, Seaborn. Построение графиков и диаграмм в Python. DataFrame. Статистический анализ с помощью на Pandas.
- Анализ данных с помощью Python.Метрические методы. Линейная регрессия и классификация. Оценивание качества алгоритмов. Композиции алгоритмов. Методы классификации. Методы кластеризации. Методы машинного обучения в задачах анализа текстовых данных. Нейронные сети.
Элементы контроля
- Домашнее задание 1
- Домашнее задание 2
- Домашнее задание 3
- Домашнее задание 4
- ПроектОценка по накопленной. В конце изучения дисципилны сдается проект
- контрольнаяПример заданий контрольной приведен в приложенном файле
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.1 * Домашнее задание 1 + 0.1 * Домашнее задание 2 + 0.1 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.1 * контрольная + 0.4 * Проект
Список литературы
Рекомендуемая основная литература
- Matthes, E. Python crash course: a hands-on, project-based introduction to programming. – No Starch Press, 2015. – 562 pp.
- Muller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: a guide for data scientists. O’Reilly Media. (HSE access: http://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4698164)
- SPSS 19: профессиональный статистический анализ данных, Наследов, А., 2011
- SPSS: искусство обработки информации : анализ стат. данных и восстановление скрытых закономерностей: пер. с нем., Бююль, А., 2002
- Sweigart, Al. Automate the boring stuff with Python: practical programming for total beginners. – No Starch Press, 2015. – 505 pp.
- Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
- Анализ социологических данных с помощью пакета SPSS : учеб. пособие для вузов, Крыштановский, А. О., 2006
Рекомендуемая дополнительная литература
- Cramer D. Advanced Quantitative Data Analysis. 2003.
- Elementary statistics : a step by step approach, Bluman, A. G., 1995
- Mohri, M., Talwalkar, A., & Rostamizadeh, A. (2012). Foundations of Machine Learning. Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=478737
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
- Statistical methods for the social sciences, Agresti, A., 2009
- Steven G. Heeringa, , Brady T. West, , and Patricia A. Berglund. Applied Survey Data Analysis. CRC Press LLC: 2010.
- Введение в системы баз данных, Дейт, К. Дж., 2005