• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2019/2020

HR аналитика: базовые и продвинутые методы

Статус: Курс обязательный (HR-аналитика)
Направление: 38.04.02. Менеджмент
Когда читается: 1-й курс, 1-4 модуль
Формат изучения: Blended
Прогр. обучения: HR-аналитика
Язык: русский
Кредиты: 7

Программа дисциплины

Аннотация

В курсе рассматриваются основные методологические и методические подходы анализа социологической информации для решения класса задач в рамках HR-аналитики. Курс ставит своей целью формирование у студентов представлений о системе накопления, дистрибуции и анализа эмпирических данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знание техник сбора социологической информации
  • Формирование основных представлений о целях и методах анализа
  • Изучение и практическое освоение SPSS как одной из программ, применяемых для статистического анализа данных
  • Получение представлений о современных эффективных инструментах обработки и анализа данных.
  • Освоение навыков программирования и использования современных средств анализа данных.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • понимает специфику анализа выборочных данных
  • владеет навыком оценивания результатов на выборке и в генеральной совокупности
  • умеет рассчитать коэффициенты связи для разных типов шкал
  • умеет выбрать правильный метод и провести сравнение средних
  • умеет провести процедуру регрессионного анализа, интерпретирует коэффициенты, оценивает качество модели
  • умеет выполнить процедуру факторного анализа, оценить качество модели, интерпретировать факторы
  • знает границы применения иерархического и "быстрого" кластерного анализа, оценивает качество модели, интерпретирует кластеры
  • Знание эффективных алгоритмов и программных систем анализа данных.
  • Умение разрабатывать программы для преобразования и анализа данных.
  • Владение методологией анализа данных с помощью Excel.
  • Знание способов разработки компьютерных программ на языках высокого уровня.
  • Владение методологией разработки компьютерных программ и анализа данных с помощью Python.
  • Знание основных даталогической и инфологической модели данных.
  • Знание языка управления реляционными данными SQL.
  • Знание основных принципов абстракции данных и знаний, способов реализации СУБД.
  • Знание методов оценки качества проектных решений при создании БД, принципов работы со знаниями и экспертными системами.
  • Умение строить инфологические и даталогические модели данных, аргументировано выбирать СУБД, создавать реляционные БД, конструировать компоненты доступа к данным на основе современных парадигм программирования.
  • Владение методологией разработки баз данных.
  • Владение методологией разработки систем сбора данных из html-сайтов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в SPSS, основные понятия
    Переменные, шкалы, файл данных. Интерфейс и архитектура пакета SPSS. Подготовка данных к анализу: перекодирование, вычисление новых переменных, агрегирование данных, пересчет значений. Метки переменных, механизм пропущенных значений. Работа с меню и окном синтакиса.
  • Унивариантная статистика
    Описательные статистики для различного типа шкал. Частотные (линейные) распределения ответов респондентов. Точечное и интервальное оценивание. Доверительный интервал и доверительная вероятность.
  • Парные коэффициенты связи.
    Таблицы сопряжености, Хи-квадрат. Коэффициенты корреляции Пирсона и Спирмена. Проверка статистических гипотез. Уровень значимости и ошибка первого рода. Ошибка второго рода.
  • Сравнение средних в группах.
    Сравнение средних в группах. T-test, дисперсионный анализ. Статистические гипотезы и их проверка.
  • Регрессионный анализ, основные понятия.
    Простая и множественная линейная регрессия. Регрессия с фиктивными переменными. Требования к переменным. Основные этапы регрессионного моделирования. Оценка качества модели.
  • Факторный анализ.
    Понятие латентной переменной. Классический факторный анализ и метод главных компонент. Основные этапы факторного анализа. Различные подходы к определению числа факторов. Процент объясненной дисперсии как показатель качества факторной модели. Вращение факторов. Сохранение факторов в виде новых переменных в файле данных. Интерпретация факторов.
  • Кластерный анализ.
    Определение пространства признаков. Иерархический кластерный анализ. Выбор меры расстояния и метода кластеризации. Определение числа кластеров. Кластерный анализ методом k-средних. Проблема устойчивости, методы оценки устойчивости. Сохранение результатов кластерного анализа как новых переменных. Интерпретация кластеров.
  • Анализ данных с помощью Microsoft Excel.
    Обзор современных средств анализа данных. Программные системы Microsoft Office 365. Типы данных. Форматы данных. Импорт и экспорт данных. Основные элементы Excel. Базовые операции. Использование функций. Фильтрация. Шахматка. Построение графиков. Описательные статистики. Модель данных в Excel. Дисперсионный анализ в среде MS Excel. Регрессионный анализ в среде MS Excel. Кластерный анализ в среде MS Excel. Факторный анализ в среде MS Excel. Программирование с помощью VBA. PowerPivot. PowerQuery. Microsoft Excel API.
  • Введение в программирование с помощью Python.
    Desktop IDE (Jupyter lab, Jupyter, Pycharm). Cloud IDE. Базовые понятия программирования. Переменные, операторы, управляющие конструкции, циклы Python. Типы данных в Python. Функции. Понятие Класса. Пакеты. Пакет OS. Извлечение данных из файлов различных форматов (HTML, XML, CSV, JSON).
  • Основы работы с базами данных.
    Обзор существующих СУБД. Основные характеристики БД и СУБД. Модель «сущность-связь». Проектирование баз данных. Инфологическое моделирование и модель «сущность-связь». Даталогическое проектирование и реляционная модель данных. Язык манипулирования данными SQL (Structured Query Language). Язык определения данных (DDL), управления данными (DML), запроса данных (DQL), управления курсорами (CCL), управления транзакциями (TPL), управления доступом (DCL). Синтаксис и семантика основных конструкций. Типы данных языка SQL, особенности различных реализаций. Трёхзначная логика, значение NULL. Операторы SELECT, INSERT, UPDATE и DELETE. Построение сложных запросов на выборку. Методы и средства защиты данных и обеспечения целостности данных, понятие транзакций. Ссылочная целостность и ограничения. Каскадное обновление и удаление. Хранимые процедуры и триггеры. Представления (Views) и их использование. Транзакции в SQL. Управление пользователями в языке SQL и SQL-серверах. Большие данные и NoSQL СУБД. Обработка текста в Microsoft SQL Server. Работа с базой данных с помощью Python. NoSQL БД.
  • Открытые данные.
    Понятие и свойства открытые, доступных и больших данных. Принципы источников открытых данных. Cпособы получения данных. Клиент-серверная архитектура. Прикладной программный интерфейс (API). Типы API. Понятие веб-сервиса. Архитекутра REST. Протокол HTTP. URI. Сбор данных сайтов с помощью Python. Библиотеки Requests и BeautifulSoup. Cистема Scrapy. Облачные сервисы развертывания краулеров. Визуальные системы разработки краулеров.
  • Инструменты анализа данных с помощью Python.
    Библиотеки numpy и Scipy. Библиотеки pandas, Statsmodels, Scikit-learn, Matplotlib, Seaborn. Построение графиков и диаграмм в Python. DataFrame. Статистический анализ с помощью на Pandas.
  • Анализ данных с помощью Python.
    Метрические методы. Линейная регрессия и классификация. Оценивание качества алгоритмов. Композиции алгоритмов. Методы классификации. Методы кластеризации. Методы машинного обучения в задачах анализа текстовых данных. Нейронные сети.
Элементы контроля

Элементы контроля

  • неблокирующий Created with Sketch. Домашнее задание 1
  • неблокирующий Created with Sketch. Домашнее задание 2
  • неблокирующий Created with Sketch. Домашнее задание 3
  • неблокирующий Created with Sketch. Домашнее задание 4
  • блокирующий Created with Sketch. Проект
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.2 * Домашнее задание 4 + 0.2 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Matthes, E. Python crash course: a hands-on, project-based introduction to programming. – No Starch Press, 2015. – 562 pp.
  • Muller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: a guide for data scientists. O’Reilly Media. (HSE access: http://ebookcentral.proquest.com/lib/hselibrary-ebooks/detail.action?docID=4698164)
  • SPSS 19: профессиональный статистический анализ данных, Наследов А., 2011
  • SPSS: искусство обработки информации : анализ стат. данных и восстановление скрытых закономерностей: пер. с нем., Бююль А., Цефель П., 2002
  • Sweigart, Al. Automate the boring stuff with Python: practical programming for total beginners. – No Starch Press, 2015. – 505 pp.
  • Vanderplas, J. T. (2016). Python Data Science Handbook : Essential Tools for Working with Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1425081
  • Анализ социологических данных с помощью пакета SPSS : учеб. пособие для вузов, Крыштановский А. О., 2006

Рекомендуемая дополнительная литература

  • Cramer D. Advanced Quantitative Data Analysis. 2003.
  • Elementary statistics : a step by step approach, Bluman A. G., 1995
  • Mohri, M., Talwalkar, A., & Rostamizadeh, A. (2012). Foundations of Machine Learning. Cambridge, MA: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=478737
  • Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
  • Statistical methods for the social sciences, Agresti A., Finlay B., 2009
  • Steven G. Heeringa, , Brady T. West, , and Patricia A. Berglund. Applied Survey Data Analysis. CRC Press LLC: 2010.
  • Введение в системы баз данных, Дейт К. Дж., Птицына К. А., 2005