• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Культура работы с данными

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 2-4 модуль

Преподаватель


Кириллов Богдан Александрович

Программа дисциплины

Аннотация

Программа предназначена для студентов первого года обучения в бакалавриате по направлению 06.03.01 «Клеточная и молекулярная биотехнология». Главная цель изучения учебной дисциплины «Культура работы с данными» – освоение основ работы с различными видами данных (основы статистики и теории вероятности, машинного обучения), что предполагает также овладение базовыми навыками работы с современными языками программирования, применяемыми в анализе данных (Python и bash), библиотеками для статистической обработки данных (numpy, scipy, matplotlib), библиотеками машинного обучения (Scikit Learn и Ludwig). Для этого используется онлайн-курс "Python для извлечения и обработки данных" (URL: https://openedu.ru/course/hse/PYTHON/). Во втором модуле студенты изучают онлайн-курс «Цифровая грамотность» (размещен на внутренней платформе НИУ ВШЭ [URL: online.hse.ru]). Курс «Цифровая грамотность» является элементом общеуниверситетского образовательного проекта Data Culture. Курс направлен на формирования начальных и базовых компетенций в области работы с данными, которые необходимы для безопасного и эффективного использования цифровых технологий и ресурсов интернета в рамках академической деятельности. В курсе рассматриваются такие общие темы, как: - компьютерная грамотность, - работа поисковых систем, - компьютерная безопасность, - медиаграмотность, - работа с облачными инструментами и пакетом MS Office, - работа с источниками при написании исследовательских работ, - большие данные и машинное обучение. В результате освоения этих тем слушатели научатся более эффективно пользоваться технологиями, с которыми ежедневно сталкиваются как в стенах университета, так и за его пределами. Большинство заданий в курсе будут носить практический характер и помогать в отработке того или иного навыка, необходимого для жизни в 21 веке. Основные положения дисциплины используются в дальнейшем при изучении следующих дисциплин учебных программ бакалавра и магистра: Методы машинного обучения и разработки данных; Современные методы анализа данных; Сравнительная геномика; Теория вероятностей и математическая статистика; Прикладная статистика; Молекулярная эволюция; Основы программирования; Алгоритмы и структуры данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение основ работы с различными видами данных (основы статистики и теории вероятности, машинного обучения)
  • Овладение базовыми навыками работы с современными языками программирования, применяемыми в анализе данных (Python и bash), библиотеками для статистической обработки данных (numpy, scipy, matplotlib), библиотеками машинного обучения (Scikit Learn и Ludwig)
  • Формирование начальных и базовых компетенций в области работы с данными, которые необходимы для безопасного и эффективного использования цифровых технологий и ресурсов интернета в рамках академической деятельности
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеет основами комбинаторики (сочетания, перестановки, размещения).
  • Владеет основами теории вероятностей (фреквентистская вероятность, аксиомы Колмогорова);
  • Владеет основами математической статистики.
  • 1. Знает основные принципы построения вычислительных экспериментов по машинному обучению; 2. Понимает основные проблемы и особенности применения машинного обучения для биологических данных;
  • Уверенно программирует на языке Python, применяя библиотеки numpy, scipy, matplotlib, scikit learn, с использованием среды Jupyter Notebook;
  • Знает основы работы в операционных системах GNU/Linux, включая использование удаленного сервера с помощью ssh/scp.
  • Владеет основами теории вероятностей (полная вероятность, условные вероятности, теорема Байеса);
  • Владеет основами математической статистики (классические распределения, корреляция, доверительные интервалы).
  • Владеет основами математической статистики (проверка статистических гипотез).
  • Владеет основами математической статистики (хи-квадрат, проблема множественных сравнений).
  • Знает методы обучения с учителем и без учителя и умеет их применять в зависимости от задач;
  • Знает и использует при решении задач возможности библиотеки scikit-learn
  • Знает и использует при решении задач возможности библиотеки ludwig.
  • 1. Определяет версию операционной системы, установленной на компьютере; 2. Умеет набирать на клавиатуре символы, которые на ней не изображены; 3. Умеет делать снимок экрана; 4. Умеет выделять текст при помощи клавиатуры; 5. Умеет конвертировать файл из одного формата в другой; 6. Различает ярлыки и символические ссылки на файлы и директории; 7. Умеет выбрать подходящий формат для файлов изображений и звука.
  • 1. Знает уровни стека протоколов TCP/IP; 2. Знает основы протокола HTTP и языка HTML; 3. Знает разницу между Internet и Web; 4. Знает принципы работы поисковых систем; 5. Знает структуру полного доменного имени и виды доменных имен; 6. Знает основы интернет-безопасности и интернет-цензуры; 7. Определяет понятие "Интернет вещей", знает основы концепции IoT;
  • 1. Умеет распознавать угрозы цифрового пространства; 2. Умеет защищать свои персональные данные от мошенников и вредоносного программного обеспечения; 3. Знает виды угроз для различных устройств и операционных систем, знает способы защиты от них и умеет применять свои знания на практике;
  • 1. Умеет настраивать уровни конфиденциальности своей информации в сети; 2. Применяет базовые формулы поисковых запросов в сети; 3. Умеет анализировать медиасообщения по вспомогательным вопросам, критически к ним относится; 4. Определяет надежность источников информации; 5. Знает основы этикета в сети; 6. Знает принципы написания и оформления электронных писем, умеет применять их на практике.
  • 1. Ориентируется на панели Google.Документы, умеет вызывать простые действия; 2. Умеет вставлять изображения, таблицы, гиперссылки, нумерацию страниц и пр.; 3. Умеет форматировать сплошной текст; 4. Умеет оптимизировать работу с текстом, создавать стили, заголовки, оглавление; 5. Умеет хранить, загружать, находить и скачивать файлы на Google.Диске; 6. Умеет предоставлять доступ к документу другим пользователям, работать с комментариями; 7. Умеет пользоваться историей изменений документа;
  • 1. Умеет преобразовывать данные из одного типа в другой; 2. Умеет работать с формулами, копировать данные из одного листа на другой, перемножать данные из двух таблиц; 3. Умеет применять условное форматирование; 4. Умеет сортировать и фильтровать данные в таблице по разным параметрам; 5. Умеет удалять пропуски, удалять дубликаты, заменять пропуски; 6. Умеет вычислять количество записей в таблице, сумму столбца, минимум, максимум, среднее и пр.;
  • 1. Умеет создавать текст, форматировать, перемещать и копировать без искажения. Умеет устанавливать шрифты. 2. Умеет вставлять изображения/фигуры, работать с ними без искажения, обрезать, удалять фон у векторных изображений, накладывать маску простой формы. 3. Умеет накладывать маску сложной формы, строить сложные фигуры с помощью кривой. 4. Умеет вставлять таблицу, менять и форматировать данные, удалять и добавлять столбцы/строки. 5. Умеет работать с графиками.
  • 1. Определяет понятие "научный метод", может воспроизвести его элементы; 2. Знает правила оформления источников и умеет их применять; 3. Знает, как получить библиографическую ссылку из Google Scholar. 4. Умеет создавать коллекции библиографических описаний и статей; 5. Умеет добавлять материал в Zotero через браузер, проводник или вручную. 6. Умеет создавать библиографические списки в несколько кликов.
  • 1. Знает различные типы данных, умеет их друг от друга отличать; 2. Умеет поставить задачу специалисту по машинному обучению; 3. Определяет понятие "машинное обучение"; 4. Знает виды моделей машинного обучения и их сущность; 5. Знает алгоритм оценки качества модели.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы языка программирования Python
    Переменные, ветвления, циклы, основные типы данных, функции, работа с файлами, Jupyter notebook, классы
  • Основы работы в операционных системах GNU/Linux
    Основные команды, написание простых bash-скрипты, работа с ssh, scp, tmux
  • Основы комбинаторики
    Множества, сочетания, перестановки, размещения, биномиальные коэффициенты
  • Основы теории вероятностей
    Фреквентистская вероятность, геометрическое определение вероятности, аксиомы Колмогорова
  • Теорема Байеса
    Условные вероятности, формула полной вероятности, теорема Байеса
  • Основные понятия статистики
    Случайный процесс, случайная величина, выборка, выборочные характеристики
  • Сравнение оценок, доверительные интервалы
    Классические распределения (нормальное, гамма, Пуассона и т.д.), закон больших чисел, максимизация правдоподобия. Среднеквадратичная ошибка, устойчивость, ковариация, корреляция, коэффициент Спирмана, перекрестная энтропия, коэффициент детерминации, построение доверительных интервалов, бутстреппинг.
  • Проверка статистических гипотез
    Гипотезы, критерии, ошибки первого-второго родов, p-value
  • Параметрические и непараметрические статистики
    Тест Колмогорова-Смирнова, хи-квадрат, тест Манна-Уитни, t-test, проблема множественных сравнений, поправка Бонферрони
  • Основы машинного обучения
    Виды машинного обучения, постановка эксперимента, трейн-тест, кросс-валидация
  • Обучение с учителем и без учителя
    Линейная и логистическая регрессия, градиентный спуск Кластеризация, понижение размерности, PCA, k-means, аггломеративная кластеризация, DBSCAN
  • Машинное обучение в scikit-learn
    Возможности библиотеки scikit-learn. Практическая работа.
  • Глубокое обучение в ludwig
    Возможности библиотеки ludwig. Практическая работа.
  • Компьютерная грамотность
    Программное обеспечение (ПО). Кодирование текста. Файлы. Кодирование изображений и звука.
  • Интернет и поиск
    Протокол TCP/IP. Всемирная паутина. Веб адреса и домены. Браузер. Поиск. Интернет вещей.
  • Компьютерная безопасность
    Виды угроз для Android и IOS и способы защиты от них. Виды угроз для Windows и MacOS и способы защиты от них. Спам в почте, социальных сетях и прочих платформах. Безопасность аккаунтов. Онлайн мошенничество и персональные данные.
  • Медиаграмотность
    Социальные сети. Цифровой след. Работа с информацией в сети. Пользование цифровыми медиа. Fake news. Этикет в сети. Общение в электронной почте.
  • Базовые текстовые технологии (Google Docs)
    Знакомство с Google.Документы. Форматирование сплошного текста. Google.Документы в системе.
  • Работа с табличными данными (Google Spreadsheets + MS Excel)
    Элементарные операции в Excel. Первичная обработка данных. Анализ табличных данных.
  • Основы создания презентации в MS Power Point
    Основы дизайна и основные элементы визуализации. Работа с таблицами и графиками.
  • Процесс написания исследовательской работы. Работа с источниками
    Научный метод познания. Работа с научными статьями. Стандарты цитирования. Библиографические менеджеры. Zotero.
  • Основы работы с данными
    Что такое данные. Какие бывают типы данных. Работа с данными: машинное обучение.
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельные работы
    6 самостоятельных работ в течение курса. Общая оценка за СР = (СР1+СР2+СР3+СР4+СР5+СР6)/6. Вид формулы округления: Стандартное арифметическое.
  • неблокирующий Тесты на цифровую грамотность
    8 тестов на цифровую грамотность и 2 взаимные проверки в течение курса. Общая оценка за ЦГ = (ТЦГ1+ТЦГ2+ТЦГ3+ТЦГ4+ТЦГ5+ТЦГ6+ТЦГ7+ТЦГ8+ВПЦГ1+ВПЦГ2)/10. Вид формулы округления: Стандартное арифметическое.
  • неблокирующий Тесты
    11 тестов в течение курса. Общая оценка за Т = (T1+T2+T3+T4+T5+T6+T7+T8+T9+T10+T11)/11. Вид формулы округления: Стандартное арифметическое.
  • неблокирующий Домашние задания
    3 домашних задания в течение курса. Общая оценка за ДЗ = (ДЗ1+ДЗ2+ДЗ3)/3. Вид формулы округления: Стандартное арифметическое.
  • неблокирующий Итоговый экзамен
    Экзамен проводится в устной форме (опрос по материалам курса). Экзамен проводится на платформе Zoom (https://zoom.us/). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем в телеграм-чат курса накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка Zoom. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, использовать подсказки других людей. Для подготовки ответа разрешено пользоваться конспектами. Экзамен подразумевает дополнительные вопросы, при ответе на которые пользоваться конспектами запрещено. Кратковременным нарушением связи во время экзамена считается нарушение связи менее минуты. Долговременным нарушением связи во время экзамена считается нарушение минута и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи подразумевает использование усложненных заданий.
  • неблокирующий Введние в Linux
  • неблокирующий Основы статистики
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.1 * Введние в Linux + 0.2 * Домашние задания + 0.1 * Итоговый экзамен + 0.1 * Основы статистики + 0.2 * Самостоятельные работы + 0.1 * Тесты + 0.2 * Тесты на цифровую грамотность
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
  • Matthes, E. Python crash course: a hands-on, project-based introduction to programming. – No Starch Press, 2015. – 562 pp.
  • Войтов Н.М. - Основы работы с Linux. Учебный курс - Издательство "ДМК Пресс" - 2010 - 216с. - ISBN: 978-5-94074-148-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/1198
  • Гудфеллоу Я., Бенджио И., Курвилль А. - Глубокое обучение - Издательство "ДМК Пресс" - 2018 - 652с. - ISBN: 978-5-97060-618-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107901
  • Секреты приложений Google / Балуев Д. - М.:Альпина Пабл., 2016. - 287 с.: ISBN 978-5-9614-1274-1 - Режим доступа: http://znanium.com/catalog/product/923761
  • Теория вероятностей и математическая статистика. Оценка параметров распределений : учебное пособие, Иванов, А. В., 2009

Рекомендуемая дополнительная литература

  • Nelli, F. (2018). Python Data Analytics : With Pandas, NumPy, and Matplotlib (Vol. Second edition). New York, NY: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1905344
  • Анализ данных в MS Excel : основные сведения о MS Excel, статистические таблицы и графики, статистические функции, пакет анализа (анализ данных) : учеб. пособие для вузов, Мхитарян, В. С., Шишов, В. Ф., 2018
  • Комбинаторика, Виленкин, Н. Я., Виленкин, А. Н., 2013
  • Кувшинская Ю. М., Зевахина Н. А., Ахапкина Я. Э., Гордиенко Е. И. ; Под ред. Кувшинской Ю.М. - АКАДЕМИЧЕСКОЕ ПИСЬМО. ОТ ИССЛЕДОВАНИЯ К ТЕКСТУ. Учебник и практикум для академического бакалавриата - М.:Издательство Юрайт - 2019 - 284с. - ISBN: 978-5-534-08297-5 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/akademicheskoe-pismo-ot-issledovaniya-k-tekstu-424762
  • Несен А.В. - Microsoft Word 2010: от новичка к профессионалу - Издательство "ДМК Пресс" - 2011 - 448с. - ISBN: 978-5-94074-713-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/1210
  • Презентация: Лучше один раз увидеть! / Лазарев Д. - М.:Альпина Пабл., 2016. - 126 с.: ISBN 978-5-9614-1445-5 - Режим доступа: http://znanium.com/catalog/product/916181