• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обработка и анализ данных физического эксперимента

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3, 4 модуль

Преподаватели

Программа дисциплины

Аннотация

Целями освоения дисциплины «Обработка и анализ данных физического эксперимента» являются: ● формирование у студентов базовых знаний об основных методах обработки экспериментальных и наблюдательных физических данных; ● формирование у студентов знаний по теоретическим основам статистических методов обработки и анализа данных; ● формирование у студентов навыков применения методов машинного обучения для анализа данных физического эксперимента; ● формирование навыков работы с научными библиотеками языка Python: numpy, scipy, scikit-learn.
Цель освоения дисциплины

Цель освоения дисциплины

  • формирование у студентов базовых знаний об основных методах обработки экспериментальных и наблюдательных физических данных;
  • формирование у студентов знаний по теоретическим основам статистических методов обработки и анализа данных;
  • формирование у студентов навыков применения методов машинного обучения для анализа данных физического эксперимента;
  • формирование навыков работы с научными библиотеками языка Python: numpy, scipy, scikit-learn.
Планируемые результаты обучения

Планируемые результаты обучения

  • знает и умеет применять : хранение данных в виде текстовых файлов. Хранение данных в виде бинарных файлов. Системы контроля версий. Git и основы работы с ним
  • умеет работать с системами с общей памятью.
  • умеет реализовать различные концепции параллельных вычислений и параллельные вычисления в Python.
  • умеет работать на системах с распределенной памятью и знает концепцию MapReduce.
  • знает и умеет применять линейный и нелинейный метод наименьших квадратов.
  • умеет применять детерминистические методы оптимизации и метод крыловских подпространств: метод сопряженных градиентов и его модификации.
  • умеет применять оптимизация с ограничениями, метод множителей Лагранжа, линейное программирование, симплекс-метод.
  • имеет навыки моделирование методом Монте-Карло с помощью Марковских цепей (MCMC).
  • знает принцип максимального правдоподобия. Оценка функции правдоподобия в моделях со скрытыми параметрами, EM-алгоритм
  • умеет обрабатывать шумовые сигналы
  • умеет оценивать параметры статистического распределения из набора экспериментальных данных
  • умеет применять методы машинного обучения для решения задач обработки научных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Обзор форматов научных данных и основных способов хранения данных
    Тема 1.1. Хранение данных в виде текстовых файлов. Основные форматы текстовых таблиц. Тема 1.2. Хранение данных в виде бинарных файлов. Некоторые примеры бинарных форматов данных, их преимущества. Тема 1.3. Основные структуры данных : списки, деревья и хэш-таблицы. Нотация О-большое, оценка времени работы алгоритмов. Тема 1.4. Системы контроля версий. Git и основы работы с ним
  • Распределенная обработка данных
    Тема 2.1. Работа на системах с общей памятью. Различные концепции параллельных вычислений, параллельные вычисления в Python. Тема 2.2. Работа на системах с распределенной памятью. Концепция MapReduce.
  • Применение методов оптимизации к анализу экспериментальных данных
    Тема 3.1. Обзор методов оптимизации для нахождения модельных параметров по данным эксперимента. Линейный и нелинейный метод наименьших квадратов. Тема 3.2. Детерминистические методы оптимизации. Метод крыловских подпространств: метод сопряженных градиентов и его модификации. Тема 3.3. Оптимизация с ограничениями. Метод множителей Лагранжа. Линейное программирование, симплекс-метод. Тема 3.4. Стохастические методы оптимизации. Моделирование методом Монте-Карло с помощью Марковских цепей (MCMC). Тема 3.5. Принцип максимального правдоподобия. Оценка функции правдоподобия в моделях со скрытыми параметрами, EM-алгоритм
  • Обработка экспериментальных данных
    Тема 4.1. Нахождение сигнала на фоне шума: соотношение сигнал/шум, арифметика с шумными сигналами. Тема 4.2. Свертка сигнала с фильтром. Быстрое преобразование Фурье и его использование для свертки. Оптимальная фильтрация, фильтр Винера. Тема 4.3. Основные принципы метода регуляризации Тихонова
  • Работа со статистическими распределениями.
    Тема 5.1. Определение параметров статистического распределения из набора экспериментальных данных: принцип максимального правдоподобия и метод наименьших квадратов Тема 5.2. Проверка статистических гипотез. Статистические критерии: tкритерий Стьюдента, критерий Колмогорова—Смирнова. Тестирование многомерных нормальных распределений.
  • Применение методов машинного обучения для анализа физических данных
    Тема 6.1. Обзор основных методов машинного обучения. Их классификация: классификация/регрессия, обучение с учителем и без. Тема 6.2. Линейные методы на примере линейной регрессии. Тема 6.3. Решающие деревья. Случайный лес для задач классификации и регрессии
Элементы контроля

Элементы контроля

  • неблокирующий Практические занятия
    Все оценки формируются по 10-бальной шкале. Накопленная оценка складывается из оценок за выполняемые в ходе семестра практические задания по программированию и самостоятельных работ, проводимых на лекциях. Оценка за практические задания вычисляется как среднее арифметическое за выполненные задания, оценка за самостоятельные работы вычисляется как среднее арифмитическое за выполненные самостоятельные работы. Так как выполнение и проверка заданий требует специально оборудованного класса оценки за индивидуальные задания являются не пересдаваемыми. Накопленная оценка вычисляется по формуле (см примечание про онлайн-курс ниже): Н = 1/7 * СР + 6/7 * ПЗ, Где Н — накопленная оценка, СР — оценка за самостоятельные работы, ПЗ — оценка за практические задания. Освоение онлайн-курса менее чем на 80% блокирует получение накопленной оценки выше 7.
  • неблокирующий Экзамен
    Освоение онлайн-курса менее чем на 80% блокирует получение накопленной оценки выше 7.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.7 * Практические занятия + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Andrew Bird, Dr Lau Cher Han, Mario Corchero Jiménez, Graham Lee, & Corey Wade. (2019). The Python Workshop : A New, Interactive Approach to Learning Python. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2291496
  • S.L. Hamilton. (2019). Pythons. [N.p.]: A&D Xtreme. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1729879
  • Toby Donaldson. (2013). Python : Visual QuickStart Guide. [N.p.]: Peachpit Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1600205
  • Сухарев А.Г., Тимохов А.В., Федоров В.В. - Курс методов оптимизации - Издательство "Физматлит" - 2011 - 384с. - ISBN: 978-5-9221-0559-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/2330

Рекомендуемая дополнительная литература

  • Romano, F. (2015). Learning Python. Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=1133614
  • Фролов А.Н. - Краткий курс теории вероятностей и математической статистики - Издательство "Лань" - 2017 - 304с. - ISBN: 978-5-8114-2460-3 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/93706