• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Бакалаврская программа «Прикладная математика и информатика»

Специализация Анализ данных и интеллектуальные системы



Руководитель специализации - 
Кузнецов Сергей Олегович, д.ф.-м.н., ординарный профессор ВШЭ, руководитель департамента анализа данных и искусственного интеллекта ФКН, заведующий международной научно-учебной лабораторией интеллектуальных систем и структурного анализа НИУ ВШЭ

В рамках специализации «Анализ данных и интеллектуальные системы» студенты получат знания и умения в области современных методов искусственного интеллекта, применительно к широкому кругу актуальных задач анализа и майнинга данных, представления и обработки знаний. Дисциплины специализации, с одной стороны, дают фундаментальные основы интеллектуальных систем, а с другой стороны знакомят с самыми современными инструментами исследователей и аналитиков в области интеллектуального анализа данных. 


Основные направления обучения:

1.    Искусственный интеллект (Artificial Intelligent)  и разработка интеллектуальных систем (Intelligent Systems Development).
2.    Методы анализа «больших данных» (Big Data Analysis), майнинг данных (Data Mining) и визуализация данных (Data Visualization).
3.    Машинное обучение (Machine Learning).
4.    Анализ формальных понятий (Formal Concept Analysis).
5.    Анализ сетей (Network Analysis) и прикладная теория графов (Applied Graph Theory).
6.    Онтологическое моделирование (Ontology Engineering) и семантические технологии (Semantic Technologies).
7.    Мультимодальная кластеризация (Multi-Modal Clustering) и рекомендательные системы (Recommender Systems).
8.    Автоматическая обработка текста (Natural Language Processing) и распознавание образов (Pattern Recognition).




Курсы специализации 3 года обучения

Курсы специализации 4 года обучения
Рекомендованные курсы по выбору 
Научно-исследовательские семинары 


Курсы специализации 3 года обучения:
 


1. Основные методы анализа данных  | Core Concepts of Data Analysis

Лектор: Миркин Борис Григорьевич

Департамент анализа данных и искусственного интеллекта: Профессор




курс читается: 1-2 модули 
Данный курс посвящен основным методам современного анализа данных. Его содержание сформировано под сильным влиянием той идеи, что анализ данных должен способствовать появлению и приумножению новых знаний о предметной области, представленной ее понятиями и отношениями между ними. Эта точка зрения отличает данный курс от схожих, таких как прикладная статистика, машинное обучение, извлечение знаний и др. Два главных метода в анализе данных: (1) суммаризация - для открытия и обогащения новых понятий и (2) корреляция - для поиска и установления зависимостей. Визуализация в этом контексте - путь представления результатов понятным и удобным способом. Термин «суммаризация» понимается здесь весьма широко, чтобы охватить не только простые обобщения вроде и сумм и математических ожиданий, но также и более сложные понятия: главные компоненты наборов признаков и кластерную структуру множества объектов. Корреляция также включает попарные и множественные отношения между входными признаками и целевыми переменными, включая деревья классификации и наивные бэйесовские классификаторы.

Другая особенность курса - главный акцент на то, чтобы в первую очередь дать глубокое понимание нескольких базовых техник, чем охватить широкий спектр разработанных на данный момент подходов. Большинство описанных методов попадает под одну и ту же парадигму наименьших квадратов для отображения «идеализированной» структуры в данные. Это позволяет внести в курс большое количество математически выведенных закономерностей, которые обычно упускаются из виду. Хотя подход к обучению содержит большое количество технических деталей, они включаются в специализированные фрагменты, названные «формулировками». Главная часть, «презентация», рассказывается без математических формул и объясняет метод путем описания случая применения к показательным реальным данным - эта часть может быть прочитана и изучена полностью без математических формулировок. Кроме того, есть еще одна часть - «расчеты», цель которой - изучение вопросов компьютерной обработки данных с использованием MathLab или любой другой среды: исходные коды могут быть рассмотрены как псевдокоды, только как способ описания алгоритмов. 

Об авторе: Б.Г. Миркин является единственным ординарным профессором ФКН, более 40 лет занимается исследованиями в области анализа данных и методов кластеризации. Автор базового учебника по анализу данных и МООС курса на курсере. 

 


 

2. Комбинаторика, графы и вычислительная логика  |  Combinatorics, Graphs and Computational Logic 

Лектор: Захарьящев Михаил Викторович

Департамент анализа данных и искусственного интеллекта: Профессор

 

 

Лектор: Макаров Илья Андреевич

Департамент анализа данных и искусственного интеллекта: Старший преподаватель


курс читается: 3-4 модули    |   на английском языке
Combinatorics, Graphs and Computational Logic (CGBL) class covers more complicated sections of discrete mathematics.The combinatorics chapter is devoted to in-depth combinatorics, recursive sequences and the group action on the sets. The graph chapter covers theoretical foundations of algebraic graph theory, algorithms on graphs and their applications. Computational Logic chapter covers modern methods for closed classes of Boolean logic, propositional calculus, predicate logic, and properties of classes to have a system of identities. During classes, we learn discrete optimization techniques for combinatorial part, study the theory and practice of social networks analysis in graph section, and make a brief overview of ontology reasoners and the Datalog and SPARQL query languages.

As a result, the CGBL course  greatly advances students’ knowledge in the fields of modern discrete mathematics theory and its applications, preparing our students to professional work in research projects and IT-industry.
* Each year we have a new “secret” section for seminars. It means, we add new practical applications for one of the course sections.
2015 Graphs – Social Networks Analysis
2016 Logic – Datalog, SPARQL, Ontology queries and Knowledge Representation
2017 – ?   Learn by yourself!

Об авторахhttp://www.dcs.bbk.ac.uk/~michael/,http://hse.ru/staff/iamakarov

 



3.  Машинное обучение и майнинг данных |  Machine Learning and Data Mining

Лектор: Игнатов Дмитрий Игоревич

Департамент анализа данных и искусственного интеллекта: Доцент

 

курс читается:  4 модуль   |   на английском языке
This course is oriented to bachelor students specialising in Computer Science and Data Analysis. Its main goal is to introduce a wide spectrum of basic models and techniques in Machine Learning and Data Mining. Thus three important problems in Machine Learning are addressed: classification, clustering and regression. From pure Data Mining side, we deep into frequent itemset mining and association rules. The course also pays proper attention to modern recommender systems and dimensionality reduction. To mastering practical skills we study  Weka, Orange, scikit-learn, and use related python-based libraries. To successfully finish the course it is required to complete several home works and defence a team or individual project analysing real data. The prerequisites include basic knowledge of calculus, linear algebra, and probabilities and statistics.


Об авторе : Д.И. Игнатов является одним из самых публикуемых и цитируемых ученый по прикладной математике и информатике, многие годы развивает методы анализа формальных понятий и машинного обучения на основе мультимодальной кластеризации. 



Курсы специализации 4 года обучения:
 

Автоматическая обработка текста 
Лектор: Большакова Елена Игоревна

Департамент анализа данных и искусственного интеллекта: Доцент

 

Курс «Автоматическая обработка текстов» (АОТ) является вводным в актуальную область компьютерной лингвистики и построения программных систем для обработки текстов на естественном языке (ЕЯ). Изучаются основные принципы и методы автоматической обработки текста, а также используемые при этом лингвистические ресурсы и связанные с ними модели представления знаний из области искусственного интеллекта. Обзорно рассматривается широкий круг современных приложений в области АОТ, включая задачи классификации текстов на ЕЯ, извлечение информации из текстов, машинный перевод и реферирование текстов. Кроме теоретического материала изучаются доступные в сети Интернет современные системы АОТ и другие интернет-ресурсы. Курс закладывает основу дальнейшего, более глубокого изучения проблем компьютерной лингвистики, анализа неструктурированных данных и информационного поиска. 

Об авторе : https://cs.msu.ru/persons/1237


Семантические технологии  |  Introduction to the Semantic Web Technologies

Лектор: Захарьящев Михаил Викторович

Департамент анализа данных и искусственного интеллекта: Профессор

 

This course is an introduction to the theory and practice of the Semantic Web, the next generation of the Web, which extends the traditional one with explicit semantics and makes the information on the Web accessible to both human and computer agents.

Курс является введением в теорию и практику Семантической Паутины (the Semantic Web) – нового поколения Всемирной Паутины (the World Wide Web), расширяющего традиционную WWW явно определенной семантикой и делающего информацию на WWW доступной не только человеку, но и компьютерным агентам. Семантическая Паутина – интенсивно развивающаяся в XXI веке область компьютерных наук. Её технологии широко используются как в государственном и публичном секторе, например, правительствами различных стран, в здравоохранении (онтологии SNOMED CT, GALEN), мультимедийных управляющих системах (BBC, Times), библиотеках, социальных сетях (Linked Data), так и в промышленности (IBM, Statoil, Siemens). В курсе обсуждаются теоретические основы Семантической Паутины, в частности, стандартные языки описания данных, запросов и онтологий (такие как RDFS, SPARQL и OWL, недавно принятые W3C) и соответствующие технологии преставления и обработки знаний. Курс также дает практические навыки моделирования данных и метаданных в RDFS, построения и анализа онтологий с помощью редактора Protege, использования языка запросов SPARQL и организации онтологического доступа к данным с помощью системы Ontop.

Об авторе : http://www.dcs.bbk.ac.uk/~michael/



Прикладная теория графов

Лектор: Незнанов Алексей Андреевич

Департамент анализа данных и искусственного интеллекта: Доцент

 

Всё больше данных о системах представлено в структурном виде. Математическими моделями структуры системы являются графовые модели различных видов – от обыкновенных графов до взвешенных гиперграфов – которые мы в дальнейшем будем в целом называть графами, если это не вызывает неоднозначности. Логистика, оптимизация производственного процесса, анализ корпоративных и социальных сетей, электроника и электротехника, телекоммуникации – лишь несколько прикладных областей, развитие которых во многом опирается на теорию графов. Последние годы активно развивается направление, получившее название Graph Mining. Дисциплина посвящена следующим вопросам:

1) систематизация сведений о базовых задачах теории графов и их взаимосвязи;
2) правила выбора эффективных структур данных для обработки графовых моделей;
3) методы построения эффективных алгоритмов решения задач различения и анализа сходства графов, поиска оптимальных маршрутов и потоков в сетях, выявления важных фрагментов и подмножеств вершин;
4) подходы к визуализации графов и их фрагментов;
5) проблема масштабирования алгоритмов на графах, особенно приближённых алгоритмов решения NP-полных задач.
Изучение теории графов и её приложений является необходимым для становления как специалиста по анализу данных, так и IT-специалиста в прикладных областях, существенно использующих графовые модели.


Об авторе : Незнанов А.А. является старшим научным сотрудником международной научно-учебной лаборатории «интеллектуальных систем и структурного анализа», в которой под его руководством выполняются прикладные задачи на исследование свойств графовых представлений в анализе данных и решетках формальных понятий.



Анализ и визуализация сетей
Лектор: Яворский Ростислав Эдуардович

Департамент анализа данных и искусственного интеллекта: Доцент

 

Будут рассмотрены прикладные аспекты анализа социальных, корпоративных, финансовых, лингвистических сетей в контексте исследование свойств структурной информации, представимой в виде графов.
Описание будет дополнено…

Об авторе : Яворский Р.Э. руководит проектами по исследованию корпоративных и финансовых сетей, в течение нескольких лет является соорганизатором международной конференции АИСТ по анализу изображений, сетей и текстов.


вернуться в начало




Научно-исследовательские семинары: 

Научно-исследовательский семинар "Анализ и майнинг данных"  (3 курс)   |   Research Seminar “Data Analysis and Data Mining”


The course will be devoted to a system's based approach as it allows to formalize the problems encountered in the real world by representing them in the well-studied framework that provides for efficient analysis and solution. In order to get a full grip of his powerful machinery researchers need to understand the fundamentals principles of the theory. The existing classes are either too specialized and mathematically detailed or too much of a cook-book nature. The goal of this class is to provide master students of non-mathematical background with a unifying view on the theory behind the system-oriented approach. The main goal is to develop the intuition behind the complex concepts. We will attempt to do it by showing the similarity of discrete  and continuous treatments of the system's theory and interpret the results using the natural concepts of linear algebra. The second part of the class is primarily dedicated to the fundamentals of estimation theory. We start from the basic concepts and estimation of model parameters in the white and colored noise cases. We will then introduce the Maximum Likelihood and Bayesian approaches to the problem of parameter estimation. We will illustrate the Bayesian methodology via examples of solving the inverse problem in neuroimaging and spectroscopy. We will use the Bayesian concept to develop Kalman filters - advanced model-based estimators taking into account the dynamical properties of the signals.

We will place more details on the course program with respect to usage of hardware for EEG, eye-trackers, sound-wave recognition and many others.



Научно-исследовательский семинар "Верификация комплексов программ"  (4 курс)   |   Research Seminar “System and Software Verification”

The aim of the course is to introduce the students to some of the most successful logic based concepts, tools and techniques used today in CS and IT, which are behind a major breakthrough in the practical applications in verification of systems and software. These methods are proven to be of great theoretical and practical potential in CS and IT.
The topics of this course fall under the umbrella of what is called verification
(a) Verification means to verify that a system satisfies some property.
(b) The system can be a physical or software system.
(c) The property is expressed using specifications within a certain logical language.

 



Рекомендованные курсы: 

Введение в программирование на Erlang 
Введение в управление роботехническими системами
Методы искусственного интеллекта в робототехнических системах
Теория баз данных