2024/2025
Программирование для анализа городских данных
Статус:
Маго-лего
Кто читает:
Высшая школа урбанистики имени А.А. Высоковского
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Кульчицкий Юрий Викторович
Язык:
русский
Кредиты:
6
Контактные часы:
48
Программа дисциплины
Аннотация
Contemporary urban planner and researcher should be aware of the processes that can be observed with new data sources and analysis tools. In the modern urbanised world, enormous amounts of data are generated daily ranging from citizen complaints and reports to their search queries, daily movements, electricity meter readings, etc. Analysing that data creates new opportunities for studying urban phenomena and enables new scientific approaches in urban planning and management. The extraordinary volume and multidimensionality of urban data require learning new tools and methods for collecting and acquiring such data, shaping it into a specific form appropriate for the analysis, and performing the analysis. The course introduces the students to the types of data (especially spatial data) relevant to urban research, the advanced tools of working with such data, the full process of data analysis from data collection and exploratory visualisation to inferences, conclusions, presentation of the analysis results. Specific topics include data acquisition, data manipulation and preparation, exploratory analysis, statistical analysis (basic regression and introduction to spatial autocorrelation and regression), data visualisation and reproducible reporting. The students will use R statistical programming language and RStudio IDE (integrated development environment) during the course, but the concepts used in the course and the acquired skills can be applied in Python, Julia or any other programming language with data analysis libraries.
Цель освоения дисциплины
- Familiarise students with different types of urban data sources, file and database types used for storage of such data.
- Discuss the origins and associated limitations of various urban data sources.
- Showcase the practices of explanatory data visualisation in urban planning and research.
- Explain the importance of time and space dimensions of urban data.
- Explain how the data is stored and structured.
- Develop basic skills of applying statistical analysis to large and small data sets.
- Teach basic principles of exploratory data analysis.
- Show how to communicate urban data analysis results through explanatory data visualisation.
Планируемые результаты обучения
- Иллюстрировать особенности реализации платформенного и экосистемного подходов в построении взаимодействия между городами и Smart City-проектами
- Получать городские пространственные данные из различных источников.
- Студент может создавать скрипты для анализа данных
- Уметь писать скрипты на языке R
Содержание учебной дисциплины
- 01. Введение в городские данные и smart cities
- 02. Введение в скриптовые инструменты анализа данных и проведение воспроизводимых исследований
- 03. Предварительные исследования данных (EDA) и базовые техники визуализации
- 04. Виды и источники городских данных. Ключевые наборы открытых городских данных и базовые техники работы с ними
- 05. Понятие tidy data. Очистка, и трансформация наборов данных, конвертация их типов. Алгоритмы эффективной обработки наборов данных
- 06. Элементы математической статистики, базовые процедуры исследования наборов данных перед оценкой регрессионных и иных моделей. Методы оценки эффективности предсказательных моделей
- 07. Продвинутые методы обработки пространственных данных. Пространственная статистика и пространственные модели
- 08. Элементы протоколов коммуникации и релевантных форматов хранения и передачи данных. Работа с API, методы веб-скрейпинга, специфика собранных автоматическим образом данных. Продвинутые методы создания отчетов
Элементы контроля
- Лабораторная 03. Tidy Data
- Обязательные курсы DataCamp
- Лабораторная 02. Научные графики, ggplot2
- Лабораторная 04. Регрессионные модели
- Экзамен
- Лабораторная 00 - тестовая
- Лабораторная 07. Парсинг данных из открытых источников
- Лабораторная 06. Пространственные модели - 02
- Лабораторная 05. Пространственные модели - 01
- Курсы по выбору в системе DataCamp
- Лабораторная 01. Таблицы, базовый ГИС
Промежуточная аттестация
- 2024/2025 учебный год 2 модуль0.1 * Курсы по выбору в системе DataCamp + 0.001 * Лабораторная 00 - тестовая + 0.05 * Лабораторная 01. Таблицы, базовый ГИС + 0.05 * Лабораторная 02. Научные графики, ggplot2 + 0.1 * Лабораторная 03. Tidy Data + 0.08 * Лабораторная 04. Регрессионные модели + 0.05 * Лабораторная 05. Пространственные модели - 01 + 0.05 * Лабораторная 06. Пространственные модели - 02 + 0.08 * Лабораторная 07. Парсинг данных из открытых источников + 0.039 * Обязательные курсы DataCamp + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
Рекомендуемая дополнительная литература
- Hierarchical modeling and analysis for spatial data, Banerjee, S., 2015