Лингвистические особенности сообщений коммитов

ФИО студента: Глазунов Евгений Владимирович

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2019

Разработчики программного обеспечения используют системы контроля версий. Такие системы позволяют отслеживать изменения в документах, программах и проектах в целом. Разработчики сопровождают изменения комментариями, который позволяют им и их коллегам понять, какие изменения произошли. Эти комментарии пишутся на естественном языке и имеют особенные лингвистические характеристики. Единственные исследования, которые были проведены на этих данных, посвящены определению тональности текста, поэтому эти данные не исследованы с лингвистической точки зрения. Обзорное исследование, охватывающее различные уровни языка, позволяет определить актуальные исследовательские вопросы и направления. Первая цель, которая стоит в этой работе - изучение самых ярких особенностей и их интерпретация с точки зрения контекста, прагматики, информационной структуры и дискурса. Следующая цель - описать синтаксис сообщений коммитов и некоторые морфологические явления. Часть из них рассматривается в первой, более теоретической секции, однако другие требуют более подробного рассмотрения. Заключительная цель - изучить лексику. Будучи особым доменом, сообщения коммитов имеют характерный словарь. С этой точки зрения важно определить размеры словаря, частотные слова и коллокации. Источник материала в этой работе - GitHub, одна из ведущих платформ для разработчиков. Материал, собранный для настоящего исследования, составляет более 75 миллионов сообщений (около миллиарда токенов). В качестве референтного корпуса для противопоставления естественному языку был выбран Твиттер, так как твиты одновременно являются и короткими текстами, и примером computer-mediated communication. Выборка составляет 400 тысяч постов (6 миллионов токенов). Использованные инструменты - это Python 3, Universal Dependencies Parser, векторные семантические модели, СУБД MySQL. Для того, чтобы получить наиболее полное представление о лингвистических особенностях сообщений коммитов, в работе используются как классические, так и современные методы автоматической обработки естественного языка, такие как автоматический синтаксический анализ, сравнение с референтным корпусом, построение частотного словаря, векторные семантические модели, кластеризация векторных представлений слов, использование коллокационных метрик, определение тональности текста, анализ временных рядов и некоторые другие. Сообщения коммитов описывают изменения, чтобы все могли следить за ними, сообщения не обязаны быть полноценным текстом, главное - это успешность коммуникации. Исследования, посвященные коротким текстам, обычно описывают язык Интернет-общения (например, Твиттер), газетные заголовки и подобные жанры. Общая сфера, которая может быть релевантна для изучения коммитов - это часть computer-mediated communication, так как это цифровые сообщения и обмен происходит электронно. Наряду с этим, сообщения имеют общие черты, объединяющие их с газетными заголовками. В работе сделан обзор лингвистических особенностей сообщений коммитов с точки зрения различных направлений лингвистики. Сообщения коммитов следуют тенденциям computer-mediated communication (CMC) и газетных заголовков. Они демонстрируют различные типы языковой редукции и экономии. Эти изменения могут быть объяснены с дискурсивobjectными факторами и общеязыковыми грамматическими процессами. Также эти изменения говорят о становлении жанра. Что касается лексики, в сообщениях коммитов встречаются особенности как электронной коммуникации, так и специфические для этого домена. В работе есть обзор семантических кластеров, стратегий аббревиации, коллокаций и некоторые другие. Исследование вносит вклад в описание специфичных доменов и анализ коротких текстов. С точки зрения методологии, в работе представлен возможный план исследования, включающий изучение разных уровней языка с помощью автоматических инструментов автоматической обработки текста.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ