• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Проекты 2015 г.



Транслитератор для языка идиш
Денис Кирьянов, Таня Панова (научный руководитель – Борис Валерьевич Орехов)

Графика языка идиш основана на еврейском квадратном письме, и в настоящее время для публикации светских изданий в подавляющем большинстве случаев используется стандартная орфография, разработанная Институтом YIVO (the Institute for Jewish Research) в 1938 году, которой соответствует стандартная транслитерация YIVO. Однако при взгляде в недавнее прошлое, а также на ультраортодоксальные источники, мы видим не просто неустоявшуюся орфографию, а целый ряд орфографических систем, основанных на разных принципах. Более того, внутри этих систем каждый издатель следовал своей орфографической практике (и не всегда был последователен). В связи с этим встаёт проблема нормализации таких текстов, которую и призван решить настоящий транслитератор. Помимо непосредственных целей (удобство чтения и произношения), нормализованную транслитерацию можно использовать в электронных ресурсах. Так, к пониманию того, что такой транслитератор для идиша необходим, авторы пришли в ходе работы над корпусом языка идиш. Пока в КЯИ преобладает современная пресса и недостаточно текстов, написанных классиками литературы, не хватает и текстов других жанров. Теперь проблема дисбаланса может быть успешно решена.
У этой программы есть две функции:
а) нормализация текста на идише 
б) транслитерация из квадратного письма в латиницу
Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

Автоматическая разметка ошибок в текстах эритажных носителей русского языка
Дарья Лошкарева, Наталия Филиппова

Носители русского языка, выросшие в иноязычной среде или эмигрировавшие в дошкольном возрасте, говорят на варианте русского, отличающемся от привычного нам – его называют эритажным русским (в английской литературе – Russian Heritage Language). В языке эритажных носителей встречаются систематические изменения в области синтаксиса, морфологии и лексике, изучение которых может быть ценным инструментом для понимания функционирования языка в целом. В настоящее время большое количество исследований эритажного русского проводится на основе Учебного корпуса русского языка Russian Learner Corpus, в котором, помимо стандартной морфологической разметки, содержится специальная разметка различных типов конструкций, характерных для эритажных носителей. Однако, такая разметка осуществляется вручную, что ведёт к большим временным затратам и расхождениям в разметке. Целью нашего проекто было создание автоматической системы разметки эритажных текстов. На данный момент создан набор инструментов для автоматического распознавания ошибок подчинительной связи: Дарья Лошкарёва занималась автоматическим поиском ошибок согласования. Rule-based анализатор для определения ошибок согласования с  использованием продукта tomita-parser компании Яндекс на основе шаблонов КС-грамматики здесь.  Наталия Филиппова занималась автоматической разметкой ошибок управления. Для этого был создан словарь неправильных последовательностей морфологических признаков. Код программы для разметки ошибок лежит здесь; пользовательский интерфейс доступен здесь. На данный момент идет работа над переводом корпуса на новый интерфейс, после чего планируется имплиментация созданных ресурсов в состав корпуса для упрощения работы аннотаторов при разметке текстов, которые будут иметь POS-tagging разметку программой mystem и автоматическую разметку предположительно ошибочных конструкций.

Корпус Л.Н. Толстого 
Мария Картышева, Мария Кузнецова, Елена Сидорова (научный руководитель – Анастасия Александровна Бонч-Осмоловская)

Корпус Толстого – первый авторский корпус, в нем представлены тексты только Толстого за весь период его творчества. В Корпус включены как личная и деловая переписка, так и публицистические и художественные тексты Толстого. Кроме того, Толстой писал не только на русском языке, поэтому в Корпусе можно найти тексты на английском, французском, немецком и других языках. Это единственный полный корпус текстов одного человека, доступный для изучения.


Treebank
Дарья Трофимова (научный руководитель – Светлана Юрьевна Толдова)

Наш проект посвящен автоматическому поиску и исправлению ошибок синтаксического парсинга, выполненного в рамках грамматики зависимостей. Мы описываем признаки зависимостной связи, извлекаем их из корпуса и обучаем классификаторы на признаках пар с ошибками синтаксической разметки и на признаках пар с правильной разметкой, чтобы обученные модели могли находить в синтаксическом корпусе потенциально неверно размеченные пары  слов и предлагать варианты исправлений. 


Параллельный корпус В.В. Набокова
Жеребцова Яна (научный руководитель – Борис Валерьевич Орехов)

Целью данного проекта является создание параллельного корпуса русско-американского писателя В.В.Набокова. Идея такого корпуса не случайна и возникла в силу специфики самого автора. Во-первых, Набоков писал свои произведения на разных языках (русский, английский, французский). Во-вторых, он очень активно занимался переводами: переводил свои (“Лолита”; “Память, говори!” и т.д.), а также чужие тексты (Л.Кэролла, А.С.Пушкина, М.Ю. Лермонтова и др.). В-третьих, набоковские тексты переводили другие (у произведения «Пнин», к примеру, есть три разных перевода на русский язык: Г. Барабтало и В.Набоковой, С.Ильина, Б.Носика). Таких текстов не очень большое количество, но они присутствуют. Все это было решено свести вместе.
Техническое задание к проекту
Выровненные тексты и таблицу с метаданными можно скачать здесь


Интерробанг
Анна Выборнова (научный руководитель – Ольга Николаевна Ляшевская

Интерробанг — это программа, которая позволит облегчить труд учителей русского языка при проверке и оценке работ школьников. Сейчас в Интерробанге можно загружать, проверять и исправлять пунктуацию в печатных текстах (формат .txt, кодировка utf-8), помечая место с ошибкой с помощью предустановленных пиктограмм  и тегов, объясняющих причину правки. Кроме того, можно узнать статистику - сколько всего в тексте было допущено ошибок (учитываются пропущенные и лишние знаки) и сколько ошибок на каждое конкретное правило было сделано. Так как Интерробанг это открытые питоновские файлы, содержащие комментарии с описанием классов и функций, распаковав архив с программой interrobang и установив на своем компьютере Python версии 2.7. и PyQt4, вы легко сможете дописывать программу. В перспективе на сайте www.compling.ru/interrobang появится версия .exe для тех, кто хочет пользоваться программой, но не хочет вносить изменений, а также интерактивный вариант для он-лайн проверки. В версии 1.1. предполагается добавить возможность - получения оперативной помощи при нажатии на кнопку Help,- вывода исправленного документа на печать, - автоматического выставления оценки, - отслеживания динамики развития пунктуационных навыков учащегося (функция доступна только для .exe),- ведения статистики по всем работам (функция доступна только для .exe).
Руководство пользователя (DOCX, 255 Кб)
Собственно архив  с программой interrobang (TAR, 524 Кб)

Сентинет
Данейко Анастасия, Кулакова Елена

Сентинет - это база данных, в которой хранятся словосочетания тональных прилагательных с существительными и оценки, которые каждой паре приписали пользователи. Сентинет отличается от существующих словарей оценочных прилагательных тем, что приписывает тональность целому словосочетанию, которая может отличаться от тональности только прилагательного. Кроме того, все существительные разбиты на семантические классы, что позволяет проследить как меняется оценка прилагательного в зависимости от класса существительного, с которым оно употреблено. Оценку словосочетания мы получаем при помощи краудсорсинга. Для удобства разметки и расширения круга потенциальных асессоров, мы сделали небольшую игру. Итоговая оценка для пары слов считается как среднее из всех оценок пользователей. К сожалению, в данный момент в базе есть не все прилагательные, но в ближайшее время мы запустим игру в массовое пользование и база со временем будет пополняться! Мы надеемся, что база данных Сентинет поможет не только улучшить сервисы определения тональности текста, но так же и стать незаменимым источником для теоретических исследований. Сентинет сделан и поддерживается студентами магистратуры НИУ ВШЭ, направление "Компьютерная лингвистика".


Корпус метафорических и неметафорических употреблений русских глаголов с разметкой глагольных аргументов
Юлия Бадрызлова (научный руководитель – Ольга Николаевна Ляшевская)

Корпус метафорических и неметафорических употреблений русских переходных глаголов с разметкой глагольных аргументов в настоящее время представлен десятью глаголами: бомбардировать, очертить, пилить, причесать, распылять, разбавлять, выкроить, взорвать, взвесить, зажигать. Для каждого контекста размечены следующие признаки: класс (метафорическое/неметафорическое употребление глагола), и значение глагола (только для метафорических употреблений). Для аргументов глагола размечены: тип аргумента (семантическая роль) и семантический класс (абстрактное/конкретное/человек). Корпус доступен для просмотра в графическом виде (в формате визуализации инструмента BRAT Rapid annotation tool) по ссылке. Корпус доступен для скачивания в виде отдельных файлов по ссылке.
Более подробное описание корпуса находится здесь. Автор благодарит Б.В. Орехова за помощь в обработке данных.