• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение методов автоматического анализа естественного языка для теоретического исследования семантико-грамматических конструкций в русском языке

2014

Исследование направлено на внедрение методов, хорошо разработанных в прикладных областях компьютерных технологий, связанных с обработкой естественного языка, для получения новых данных о свойствах семантико-грамматических конструкций в русском языке. Компьютерная лингвистика развивается как инженерная область знания и ставит своей задачей автоматическое решение прикладных задач. Наиболее широко использованные подходы не используют достижения теоретической лингвистики и опираются на математические методы анализа и прогнозирования с использованием больших корпусных данных. Несмотря на то, что собственно лингвистическая составляющая данных методов крайне мала, в компьютерной лингвистике удалось в последние годы добиться впечатляющих результатов. В то же время поскольку ключевой задачей являются высокие показатели результатов применения того или иного метода, собственно теоретическая значимость анализа языковых данных, как правило, остается вне внимания и интереса исследователей. В то же время, теоретическая лингвистика, несмотря, на использование новых инструментов получения данных, таких как языковые, по-прежнему остается в традиционной парадигме. Одним из важнейших вопросов, поднимаемых в последнее время в научных дискуссиях на конференциях и в специализированных журналах является тот вклад, который компьютерная лингвистика может внести в теорию языка, и в целом, может ли компьютерная лингвистика считаться наукой, изучающей естественный язык, или же это подраздел инженерно-прикладной отрасли информатики. Перспективой предлагаемого научного исследования является получение новых теоретически-значимых данных в области семантико-синтаксических конструкции в русском языке с помощью методов классификации и кластеризации данных, используемых в компьютерной лингвистике. Теоретической парадигмой является грамматика конструкций – теория, разработанная американскими лингвистами в начале 2000 годов и получившая широкое развитие в мировой и отечественной лингвистике. Будут рассмотрены три типа конструкций: сочинительные конструкции качественных наречий (такие как «работать долго и упорно»), конструкции с дативным субъектом и предикативами (такие как "мне все равно") и пассивные конструкции с выраженным и невыраженным агентивным дополнением. Для анализа конструкций будут привлекаться синхронные и диахронические корпусные данные, а также данные разных подкорпусов, в том числе корпуса блогов и устного корпуса. Данные будут охарактеризованы по набору семантико-грамматических параметров, далее для классификации параметров будут применены методы машинного обучения.