• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обзор магистерских проектов второго года: оценка "читабельности" текста

Мы продолжаем рассказывать о магистерских проектах второго года, представленных перед Новым годом. Сегодня речь пойдет о проекте оценки сложности текста Константина Дружкина. Помимо описания проекта, по ссылке вы найдете ссылку на веб-сервис, который позволяет оценить читаемость загруженного вами текста. Кстати, ссылка на работающий веб-сервис доступна и в предыдущем тексте.

Обзор магистерских проектов второго года: оценка "читабельности" текста

1. Понимание написанного текста — это сложный навык, который развивается упражнением. Разные люди в разной степени владеют этим навыком. Как правило, навыки чтения зависят от количества лет формального образования (учёбы в школе и университете); поэтому их измеряют в "классах" ("X читает на уровне 10-го класса").

2. В зависимости от навыков чтения, для каждого человека существует комфортный уровень сложности текстов. Тексты, написанные на этом уровне или ниже, читаются легко и без напряжения. Но если сложность текста превышает этот уровень, то читать становится тяжело и неприятно. Чтобы разобраться в таком тексте, требуется напряжение воли.

3. Можно попытаться автоматически подсчитать, сколько классов формального образования нужно для чтения конкретного текста. Так, если система дает тексту оценку 10, то читатель должен иметь за плечами как минимум десять лет школы. Менее образованные читатели, пожалуй, смогут разобраться в таком тексте, но только при наличии сильной мотивации.

4. В современном мире много труднопонимаемых текстов, от которых зависит жизнь, здоровье и финансовое благополучие людей. Как правило, люди их стараются их не читать. Иногда такое избегание приводит к серьёзным последствиям. (Представим себе, что будет, если не читать инструкцию по установке детского кресла в машине, правила приёма лекарств или руководство по заполнению налоговой декларации.)

5. Поэтому важные тексты необходимо упрощать. Первый шаг к упрощению — это измерение сложности. В англоязычном мире для этого давно придуманы разные формулы. Адаптацией этих формул для русского языка занимался Иван Викторович Бегтин (см. его сайт readability.io).

6. Наш проект — это экспериментальное дополнение к сайту И.В.Бегтина. Мы стараемся не дублировать его функциональность, но расширять в двух направлениях. Одно направление - это визуализация данных. Например, строится гистограмма со значениями интересующего признака в эталонной коллекции текстов, а красной линией выделяется позиция проверяемого текста. Второе направление - это поиск альтернативных признаков, указывающих на сложность текстов. Например, помимо средней длины слова и предложения, мы рассматриваем долю прилагательных и долю родительного падежа.

Тестовый вариант веб-сервиса:
* http://web-corpora.net/wsgi3/readability/index

Ссылки по теме:
* http://polit.ru/article/2013/01/31/newspeak

Хорошая статья про "простой язык" в англоязычном мире.

* http://www.infoculture.ru/glossary/simple-rus-lang/

Статья с сайта "Информационной культуры" И. Бегтина.

На фотографии – сайт И. Бегтина readability.io.
(Константин Дружкин)