Калькулятор сложности текстов для малоресурсных языков
Этот инструмент позволяет быстро и легко оценить сложность текста на малоресурсных языках по ряду параметров: длине, частотности и разнообразию лексики, соотношению частей речи и главное - по индексу удобочитаемости Флеша, подсчет которого специально адаптирован под каждый язык.
Что это?
Наш инструмент показывает длину текста в знаках, словах и предложениях, среднюю длину предложения в словах и среднюю длину слова в буквах, частотность слов в тексте (т.е. сколько раз слово встречается в нем) и их частотность в языке (ipm - items per million) на основании языковых корпусов, а также процент лексики текста, которая входит в частотный список 5000 слов рассматриваемого языка.
Калькулятор считает процентное соотношение частей речи и на основании информации о морфологии и лексике текста показывает более комплексные текстовые характеристики (напр., динамичность и описательность текста, лексическую плотность и лексическое разнообразие). Наконец, главной отличительной чертой калькулятора является подсчет индекса удобочитаемости по формуле Флеша, адаптированной под каждый язык. Ниже приводится подробное описание перечисленных параметров.
Зачем и для кого?
Такой инструмент будет полезен как в исследованиях, так и в сфере образования. Например, при составлении стимульного материала лингвистических исследований крайне важно учитывать его сложность и сопоставимость. Впервые для этой цели появился доступный инструмент для языков, которые меньше представлены в лингвистике. В первой версии инструмента поддерживаются несколько малых языков России, для преподавателей которых этот инструмент поможет подобрать соответствующий по сложности материал для их учащихся и студентов.
Описание параметров
Индекс удобочитаемости по Флешу показывает уровень сложности восприятия текста для чтения. Он считается по формуле Флеша, основанной на количестве слов, предложений и слогов в тексте, однако коэффициенты формулы, разработанной изначально для английского языка, в нашем инструменте адаптированы для каждого языка отдельно. Подробнее об адаптации коэффициентов см. Petrunina & Zdorova (2025).
Лексическое разнообразие показывает повторяемость лексики в тексте. Данный коэффициент считается как отношение количества уникальных слов (лемм) текста к количеству всех словоформ текста (N unique lemmas / N all word forms) с результатом по шкале от 0 до 1, где 1 означает, что все слова уникальны и не повторяются.
Лексическая плотность считается как отношение количества смысловых и служебных частей речи по шкале от 0 до 10. Чем выше плотность, тем сложнее текст.
Динамичность текста считается как отношение количества глаголов к количеству существительных в предложении по шкале от 0 до 10. Чем выше значение, тем в тексте больше динамичности.
Описательность текста считается как количество прилагательных и причастий на предложение по шкале от 0 до 10. Чем выше значение, тем текст более описательный.
Процентное соотношение частей речи в тексте рассчитывается с использованием внешних морфологических анализаторов (отдельного для каждого языка). Из-за языковых особенностей и разницы в подходах к выделению частей речи в языках количество частей речи и степень детализации частеречных тэгов отличается. В нашем инструменте отображаются те части речи, которые заложены в используемых анализаторах, однако названия для частеречных тэгов приведены к единообразию с основой на универсальную систему обозначений Universal POS tags.
Например, в удмуртском и адыгейском, в отличие от других языков, для местоимений (PRON) анализатор дает информацию о типе местоимения (adjectival, nominal), им соответствуют тэги PRON-Adj, PRON-Noun.
Соответствие частеречных тэгов всех анализаторов тэгам в нашем инструменте см. здесь.
Редкие слова - слова, которые не покрываются лексическим минимумом и частотным словарем.
Цитирование
При использовании нашего инструмента, пожалуйста, указывайте ссылку на
Petrunina, U., & Zdorova, N. (2025, April). Readability assessment of written Adyghe using a baseline approach. In Proceedings of the International Conference “Dialogue” (Vol. 2025).
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.
