Замените это

Новый ИИ-сервис помогает проверять страницы портала Вышки на соответствие требованиям закона о русском языке

Замените это

© iStock

С 1 марта 2026 года вступили в силу новые требования законодательства о русском языке: информация, предназначенная для публичного ознакомления, должна быть представлена на русском языке, а использование иностранных слов допускается только в установленных законом случаях. В частности, если заимствованное слово отсутствует в одном из четырех нормативных словарей, его необходимо заменить русским аналогом или сопроводить понятной русскоязычной расшифровкой. Исключение составляют зарегистрированные товарные знаки, фирменные наименования и иные охраняемые обозначения.

Для корпоративного портала университета это особенно актуально: на его страницах размещены тысячи текстов, созданных в разные годы, где могут встречаться англицизмы, профессиональные термины и спорные заимствования. Ручная проверка каждого случая требует обращения к одному из четырех нормативных словарей русского языка, утвержденных правительством, и занимает значительное время.

Чтобы упростить эту работу, команда Дирекции по порталам и мобильным приложениям создала сервис автоматической проверки страниц. Он может стать альтернативой открытого сервиса ГосСловарь, который выполняет ту же функцию, но имеет лимит на число бесплатных проверок.

Принцип работы максимально простой: сотруднику достаточно вставить в сервис адрес страницы корпоративного портала, после чего система сформирует список терминов, на которые стоит обратить внимание редактору. При необходимости для каждого случая сервис поможет понять, что именно требуется, например, добавить русский аналог в скобках.

Как устроен сервис

Сервис использует гибридный ИИ-подход к анализу текстов. На первом этапе работает классический NLP-конвейер: морфологический анализатор pymorphy3 и набор лингвистических правил выявляют в тексте иноязычные заимствования и сопоставляют их с нормативными словарями.

На втором этапе локальная модель машинного обучения на основе логистической регрессии (scikit-learn) оценивает каждый найденный случай по набору признаков и отсеивает часть ложных срабатываний.

Для неоднозначных фрагментов подключается большая языковая модель Qwen3.5 через API. Она получает контекст текстового блока, результаты правил и похожие ранее разобранные случаи, найденные по векторным эмбеддингам text-embedding-3-small, и выдает структурированную рекомендацию с объяснением.

При этом итоговое решение всегда остается за редактором: искусственный интеллект выступает в роли интеллектуального ассистента и помогает быстрее находить потенциально проблемные формулировки.

Первая версия уже доступна

Сейчас сервис работает в режиме MVP (минимально жизнеспособного продукта).

Мы сознательно приняли решение не ждать «идеальной» версии, потому что инструмент нужен командам уже сейчас - для оперативной проверки действующих страниц и снижения риска нарушений новых требований.

Уже на текущем этапе сервис надежно находит практически все спорные случаи, однако иногда срабатывает слишком строго. Например, он может помечать как потенциально проблемные зарегистрированные бренды и товарные знаки, фирменные названия сервисов (например, мессенджер Max) или римские цифры.

Именно поэтому в интерфейсе предусмотрен механизм обратной связи. Если система выделила допустимый термин, пользователь может нажать кнопку «Допустимо» и указать причину из предложенных вариантов. Все такие исправления используются для последующего дообучения модели и повышения точности сервиса.

Где найти

Сервис уже доступен из внутренней сети Вышки и может использоваться всеми командами, работающими с контентом корпоративного портала.

Жмите сюда и пользуйтесь

Новая версия законодательства требует от нас большей внимательности к языку интерфейсов, текстов и навигационных элементов. Мы надеемся, что новый инструмент поможет сделать этот процесс быстрее, проще и единообразнее для всех редакторов и владельцев разделов.