ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ РОССИЙСКИХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ

Главная статья

Н.А. Авдеев Ю.М. Ким Н. Горбачев

Аннотация

В статье рассматривается применение российских больших языковых моделей (GigaChat от компании Сбер и YandexGPT от компании Яндекс) и их сравнение с другими методами в решении задачи выделения именованных сущностей. В качестве материалов для оценки подходов будут использованы 5 текстовых документов разного смыслового содержания из проекта открытого доступа factRuEval-2016. На основе проведенных тестирований будет сделан вывод о целесообразности применения рассмотренных LLM (Large Language Model – большая языковая модель) в автоматизации выделения именованных сущностей по категориям PERSON, ORGANIZATION и LOCATION. В тексте статьи будет приведено сравнение LLM с разметкой данных человеком и специализированным, для этой процедуры, инструментом – набором библиотек NATASHA. В приведенном сравнении ручная разметка будет взята за эталон (единица по всем характеристикам). Оценка результатов будет проводиться по стандартным, для этой задачи, метрикам – precision, recall и f1-score. Для сравнения полученных результатов с принятым эталоном будет использоваться библиотека BERTScore, применяемая на языке программирования Python. В целях улучшения качества работы языковых моделей будет составлен структурированный промпт с явными инструкциями, который будет продемонстрирован в тексте статьи.

Подробнее

Как цитировать
АВДЕЕВ, Н.А.; КИМ, Ю.М.; ГОРБАЧЕВ, Н.. ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ РОССИЙСКИХ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ. Международный журнал информационных технологий и энергоэффективности, [S.l.], v. 10, n. 9(59), p. 012-017, сен. 2025. ISSN 2500-1752. Доступно на: <http://openaccessscience.ru/index.php/ijcse/article/view/1084>. Дата доступа: 01 фев. 2026
Раздел
Информационные технологии