ИСПОЛЬЗОВАНИЕ КОДИРОВКИ BERT ДЛЯ БОРЬБЫ С АТАКОЙ MADLIB ПРИ ОБНАРУЖЕНИИ SMS-СПАМА | Международный журнал информационных технологий и энергоэффективности

PDF

Опубликована окт 31, 2023

А.В. Козачок

ФГБУО ВО «МИРЭА - РОССИЙСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ»

П.А. Кузькин

ФГБУО ВО «МИРЭА - РОССИЙСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ»

Аннотация

Одна из уловок, используемых для обмана спам-фильтров, заключается в замене слов синонимами или похожими словами, которые делают сообщение неузнаваемым алгоритмами обнаружения. В этой статье мы исследуем, может ли недавняя разработка языковых моделей, чувствительных к семантике и контексту слов, таких как BERT от Google, быть полезной для преодоления этой состязательной атаки, называемой “Mad-lib. Используя набор данных из 5572 SMS-сообщений со спамом, мы сначала установили базовый уровень эффективности обнаружения, используя широко известные модели векторизации текстов (BoW и TFIDF) и новую модель BERT в сочетании с различными алгоритмами классификации (дерево решений, kNN, SVM, логистическая регрессия, наивный Байес, многослойный персептрон). Затем мы создали тезаурус словаря, содержащегося в этих сообщениях, и провели эксперимент с атакой “Mad-lib”, в ходе которого мы модифицировали каждое сообщение из сохранённого подмножества данных (не использованного в базовом эксперименте) с разной частотой замены исходных слов синонимами из тезауруса. Наконец, мы оценили эффективность обнаружения трёх моделей векторизации текстов (BoW, TFIDF и BERT) в сочетании с лучшим классификатором из базового эксперимента (SVM). Мы обнаружили, что классические модели достигли 94% сбалансированной точности (BA) в исходном наборе данных, тогда как модель BERT получила 96%. С другой стороны, эксперимент с атакой “Mad-lib” показал, что кодировкам BERT удаётся поддерживать аналогичную производительность BA на уровне 96% при средней частоте замены 1,82 слова на сообщение и 95% при замене 3,34 слова на сообщение. В отличие от этого, производительность BA кодеров BoW и TFIDF снизилась по случайности. Эти результаты намекают на потенциальное преимущество моделей BERT для борьбы с подобными хитроумными атаками, в некоторой степени компенсируя неправильное использование семантических отношений в языке.

Как цитировать

КОЗАЧОК, А.В.; КУЗЬКИН, П.А.. ИСПОЛЬЗОВАНИЕ КОДИРОВКИ BERT ДЛЯ БОРЬБЫ С АТАКОЙ MADLIB ПРИ ОБНАРУЖЕНИИ SMS-СПАМА. Международный журнал информационных технологий и энергоэффективности, [S.l.], v. 8, n. 10(36), p. 009-021, окт. 2023. ISSN 2500-1752. Доступно на: <http://openaccessscience.ru/index.php/ijcse/article/view/449>. Дата доступа: 26 апр. 2025

ABNT APA BibTeX CBE EndNote - формат EndNote (Macintosh & Windows) MLA Формат ProCite - RIS (Macintosh & Windows) RefWorks Формат Reference Manager - RIS (только Windows) Turabian

Выпуск

Том 8 № 10(36) (2023)

Раздел

Информационные технологии

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.

Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)

Статьи на боковой панели

Главная статья

Аннотация

Подробнее