ИСПОЛЬЗОВАНИЕ КОДИРОВКИ BERT ДЛЯ БОРЬБЫ С АТАКОЙ MADLIB ПРИ ОБНАРУЖЕНИИ SMS-СПАМА
Главная статья
Аннотация
Одна из уловок, используемых для обмана спам-фильтров, заключается в замене слов синонимами или похожими словами, которые делают сообщение неузнаваемым алгоритмами обнаружения. В этой статье мы исследуем, может ли недавняя разработка языковых моделей, чувствительных к семантике и контексту слов, таких как BERT от Google, быть полезной для преодоления этой состязательной атаки, называемой “Mad-lib. Используя набор данных из 5572 SMS-сообщений со спамом, мы сначала установили базовый уровень эффективности обнаружения, используя широко известные модели векторизации текстов (BoW и TFIDF) и новую модель BERT в сочетании с различными алгоритмами классификации (дерево решений, kNN, SVM, логистическая регрессия, наивный Байес, многослойный персептрон). Затем мы создали тезаурус словаря, содержащегося в этих сообщениях, и провели эксперимент с атакой “Mad-lib”, в ходе которого мы модифицировали каждое сообщение из сохранённого подмножества данных (не использованного в базовом эксперименте) с разной частотой замены исходных слов синонимами из тезауруса. Наконец, мы оценили эффективность обнаружения трёх моделей векторизации текстов (BoW, TFIDF и BERT) в сочетании с лучшим классификатором из базового эксперимента (SVM). Мы обнаружили, что классические модели достигли 94% сбалансированной точности (BA) в исходном наборе данных, тогда как модель BERT получила 96%. С другой стороны, эксперимент с атакой “Mad-lib” показал, что кодировкам BERT удаётся поддерживать аналогичную производительность BA на уровне 96% при средней частоте замены 1,82 слова на сообщение и 95% при замене 3,34 слова на сообщение. В отличие от этого, производительность BA кодеров BoW и TFIDF снизилась по случайности. Эти результаты намекают на потенциальное преимущество моделей BERT для борьбы с подобными хитроумными атаками, в некоторой степени компенсируя неправильное использование семантических отношений в языке.
Подробнее
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.
Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)