ОПРЕДЕЛЕНИЕ ЭТАПОВ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ТЕКСТА И ВЫБОР АЛГОРИТМА КЛАСТЕРИЗАЦИИ СООБЩЕНИЙ ЖУРНАЛЬНЫХ ФАЙЛОВ СЕРВЕРА
Главная статья
Аннотация
В статье приводится обоснование разработки собственного российского ПО, представлено приложение для кластеризации сообщений журнальных файлов сервера и описан эксперимент по определению этапов предварительной обработки текста для процесса кластеризации. Также приводится обоснование основного инструментария для выполнения данной задачи (библиотеки scikit-learn (Python)) и выбор алгоритмов кластеризации (DBSCAN и BIRCH). По ходу статьи на графиках приведены зависимости качества кластеризации (в виде коэффициента Силуэта) и времени выполнения процесса от выбранных этапов предварительной обработки. В заключении дается анализ полученных в ходе эксперимента зависимостей.
Подробнее
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.
Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)