Способ многоуровневой грануляции текста для проведения автоматического определения тональности текста
Главная статья
Аннотация
Статья посвящена проблеме автоматического анализа тональности текста. Предлагается новый способ многоуровневой грануляции текста для автоматического определения тональности, комбинирующий результаты работы классификатора на основе векторного представления текста (Doc2Vec) и метода ключевых слов. Doc2Vec - алгоритм обучения без учителя, учится получать распределенные векторы для частей текстов. Метод ключевых слов основан на подсчете весов входящих в текст признаков.
Способ многоуровневой грануляция текста включает две фазы – обучение и распознавание. На первой фазе на основе размеченной коллекции текстов происходит обучение Doc2Vec-классификатора и классификатора на базе ключевых слов. На второй фазе результаты распознавания нового текста обоими классификаторами объединяются и формируется итоговое решение; при этом учитываются степени уверенности классификаторов в своих результатах.
Подробнее
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.
Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)Литература
Котельников Е.В. Комбинированный метод автоматического определения тональности текста // Журнал Программные продукты и системы. 2012. № 3. С. 189–195.
Chetviorkin I., Braslavskiy P., Loukachevitch N. Sentiment Analysis Track at ROMIP 2011 // Computational Linguistics and Intellectual Technologies: Annual International Conf. «Dialogue», CoLing&InTel, 2012, no. 11 (18), pp. 739–746.
Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection // Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, 1995, no. 2 (12), pp. 1137–1143.
Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management, 1988, Vol. 24, no. 5. pp. 513–523.
Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys, 2002, Vol. 34, no. 1. pp. 1–47.
Tomas Mikolov, Quoc Le. Distributed Representations of Sentences and Documents. // In Proceedings of Workshop at The 31st International Conference on Machine Learning (ICML) – 2014.