Способ многоуровневой грануляции текста для проведения автоматического определения тональности текста | Международный журнал информационных технологий и энергоэффективности

PDF

Опубликована апр 16, 2017

А. А. Тимощук

Филиал федерального государственного бюджетного образовательного учреждения высшего образования «Национальный исследовательский университет МЭИ» в г. Смоленске

Аннотация

Статья посвящена проблеме автоматического анализа тональности текста. Предлагается новый способ многоуровневой грануляции текста для автоматического определения тональности, комбинирующий результаты работы классификатора на основе векторного представления текста (Doc2Vec) и метода ключевых слов. Doc2Vec - алгоритм обучения без учителя, учится получать распределенные векторы для частей текстов. Метод ключевых слов основан на подсчете весов входящих в текст признаков.

Способ многоуровневой грануляция текста включает две фазы – обучение и распознавание. На первой фазе на основе размеченной коллекции текстов происходит обучение Doc2Vec-классификатора и классификатора на базе ключевых слов. На второй фазе результаты распознавания нового текста обоими классификаторами объединяются и формируется итоговое решение; при этом учитываются степени уверенности классификаторов в своих результатах.

Как цитировать

ТИМОЩУК, А. А.. Способ многоуровневой грануляции текста для проведения автоматического определения тональности текста. Международный журнал информационных технологий и энергоэффективности, [S.l.], v. 2, n. 1(3), апр. 2017. ISSN 2500-1752. Доступно на: <http://openaccessscience.ru/index.php/ijcse/article/view/33>. Дата доступа: 25 апр. 2024

ABNT APA BibTeX CBE EndNote - формат EndNote (Macintosh & Windows) MLA Формат ProCite - RIS (Macintosh & Windows) RefWorks Формат Reference Manager - RIS (только Windows) Turabian

Выпуск

Том 2 № 1(3) (2017)

Раздел

Информационные технологии

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.

Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)

Литература

Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: по матер. ежегодн. Междунар. конф. «Диалог». 2012. № 11 (18). С. 753–762.

Котельников Е.В. Комбинированный метод автоматического определения тональности текста // Журнал Программные продукты и системы. 2012. № 3. С. 189–195.

Chetviorkin I., Braslavskiy P., Loukachevitch N. Sentiment Analysis Track at ROMIP 2011 // Computational Linguistics and Intellectual Technologies: Annual International Conf. «Dialogue», CoLing&InTel, 2012, no. 11 (18), pp. 739–746.

Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection // Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, 1995, no. 2 (12), pp. 1137–1143.

Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management, 1988, Vol. 24, no. 5. pp. 513–523.

Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys, 2002, Vol. 34, no. 1. pp. 1–47.

Tomas Mikolov, Quoc Le. Distributed Representations of Sentences and Documents. // In Proceedings of Workshop at The 31st International Conference on Machine Learning (ICML) – 2014.

Статьи на боковой панели

Главная статья

Аннотация

Подробнее

Литература