КВАНТОВАНИЕ КАК МЕТОД ОПТИМИЗАЦИИ НЕЙРОННЫХ СЕТЕЙ

Главная статья

А.Р. Купцов

Аннотация

В статье рассматривается квантование как один из наиболее востребованных способов оптимизации нейронных сетей на этапе развертывания. Основное внимание уделено тому, как переход от представлений FP32 к INT8, INT4 и другим низкобитным форматам влияет на объем памяти, скорость инференса и устойчивость качества модели. Кратко описаны теоретические основы аффинного квантования, различия между пост-тренировочным квантованием и обучением с учетом квантования, а также особенности low-bit подходов для больших языковых моделей. Установлено, что практический эффект квантования зависит не только от алгоритма, но и от поддержки со стороны аппаратной платформы и фреймворка.

Подробнее

Как цитировать
КУПЦОВ, А.Р.. КВАНТОВАНИЕ КАК МЕТОД ОПТИМИЗАЦИИ НЕЙРОННЫХ СЕТЕЙ. Международный журнал информационных технологий и энергоэффективности, [S.l.], v. 11, n. 4(66), p. 195-200, апр. 2026. ISSN 2500-1752. Доступно на: <http://openaccessscience.ru/index.php/ijcse/article/view/1280>. Дата доступа: 04 июня 2026
Раздел
Информационные технологии