КВАНТОВАНИЕ КАК МЕТОД ОПТИМИЗАЦИИ НЕЙРОННЫХ СЕТЕЙ
Главная статья
Аннотация
В статье рассматривается квантование как один из наиболее востребованных способов оптимизации нейронных сетей на этапе развертывания. Основное внимание уделено тому, как переход от представлений FP32 к INT8, INT4 и другим низкобитным форматам влияет на объем памяти, скорость инференса и устойчивость качества модели. Кратко описаны теоретические основы аффинного квантования, различия между пост-тренировочным квантованием и обучением с учетом квантования, а также особенности low-bit подходов для больших языковых моделей. Установлено, что практический эффект квантования зависит не только от алгоритма, но и от поддержки со стороны аппаратной платформы и фреймворка.
Подробнее

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.
Неисключительные права на статью передаются журналу в полном соответствии с Лицензией Creative Commons By-NC-SA 4.0 (Международная)