type
status
password
date
slug
summary
category
URL
tags
icon
显存占用优化
显存占用情况
- 模型权重:4Bytes*模型参数量
- 优化器状态:8Bytes*模型参数量(AdamW优化器)
- 梯度:4Bytes*模型参数量
- 前向激活值:取决于序列长度、隐层维度、Batch 大小等多个因素
优化内存
优化策略 | 优化对象 | 显存占用 | 训练时间 |
Baseline(BS 32, MaxLength 128) | ㅤ | 15.2G | 64s |
+Gradient AccumuIation(S1, GA 32) | 前向激活值 | 7.4G | 259s |
+Gradient Checkpoints(S1, GA 32) | 前向激活值 | 7.2G | 422s |
+Adafactor Optiomizer(S1, GA 32) | 优化器状态 | 5G | 406s |
+FreezeM0deI(S1, GA32) | 前向激活值/梯度前向激活值 | 3.5G | 178s |
+Data Length(S1, GA 32, MaxLength 32) | 前向激活值 | 3.4G | 126s |