🏫huggingface的Trainer
2024-6-5
| 2024-6-5
0  |  阅读时长 0 分钟
type
status
password
date
slug
summary
category
URL
tags
icon
 

显存占用优化

显存占用情况

  • 模型权重:4Bytes*模型参数量
  • 优化器状态:8Bytes*模型参数量(AdamW优化器)
  • 梯度:4Bytes*模型参数量
  • 前向激活值:取决于序列长度、隐层维度、Batch 大小等多个因素

优化内存

notion image
优化策略
优化对象
显存占用
训练时间
Baseline(BS 32, MaxLength 128)
15.2G
64s
+Gradient AccumuIation(S1, GA 32)
前向激活值
7.4G
259s
+Gradient Checkpoints(S1, GA 32)
前向激活值
7.2G
422s
+Adafactor Optiomizer(S1, GA 32)
优化器状态
5G
406s
+FreezeM0deI(S1, GA32)
前向激活值/梯度前向激活值
3.5G
178s
+Data Length(S1, GA 32, MaxLength 32)
前向激活值
3.4G
126s
  • huggingface
  • llm微调实战huggingface的Evaluate
    Loading...
    目录