Civilization Museum
The Dark Forest
目录
0%
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
背景领域、研究问题
NLP任务
主流模型架构
GLM的动机
自回归空白填充
空白填充原理
MASK分类
token设计
模型结构
2d位置编码
Attention mask matrix
GLMBlock结构
损失函数
预训练
数据集
数据处理
训练参数
微调训练
GLM-130B: AN OPEN BILINGUAL PRE-TRAINEDM
背景与动机
网络结构
位置编码(RoPE原理)
GLMBlock
层标准化
GLMBlock中的FFN
训练策略
训练目标与数据集
数据预处理
超参数配置
训练稳定性
解决方法
并行计算
参考
ChatGLM3-6B
简介
工具调用
对话模式
模型结构
GLM-4V-9B
agentlm-70b
参考
0%