🚈 huggingface中的Tokenizer详解

tokenizer首先将给定的文本拆分为通常称为tokens的单词(或单词的一部分,标点符号等,在中文里可能就是词或字,根据模型的不同拆分算法也不同)。然后tokenizer能够将tokens转换为数字,以便能够构建张量并输入到模型中。