分词算法 发表于 2023-06-22 | 更新于: 2023-06-22 | 分类于 AI | 阅读次数: | 浏览量 列一下。word-based: 使用空格,标点进行分割(英文就是空格,中文就是单个汉字)character-based: 使用abcde这样的字符(大小写字母,标点256个)来分割Subword-based:介于单个词和字母之间,使用算法寻找单元组合出现概率最大的作为一个分词结果(英文的基本单位组合就是字母,中文就是一个汉字)BPE分词BPE分词的改进WordPieceByte-level BPESentencePieceUnigram-------------本文结束感谢您的阅读-------------