乐知付加密服务平台

如果你有资源, 平台可以帮你实现内容变现, 无需搭建知识付费服务平台。

点击访问官方网站 https://lezhifu.cc

扫码关注公众号 乐知付加密服务平台-微信公众号
分词算法 | chenzuoli's blog

分词算法

列一下。

  • word-based: 使用空格,标点进行分割(英文就是空格,中文就是单个汉字)
  • character-based: 使用abcde这样的字符(大小写字母,标点256个)来分割
  • Subword-based:介于单个词和字母之间,使用算法寻找单元组合出现概率最大的作为一个分词结果(英文的基本单位组合就是字母,中文就是一个汉字)
    • BPE分词
    • BPE分词的改进
      • WordPiece
      • Byte-level BPE
      • SentencePiece
      • Unigram
-------------本文结束感谢您的阅读-------------