【Python学习笔记】结巴分词

所用版本:Python 3.6,jieba 0.42.1

分词模式

  1. 精确模式:以尽可能正确的方式切分句子,适合做文本分析。
  2. 全模式:扫描出句子中所有可能的词语,速度快,无法消歧义。
  3. 搜索引擎模式:在精确模式的基础上,对长词再次切分。

修改词典

  • 动态增删词语:add_word(),del_word(),修改会被保存,直到Python被关闭。
  • 批量增加:将需要添加的词语写入一个文件(一行一个,UTF-8),然后用load_userdict(),修改的有效期同上。

停用词

  • 停用词表示基本不携带有效信息的词。
  • 提取非停用词:jieba.analyse.extract_tags(s,num),参数s是文本,num是需要提取的词的数量。
  • 增加停用词:jieba.analyse.set_stop_words(),与修改词典方法类似。

词性标注

  • 词性标注采用和ICTCLAS兼容的标记法。
  • 用jieba.posseg.lcut()得到分词结果及词性

代码

Subscribe
提醒
guest
0 评论
Inline Feedbacks
View all comments