把语料从数据库提取出来以后就偠进行分词啦我是在linux环境下做的,先把jieba停用词安装好然后找到内容是build jieba停用词 PKG-INFO setup.py test的那个文件夹(我这边是jieba停用词-0.38),把自己的自定义词典(选用目的是为了分出原始词库中没有的词以及优先分出一些词),停用词词典(选用)需要分词的语料文件,调用jieba停用词的python程序都放到这个文件夹里就可以用啦。至于词典要什么样的格式在网上一查就可以了。
之前有看到别的例子用自定义词典替换掉jieba停用词本身詞典但是我试了一下好像效果不行,假设原始词典中有’云‘’计算‘而没有’云计算‘,我想要分出’云计算‘这个词加载自定義词典可以成功,但替换原始词典就不一定成功了(当然我说的也不一定对)
还有停用词词典,我之前是把停用词在程序里存入一个列表然后分每个词时都循环一遍列表,这样特别浪费时间后来把停用词做成字典就很快了。