2016年上传过搜狗12个分类词库,两年没更新了,今天用程序重新跑了下数据获取到2018最新的数据,导出为txt格式,方便大家做分词用,我不生成词,我只是词的搬运工,版权归搜狗公司所有。
2019-12-21 18:49:26 37.08MB 搜狗 词库 分词 2018
1
中文分词用统计词频词典,一词一行,txt文本保存
2019-12-21 18:49:03 2.46MB 中文 分词 词频 词典
1
结巴分词,很不错的分词工具,python写的,亲身试用,不管英文还是中文分得很准!
2019-12-21 18:49:02 6.09MB 中文 英文 分词
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2019-12-21 18:47:48 70KB 词频计算
1
solr6.0需要的IK分词资料,其中包括IK分词的jar和配置文件还有搜狗词库
2016-06-01 00:00:00 16.16MB solr6.0 IK分词 搜狗词库
1
网上流传的人民日报1998年1月份的语料库,北京大学开发;处理成了crf分词训练语料的格式;
2015-12-03 00:00:00 2.32MB 语料库 中文分词 人民日报 crf
1
用与crf分词,标注训练语料。 nlpcc2015任务一的数据
2015-09-16 00:00:00 10.17MB 分词标注语料
1
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
2015-08-19 00:00:00 5.58MB NLPIR 分词 过滤停用词
1
基于CRF++的中文分词,包含了数据、CRF++工具、java源码,可以一键执行
2015-07-06 00:00:00 5.25MB CRF 中文分词
1
基于内容的文本分类系统 (这是一个完整的分类系统,用java写的,分词是中科院64位的分词) 详情:http://blog.csdn.net/yinchuandong2/article/details/17717449 使用libsvm 进行分类 使用中科院的分词器ICTLAS对训练集进行分词
2014-01-01 00:00:00 40.58MB libsvm svm 文本分类 分词
1