中文分词词库,中文词库20万(19万6千),自己整理的,用于做中文分词,根据一段话,或者一篇文章进行拆词都可以使用的上。
2023-05-11 22:56:04 2.22MB 中文词库 中文分词 分词词库
1
中文分词 词频统计 罗列出要自动提取的关键词
2023-04-04 13:08:15 2.59MB 中文分词 自动提取关键词 词频统计
1
CRF++ 训练中文分词,文件后缀有3标示3列的语料,文件后缀有2,表示2列的语料训练
2023-03-29 20:29:09 2.61MB CRF++ 分词
1
中文人名语料库(Chinese-Names-Corpus) 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。 萌名手机网页测试版: ,欢迎体验。 不定期更新。只删词,不加词。 可用于中文分词、人名识别。 请勿将本库打包上传其他网站挣积分,已上传的请配合删除,谢谢! 中文常见人名(Chinese_Names_Corpus) 数据大小:120万。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗,但仍存有少量badcase。 新增人名生成器。 中文古代人名(Ancient_Names_Corpus) 数据大小:25万。 语料来源:多个人名词典汇总。 数据清洗:已清洗。 中文姓氏(Chinese_Family_Name) 数据大小:1千。 语料来源:从亿级人名语料中提取。 数据清洗:已清洗。 中文称呼(Chinese_Relationship) 数据大小:5千,称呼词根
2023-02-23 16:26:55 17.62MB corpus names dataset dict
1
Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27 113KB jieba NLP 爬虫 kmeans
1
Python Jieba中文分词工具实现分词功能
2023-02-15 18:34:44 53.31MB python
1
solr5.5.4对应的中文分词器下载,如果solr为tomcat方式部署,下载后解压该压缩文件,将下面的jar文件复制到solr项目的lib目录下,将里面的配置其他配置文件复制到classes目录下即可。
2023-02-14 23:09:18 13.84MB solr ikanalyzer
1
lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词。
2023-02-13 09:23:59 16.39MB lucene分词ik
1
记录超大容量辞海词典词库 可以自行导入数据库后用于分词 辞海词典。 Access数据库。 含380578条数据。 含各类词语解释、注音和例句。
2023-01-27 15:52:56 14.21MB 辞海词典 分词数据库
1
利用最短路径算法进行分词
2023-01-17 09:51:26 763KB 最短路径分词算法
1