Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等! PS:压缩包中含有jcseg-core-1.9.7.jar、jcseg-analyzer-1.9.7.jar、jcseg-1.9.7-javadoc.jar、Jcseg-开发帮助文档.pdf。
2024-03-30 13:08:52 804KB jcseg 中文分词
1
sphinx中文分词 xdict_1.1.tar.gz
2024-03-01 10:26:39 1.78MB xdict
1
一个基于又又C++的中文分词原代码,写得比较复杂,里面一些注释,不过比较少,总的看还是比较简单的,可以供需要的人参考一下!(注:版权归原作者所有)
2024-02-22 20:18:19 90KB 代码
1
庖丁解牛中文分词,速度不错,词库也很全面,非常不错!
2024-01-15 14:26:38 5.83MB 中文分词 lucene
1
自己做的一个中文分词,可以用在MONO下。根据IKAnalyzer Java版本移植到C#。采用了Powercollection类库。
2023-12-10 05:01:43 1.92MB 中文分词 LUCENE
1
是一个基于php的中文分词库,很好用的一个中文分词词库,不需要任何的插件支持,直接引入就可以使用。
2023-12-06 09:04:01 10.16MB 中文分词
1
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07 39KB jieba 中文分词
1
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库
2023-09-09 16:21:03 52.77MB NLP
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
2023-05-17 22:04:02 50.22MB 数据集
1
中文分词词库,中文词库20万(19万6千),自己整理的,用于做中文分词,根据一段话,或者一篇文章进行拆词都可以使用的上。
2023-05-11 22:56:04 2.22MB 中文词库 中文分词 分词词库
1