是一个基于php的中文分词库,很好用的一个中文分词词库,不需要任何的插件支持,直接引入就可以使用。
2023-12-06 09:04:01 10.16MB 中文分词
1
delphi+Python结巴分词例子源代码,用到组件PythonForDelphi
2023-11-21 06:03:54 13.59MB delphi
1
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07 39KB jieba 中文分词
1
PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词
2023-11-12 09:02:31 2.71MB PHPAnalysis 分词系统
1
本文介绍了现在分词的语法和用法,并提供了一些练习题,包括单句语法填空。练习题中涉及到了现在分词作主语、宾语、表语、定语和状语的情况,以及现在分词和动词不定式的区别。通过练习,读者可以更好地掌握现在分词的用法和运用。
2023-10-08 10:29:58 9KB
1
NLPIR.user 下载
2023-10-04 17:17:26 3KB 许可证过期 分词
1
最近跑代码在数据处理分词部分总是需要停用词表,一样一样找太麻烦了,干脆整个合集,方便后续使用。
2023-09-23 21:10:09 49KB 停用词 中文自然语言处理 分词
1
1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 UnknownWordsThreshold,(不推荐自动插入,推荐手工插入) 8、 增加定期保存字典和统计结果功能 需设置 AutoSaveInterval 9、 增加KTDictSeg.xml配置文件来配置分词参数 10、增加对Lucene.net 的支持,提供 KTDictSegAnalyzer 分析器给Lucene.net 11、增加字典管理功能,可以添加删除修改字典 12、字典管理中提供从未登录词中批量插入字典功能,可帮助使用者手工选择合适的未登录词插入字典(推荐) 13、提供一个新闻搜索的简单例子,采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer 14、将所有ArrayList 改为List<> 其中 src_V1.3.01是源码 rel_V1.3.01 包含所有的可执行文件,配置文件;Data目录下是词库,停用词表,以及我目前统计的人名前后缀词表;News 目录下是Lucene.net为 新闻搜索的例子建的索引。 News.zip 是上图中批量插入时要输入的XML文件,它包含3万条从新浪和中华网抓下来的过时的新闻,大约2000万字左右,可供各位朋友学习使用。 注意:如果要导入news.xml,这个文件必须要和Demo.KTDictSegAnalyzer.exe放在同一个目录下!
2023-09-11 06:09:00 3.04MB C# 盘古分词 KTDictSeg 张勇涛
1
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库
2023-09-09 16:21:03 52.77MB NLP
1
360万中文热门词库分词
2023-05-23 14:43:23 28.02MB 中文 词库 分词
1