采取基于N-最短路径方法的中文词语粗分模型对中文文本进行粗切分,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别
2022-09-15 18:24:19 345KB 中文分词 中国人名 N最短路径
1
基于互信息改进算法的新词发现对中文分词系统改进
2022-05-02 14:06:31 16KB 文档资料
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,这是该软件的2015版本。
2022-04-08 14:16:41 49.06MB ICTCLAS2015
1
文件包介绍 ICTCLAS3.0\PACKET │ Configure.xml:配置管理文件 │ ICTCLAS30_Manual.htm:使用手册 │ ReadMe.txt │ ├─API │ ├─C# :C#环境下的API │ │ Example.cs: 示例程序 │ │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ ICTCLAS30.lib: ICTCLAS3.0 Library │ │ ICTCLAS_C#_Demo.exe:示例程序生成的可执行文件 │ ├─JNI :Java下采用的API (Javac TestICTCLAS30.java编译;Java TestICTCLAS30) │ │ ICTCLAS30.dll: ICTCLAS3.0动态链接库 │ │ TestICTCLAS30.java: 示例程序 │ │ TestICTCLAS30.class: Java编译之后产生的class文件 │ │ Test.txt: 测试源文件 │ │ Test_result.txt:测试源文件生成的结果文件 │ ├─Linux_C :Linux下采用C的API │ │ Example.cpp: 示例程序 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ libICTCLAS30.a: ICTCLAS3.0 Library │ │ Makefile:示例程序编译用的Makefile文件 │ │ test:示例程序生成的可执行文件 │ ├─Linux_JNI :Linux下Java采用的API │ │ TestICTCLAS30.java: 示例程序 │ │ libICTCLAS30.so: ICTCLAS3.0 Library │ │ │ └─Win_C:Windows下采用C的API │ Example.cpp: 示例程序 │ Example.exe:示例程序生成的可执行文件 │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ ICTCLAS30.h: ICTCLAS3.0头文件 │ ICTCLAS30.lib: ICTCLAS3.0 Library │ ├─Data:ICTCLAS3.0的数据文件 │ BiWord.big │ charset.type │ CoreDict.pdat │ CoreDict.pos │ CoreDict.unig │ ICTCLAS.map │ ICTCLAS30.ctx │ ICTPOS.map │ nr.ctx │ nr.fsa │ nr.role │ ├─docs:文档集合,用户手册需要 │ ICTPOS3.0.doc:ICTCLAS采用的词性标注集的含义解释 │ ├─gif:图片,用户手册需要 │ └─Licenses:授权相关的文件夹 LicenseClient.exe:Windows环境下的用户注册程序 licenseClient_Linux:Linux环境下的用户注册程序 user.lic 用户License文件,表明用户身份,必不可少,不得更改。
2021-12-20 19:43:51 3.71MB ICTCLAS 中科院
1
SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模块,可在PHP中快速而方便地使用分词功能。 分词算法上没有太多创新,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试准确率在90 %〜95%之间,基本上能满足一些小型搜索引擎,关键字提取等场合用法。首次原型形版本发布于2005年底。 SC
2021-03-11 19:07:04 7.71MB 系统开源
1
基于C++编写的中文分词程序,内有完整的代码,且有小词库,解压即可运行
2020-01-03 11:19:05 28KB 分词
1
基于字的用感知机实现的中文分词系统。完全训练后对微软的测试集精度可以达到96%多。我上传的版本是完整的代码(训练和分词),大家自己用附带的微软训练数据训练就可以了,只有一个文件。 代码总的来说写的还是很清楚的,方便自己也方便别人阅读。欢迎大家共讨论,xiatian@ict.ac.cn。
2019-12-21 21:11:02 4.92MB python 分词 感知机
1
hmm实现的中文分词系统; 一个简单的宋词生成系统; 包括一个简单网页界面;
1
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
2019-12-21 18:56:33 49.06MB ICTCLAS2015
1