搜索【分词】的结果

NLPCC-WordSeg-Weibo:NLPCC 2016 微博分词评测项目

NLPCC2016-WordSeg-微博 NLPCC 2016微博分词评估项目 ##任务说明单词是自然语言理解的基本单元。但是，中文句子由连续的汉字组成，没有自然的分隔符。因此，中文分词已成为中文自然语言处理的首要任务，它可以识别句子中单词的顺序并标记单词之间的边界。与流行的二手新闻数据集不同，我们使用了来自新浪微博的更多非正式文章。培训和测试数据包含来自各个主题的微博，例如金融，体育，娱乐等。每个参与者都可以提交三个运行：封闭式运行，半开放式运行和开放式运行。在封闭的轨道上，参与者只能使用在提供的培训数据中找到的信息。排除了诸如从外部获得的字数，部分语音信息或姓名列表之类的信息。在半公开赛道中，除了提供的训练数据之外，参与者还可以使用从提供的背景数据中提取的信息。排除了诸如从外部获得的字数，部分语音信息或姓名列表之类的信息。在公开赛道上，参与者可以使用应该

2023-05-19 16:45:49 18.77MB natural-language-processing chinese-word-segmentation nlpcc-2016 Python

1

icwb2-data 中文分词数据集-数据集

icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集，用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集，PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip

2023-05-17 22:04:02 50.22MB 数据集

1

中文分词词库，中文词库20万（19万6千）

中文分词词库，中文词库20万（19万6千）,自己整理的，用于做中文分词，根据一段话，或者一篇文章进行拆词都可以使用的上。

2023-05-11 22:56:04 2.22MB 中文词库 中文分词 分词词库

1

2022年全国数据分析大赛B题目-餐饮评价情感倾向

2022年全国数据分析大赛B题目全部代码，餐饮评价情感倾向包含分词，建模等操作

2023-05-09 23:45:57 54.6MB 情感分析 数学建模 分词 停用词

1

停用词stop.txt

结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,整理的停用词表

2023-04-16 11:59:17 18KB 停用词 分词

1

word分词器java源码-RAKE-Java:快速自动关键字提取框架(RAKE)的Java实现

word分词器java源码RAKE-Java 快速自动关键字提取 (RAKE) 算法的 Java 8 实现，如：Rose, S.、Engel, D.、Cramer, N. 和 Cowley, W. (2010) 中所述。从单个文档中自动提取关键字。在 MW Berry & J. Kogan（编辑），文本挖掘：理论和应用：John Wiley & Sons。实现是基于 python 的（但是做了一些更改）源代码在 GPL V3License 下发布。将此存储库添加到您的 POM.XML 是否要与 maven 一起使用 < repository > < id >galan-maven-repo</ id > < name >galan-maven-repo-releases</ name > < url >http://galan.ehu.es/artifactory/ext-release-local</ url > </ repository > 此实现需要使用 POS 标记器才能工作。例如，伊利诺伊州词性标注器可用于英语。对于西班牙语或其他语言：自由灵 --> 或斯坦福

2023-04-08 22:38:41 25KB 系统开源

1

中文分词加自动提取关键字

中文分词词频统计罗列出要自动提取的关键词

2023-04-04 13:08:15 2.59MB 中文分词 自动提取关键词 词频统计

1

CRF++ 训练中文分词

CRF++ 训练中文分词,文件后缀有3标示3列的语料，文件后缀有2，表示2列的语料训练

2023-03-29 20:29:09 2.61MB CRF++ 分词

1

maven 构建好的 IK 分词器，可直接使用

用于 Elasticsearch 2.2 的中文分词器，已构建好，直接放入 Elasticsearch 的plugins 目录下使用

2023-03-11 02:27:33 3.97MB ik elastic search

1

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

主要是读取文本，然后进行分词、词干提取、去停用词、计算词频，有界面，很实用

2023-03-10 13:37:17 70KB 词频计算

1

个人信息

热门下载

最新下载

其他资源