NLPCC2016-WordSeg-微博 NLPCC 2016微博分词评估项目 ##任务说明 单词是自然语言理解的基本单元。 但是,中文句子由连续的汉字组成,没有自然的分隔符。 因此,中文分词已成为中文自然语言处理的首要任务,它可以识别句子中单词的顺序并标记单词之间的边界。 与流行的二手新闻数据集不同,我们使用了来自新浪微博的更多非正式文章。 培训和测试数据包含来自各个主题的微博,例如金融,体育,娱乐等。 每个参与者都可以提交三个运行:封闭式运行,半开放式运行和开放式运行。 在封闭的轨道上,参与者只能使用在提供的培训数据中找到的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在半公开赛道中,除了提供的训练数据之外,参与者还可以使用从提供的背景数据中提取的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在公开赛道上,参与者可以使用应该
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
2023-05-17 22:04:02 50.22MB 数据集
1
中文分词词库,中文词库20万(19万6千),自己整理的,用于做中文分词,根据一段话,或者一篇文章进行拆词都可以使用的上。
2023-05-11 22:56:04 2.22MB 中文词库 中文分词 分词词库
1
2022年全国数据分析大赛B题目全部代码,餐饮评价情感倾向包含分词,建模等操作
2023-05-09 23:45:57 54.6MB 情感分析 数学建模 分词 停用词
1
结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,整理的停用词表
2023-04-16 11:59:17 18KB 停用词 分词
1
word分词器java源码RAKE-Java 快速自动关键字提取 (RAKE) 算法的 Java 8 实现,如:Rose, S.、Engel, D.、Cramer, N. 和 Cowley, W. (2010) 中所述。 从单个文档中自动提取关键字。 在 MW Berry & J. Kogan(编辑),文本挖掘:理论和应用:John Wiley & Sons。 实现是基于 python 的(但是做了一些更改)源代码在 GPL V3License 下发布。 将此存储库添加到您的 POM.XML 是否要与 maven 一起使用 < repository > < id >galan-maven-repo</ id > < name >galan-maven-repo-releases</ name > < url >http://galan.ehu.es/artifactory/ext-release-local</ url > </ repository > 此实现需要使用 POS 标记器才能工作。 例如,伊利诺伊州词性标注器可用于英语。 对于西班牙语或其他语言: 自由灵 --> 或斯坦福
2023-04-08 22:38:41 25KB 系统开源
1
中文分词 词频统计 罗列出要自动提取的关键词
2023-04-04 13:08:15 2.59MB 中文分词 自动提取关键词 词频统计
1
CRF++ 训练中文分词,文件后缀有3标示3列的语料,文件后缀有2,表示2列的语料训练
2023-03-29 20:29:09 2.61MB CRF++ 分词
1
用于 Elasticsearch 2.2 的 中文分词器,已构建好,直接放入 Elasticsearch 的plugins 目录下使用
2023-03-11 02:27:33 3.97MB ik elastic search
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2023-03-10 13:37:17 70KB 词频计算
1