搜索【chinese-word-segmentation】的结果

NLPCC-WordSeg-Weibo:NLPCC 2016 微博分词评测项目

NLPCC2016-WordSeg-微博 NLPCC 2016微博分词评估项目 ##任务说明单词是自然语言理解的基本单元。但是，中文句子由连续的汉字组成，没有自然的分隔符。因此，中文分词已成为中文自然语言处理的首要任务，它可以识别句子中单词的顺序并标记单词之间的边界。与流行的二手新闻数据集不同，我们使用了来自新浪微博的更多非正式文章。培训和测试数据包含来自各个主题的微博，例如金融，体育，娱乐等。每个参与者都可以提交三个运行：封闭式运行，半开放式运行和开放式运行。在封闭的轨道上，参与者只能使用在提供的培训数据中找到的信息。排除了诸如从外部获得的字数，部分语音信息或姓名列表之类的信息。在半公开赛道中，除了提供的训练数据之外，参与者还可以使用从提供的背景数据中提取的信息。排除了诸如从外部获得的字数，部分语音信息或姓名列表之类的信息。在公开赛道上，参与者可以使用应该

2023-05-19 16:45:49 18.77MB natural-language-processing chinese-word-segmentation nlpcc-2016 Python

WordSeg:BiLSTM \ BERT \ Roberta（+ CRF）模型的PyTorch实现，用于中文分词-源码

中文分词本项目为中文分词任务baseline的代码实现，模型包括 BiLSTM-CRF 基于BERT的+ X（softmax / CRF / BiLSTM + CRF）罗伯塔+ X（softmax / CRF / BiLSTM + CRF）本项目是的项目。数据集数据集第二届中文分词任务中的北京大学数据集。模型本项目实现了中文分词任务的baseline模型，对应路径分别为： BiLSTM-CRF BERT-Softmax BERT-CRF BERT-LSTM-CRF 其中，根据使用的预训练模型的不同，BERT-base-X模型可转换为Roberta-X模型。要求此仓库已在Python 3.6+和PyTorch 1.5.1上进行了测试。主要要求是： tqdm scikit学习火炬> = 1.5.1 :hugging_face: 变压器== 2.2.2 要解决环境问题，请运行：

2021-05-07 19:47:06 15KB pytorch bert chinese-word-segmentation bilstm-crf

个人信息

热门下载

最新下载

其他资源