ctb8.0(Chinese Treebank 8.0)数据集 介绍:Chinese Treebank 8.0 包含大约 150 万字广播的注释和解析文本,来自中文新闻专线、政府文件、杂志文章、各种广播新闻 对话节目、网络新闻组和博客。 中国树库项目于 1998 年在宾夕法尼亚大学开始,在科罗拉多大学继续,然后转移到布兰代斯大学。该项目的目标是提供一个大型的、词性标记的和完全括号括起来的中文语料库。第一个交付,中国树库 1.0,包含来自新华社新闻专线的 100,000 个句法注释词。它后来被更正并于 2001 年作为中国树库 2.0 (LDC2001T11)发布,由大约 100,000 字组成。2004年, LDC发布了中文树库4.0(LDC2004T05),更新版本约40万字。一年后,LDC发布了50万字的中文树库5.0(LDC2005T01)。2007年发布的中文树库6.0(LDC2007T36),包含78万字。Chinese Treebank 7.0 (LDC2010T08)于 2010 年发布,增加了新的带注释的新闻专线数据、广播材料和网络文本,总字数约为 100 万字。
2022-05-10 20:06:17 3.98MB 学习 文档资料
Chinese Treebank 8.0由来自中文新闻专线,政府文件,杂志文章,各种广播新闻和广播对话节目,网络新闻组和网络日志的大约150万字注释和解析文本组成。
2019-12-21 20:30:44 29.22MB CTB8.0 CTB Chinese Treebank
1