CCKS2019-任务5 引言 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛的学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的的一大挑战。此处利用Adobe公司开发的Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息转移。引用现有的开源PDF解析方法,Acrobat导出的中间文件保存了更完整在CCKS 2019年公众公司公告评论中,我们的方法获得总成绩第三名。在本次评估中,我们将公告文件(PDF)格式)转换成XML。对于任务一,我们通过查找表标签,获取PDF中所有的表格;然后根据表格的一部分,确定其
2021-12-28 14:36:08 54.12MB flask web-api event-extraction ner
1
基于上市公司公告信息的选股因子设计金融分析.docx
2021-10-20 10:02:27 109KB
Python爬取东方财富公司公告,使用Selenium,等待Ajax加载和实现自动翻页,
1