成果介绍
本项目搭建了一套自动化解析半结构化数据的工具,克服了传统方法速度慢、适用性窄、容错率低的缺点,能快速地自动化将电子图书转换为数字化图书,节省数字化图书建设成本,有效缩短过渡周期,为电子图书向数字图书普及奠定了基础。本项目亦可作为数据挖掘和人工智能的辅助工具,为半结构化数据分析提供早期支持。
成果亮点
研究了半结构化数据的详细结构,在遵循JSON语法规范的前提下,首创了电子图书的数据标记规范,适用于任何规范的图书出版物。打破了传统XML思维定势,提出了一种新的半结构化数据的描述方法。因此该平台适用性更广,提取的数据更为纯净。
团队介绍
团队成员:徐磊
成果资料