一种文学作品出品时期识别方法,包括:获取输入的文学作品,对文学作品进行分词,得到分词词组及其对应的目标出现频率;根据所述目标出现频率计算所述输入的文学作品的信息熵;获取时段样本作品及其信息熵;获取与所述输入的文学作品的信息熵差值最小的时段样本作品,并获取所述时段样本作品对应的时间区间。此外,还提供了一种文学作品出品时期识别装置。上述文学作品出品时期识别方法和装置能够提高识别的准确度。
一种文学作品出品时期识别方法,包括:获取输入的文学作品,对所述输入的文学作品进行分词,得到分词词组及其对应的目标出现频率;根据所述目标出现频率计算所述输入的文学作品的信息熵;获取时段样本作品及其信息熵;通过比较所述输入的文学作品的信息熵和所述时段样本作品的信息熵识别所述输入的文学作品出品的时间区间。
由于早期对文学作品的出品年限缺乏历史记载,在文学作品出品多年后,无法获 知文学作品的确切出品年代。
传统技术中,通常采用人工的方式,由对某作者的文学风格较熟悉的学者或专家 根据文学作品的文字风格对其进行鉴定,鉴定结果通常依赖人的文学鉴定经验,因此准确 度不高。
基于此,有必要提供一种能提高准确度的文学作品出品时期识别方法。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
上述文学作品出品时期识别方法及装置,先对输入的文学作品进行了分词,然后 根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵,并通过比较信息熵得 到最接近的时段样本作品,从而得到相应的时间区间。由于相同作者相同时期的文学作品 通常文风相同,用词习惯通常类似,因此根据香农的信息论原理,其信息熵也较相似,因此, 准确度较高。
技术合作
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保 护范围。因此,本发明专利的保护范围应以所附权利要求为准。