[发明专利]一种文本信息自动提取方法有效
申请号: | 201810975598.4 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109145260B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 黄海友;袁兆麟;马博渊;胡金龙;魏晓燕;刘婷 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F40/106 | 分类号: | G06F40/106;G06F40/211;G06F16/31 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 自动 提取 方法 | ||
本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
技术领域
本发明涉及自然语言处理领域和计算机辅助系统领域,特别是指一种文本信息自动提取方法。
背景技术
在现代科学研究活动中,阅读科技文献是研究人员获取专业知识,收集相关数据,了解领域热点和发展方向的重要方式之一。随着我国基础科学研究的不断进步,科学研究成果及其相应的科技文献呈井喷式增长,同时由于数据挖掘技术的发展,对海量数据分析的需求空前以往。因此采用自然语言处理技术,对科技论文的语句信息进行自动抽取,成为获取科研信息的一个重要途径。
目前国内外已研发了多种分词及关键词提取技术,用于提取文本中的主题词或句子,但提取结果中缺乏适用于领域研究的相应标签和语义信息,并不满足文本信息提取的科研要求。
刘胜宇等人针对这个问题,提出一种基于依存结构卷积神经网络的药物相互作用关系抽取方法[刘胜宇.生物医学文本中药物信息抽取方法研究[D].哈尔滨工业大学.2016],实验表明,该方法可进一步提升药物相互作用关系抽取的性能。但是刘胜宇等人提出的方法基于离线学习的设计理念,在训练过程中使用全部数据进行学习,学习完成后才将训练好的文本信息自动提取模型投入实际使用,该模型训练所需的训练数据需由人工手工一次性标注,过程耗时较长,导致该方法的适用性不强。
发明内容
本发明要解决的技术问题是提供一种文本信息自动提取方法,以解决现有技术所存在的基于离线的文本信息自动提取模型所需的训练数据需由人工手工一次性标注,适用性不强的问题。
为解决上述技术问题,本发明实施例提供一种文本信息自动提取方法,包括:
获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;
对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;
捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签,其中,将用户选择的该文本片段所在句中具有独立语法成分的文本序列作为标记内容;
基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,所述文本自动提取模型,用于实现标记内容和标签的自动提取。
进一步地,所述获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式包括:
获取用户上传的文本文件;
对获取的文本文件进行格式转换,使之转换为能用计算机逐字符分析的文档格式;
其中,所述能用计算机逐字符分析的文档格式包括:超文本标记语言、TXT文本文档或WORD文档。
进一步地,所述对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元包括:
将格式转换后形成的文档中的碎片化文本单元通过模式匹配技术整合成便于使用自然语言处理技术解析的多层次文本单元;
其中,所述多层次文本单元包括:词、句或段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810975598.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置