[发明专利]一种面向地质智能问答的数据自动化序列标注识别方法有效
申请号: | 202010804098.1 | 申请日: | 2020-08-11 |
公开(公告)号: | CN111930909B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 贺金龙;付立军;黄徐胜;唐珂珂;朱月琴;刘晓娟 | 申请(专利权)人: | 付立军 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/335;G06F16/35;G06F40/117;G06F40/169;G06F40/30 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 地质 智能 问答 数据 自动化 序列 标注 识别 方法 | ||
1.一种面向地质智能问答的数据自动化序列标注识别方法,其特征在于:包括以下步骤:
步骤1:对金矿文献图谱数据进行整理,得到领域实体分类描述标签,作为领域知识实体识别的标注标签;
步骤2:对文献数据内容进行机器自动清洗,包括过滤英文字母、标点符号及无意义符号,得到有效中文文本内容;
步骤3:对清洗后的文本内容以单独的txt文件存放,得到批量文献数据的存放根路径;
步骤4:针对步骤3中得到的文献数据使用BIOES标签进行字符数据的机器自动化标注,这里结合整理的图谱实体分类描述数据进行标签组合,得到由B、I、O、E、S开头的金矿数据标注结果;
步骤5:采用深度学习中双向LSTM的模型与条件随机场CRF结合方式对步骤4金矿数据标注结果字符序列数据进行输入训练,通过调整LSTM模型中记忆细胞的结构及整体参数,加入整理的金矿图谱实体数据,得到金矿文献数据的训练结果;
步骤6:将文献数据的训练结果应用于平台用户询问语句识别,得到用户询问语句的标注结果;
步骤7:将用户询问语句的内容减去模型对于用户语句中金矿数据的识别内容,得到的剩余语句输入到卷积神经网络进行属性分类,得到用户询问语句的分类;
步骤8:将金矿数据识别结果与用户询问语句的分类通过Map集合进行组合封装,得到用户询问语句中金矿数据的标注与询问语句语义属性的结果;
步骤9:将步骤8中的金矿数据的标注与询问语句语义属性的结果映射到金矿知识图谱,得到用户询问知识结果,进而实现智能问答;
用户询问语句识别包括以下步骤:
将用户询问语句通过http接口输入到平台中,首先得到用户语句的字索引;
将用户语句字索引通过步骤5的LSTM与CRF的组合模型训练结果进行进一步调用输出,得到由字符组合的词,即用户询问语句的标注结果;
用户语句分类,将输入到序列识别模型的其他未识别部分输入到卷积神经网络对其进行属性分类,这里通过标注数据的机器训练自动实现,得到用户询问语句分类。
2.根据权利要求1所述的一种面向地质智能问答的数据自动化序列标注识别方法,其特征在于,对金矿文献图谱数据进行整理包括:
针对金矿文献数据通过地质百科大辞典、搜狗语料的人工整理搜集,并通过金矿领域知识构建分类描述标签,分类描述标签包括地质实体GENT、地质作用GEFF、地质化学GEHE、地质方法GMET。
3.根据权利要求1所述的一种面向地质智能问答的数据自动化序列标注识别方法,其特征在于,步骤4中标签组合包括步骤:
首先对BIOES标签进行字符划分,得到单字符字母B、I、O、E、S;
将单字符字母与步骤3中的txt文件内容进行自动化标注,得到由B、I、O、E、S开头的金矿数据标注结果。
4.根据权利要求3所述的一种面向地质智能问答的数据自动化序列标注识别方法,其特征在于,进行自动化标注在金矿数据标注的基础上,首先使用金矿数据基于Word2vec训练字符向量,然后使用深度学习中的双向神经网络LSTM与条件随机场CRF结合方式对金矿数据标注结果进行训练学习,通过调整模型参数得到金矿数据的训练结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于付立军,未经付立军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010804098.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有身份识别功能的手机存储柜
- 下一篇:一种移动终端自动充电装置