[发明专利]一种基于自然语言和知识图谱工程信息智能搜索方法有效
| 申请号: | 202010540196.9 | 申请日: | 2020-06-13 | 
| 公开(公告)号: | CN111708899B | 公开(公告)日: | 2023-10-03 | 
| 发明(设计)人: | 龙振佳;陈龙 | 申请(专利权)人: | 广州华建工智慧科技有限公司 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/28;G06F40/295;G06F16/332;G06F40/30 | 
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李盛洪 | 
| 地址: | 510555 广东省广州市广州*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 自然语言 知识 图谱 工程 信息 智能 搜索 方法 | ||
本发明公开了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、构建基于建筑领域的知识图谱;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;S5、施工人员使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从构建好的知识图谱中快速地查询对应的知识,从而提高现场的施工效率。
技术领域
本发明涉及建筑工程领域,特别是涉及一种基于自然语言和知识图谱工程信息智能搜索方法。
背景技术
现有技术中当工程量进行统计之后,如何快速从大量的工程量数据中快速准确查询到指定的构件的工程量信息是影响工程效率的重要问题。建筑施工所涉及的人员与专业众多,算量信息查询的请求复杂多变。按照现有方式对工程量信息进行查询时,需要先到图纸或三维模型中找到对应的构件,然后到工程量信息表格中找到与之对应的工程量信息,这个过程较为繁琐且效率低下。
发明内容
本发明目的在于克服现有技术中的上述缺陷,提供了一种基于自然语言和知识图谱工程信息智能搜索方法,其让施工人员能够使用自然语言从构建好的知识图谱中快速地寻找到相应的工程信息,提高现场的施工效率。
为实现上述目的,本发明提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
优选的,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;以上的知识和数据信息均存入图数据库。
优选的,所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典。
优选的,所述步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型。
优选的,所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
与现有技术相比,本发明的有益效果在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华建工智慧科技有限公司,未经广州华建工智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010540196.9/2.html,转载请声明来源钻瓜专利网。





