[发明专利]知识库构建方法和装置在审
申请号: | 201611147656.1 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106649661A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 程力;王云;仇瑜;王润生 | 申请(专利权)人: | 税云网络科技服务有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 830011 新疆维吾尔自治区伊犁哈萨克自*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,具体涉及信息表示和存储技术领域,尤其涉及知识库构建方法和装置。
背景技术
知识库是知识工程中重中之重结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
目前,知识库可以通过手工搭建的方式完成,手工搭建需要领域专家借助编辑工具手动完成,开发成本高,周期长,且搭建完成的知识库覆盖的内容有限。
发明内容
本申请的目的在于提出一种知识库构建方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种知识库构建方法,上述方法包括:获取原始文本信息;将上述原始文本信息进行分词处理,得到至少一个分词;基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在一些实施例中,上述原始文本信息包括互联网数据;以及上述获取原始文本信息,包括:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
在一些实施例中,上述预设领域为财税领域;以及上述互联网数据包括以下至少一项:财税领域法律法规、财税领域的案例、财税新闻。
在一些实施例中,上述领域概念词集合中包括的领域概念词通过以下方式设定:对预先设定的、用于提取领域概念词的目标文本进行分词处理,得到上述目标文本的至少一个分词;使用词频-逆向文件频率方法计算上述目标文本的至少一个分词的词频-逆向文件频率值,并根据词频-逆向文件频率值得到至少一个候选词串;对于上述至少一个候选词串中的每个候选词串,执行以下步骤:计算该候选词串所包含词的互信息与该候选词串词频-逆向文件频率值的乘积;确定计算得到的乘积超过预先设定的阈值;将该候选字串作为识别出的领域概念词放入领域概念词集合中。
在一些实施例中,上述领域概念词识别模型通过以下方式训练得到:将上述领域概念词集合中的领域概念词中的字按位置进行标注,得到上述领域概念词集合中的各领域概念词的词位特征信息;将上述领域概念词集合中的各领域概念词的词位特征信息作为条件随机场模型的训练样本,训练得到领域概念词识别模型。
在一些实施例中,上述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词,包括:对于上述至少一个分词中的各个分词,执行以下步骤:将该分词中的字按位置进行标注,得到该分词的词位特征信息;使用上述领域概念词识别模型对该分词的词位特征信息进行识别,从而确定该分词是否为领域概念词。
在一些实施例中,上述基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词,包括:将上述至少一个分词与上述领域概念词集合中的领域概念词进行匹配;根据匹配结果从上述至少一个分词中得到至少一个领域概念词。
第二方面,本申请提供了一种知识库构建装置,上述装置包括:第一获取单元,用于获取原始文本信息;分词单元,用于将上述原始文本信息进行分词处理,得到至少一个分词;第二获取单元,用于基于预先设定的领域概念词集合和/或预先训练得到的领域概念词识别模型从上述至少一个分词中得到至少一个领域概念词;第三获取单元,用于通过预先设定的关系信息格式从上述原始文本信息中获取上述至少一个领域概念词之间的关系信息,其中,关系信息用于描述领域概念词之间的关系;编码单元,用于使用本体描述语言对上述至少一个领域概念词以及上述至少一个领域概念词之间的关系信息进行编码,得到本体知识库。
在一些实施例中,上述原始文本信息包括互联网数据;以及上述第一获取单元进一步用于:采用网络爬虫技术从互联网获取预设领域的互联网数据作为原始文本信息。
在一些实施例中,上述预设领域为财税领域;以及上述互联网数据包括以下至少一项:财税领域法律法规、财税领域的案例、财税新闻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于税云网络科技服务有限公司,未经税云网络科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611147656.1/2.html,转载请声明来源钻瓜专利网。