[发明专利]基于自定义的知识槽结构的文本知识抽取系统和方法有效
| 申请号: | 201910487585.7 | 申请日: | 2019-06-05 |
| 公开(公告)号: | CN110175334B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 张坤;于阳阳;管慧娟;孔令军;李华康 | 申请(专利权)人: | 苏州派维斯信息科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/33 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
| 地址: | 215000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自定义 知识 结构 文本 抽取 系统 方法 | ||
本发明公开了一种基于自定义的知识槽结构的文本知识抽取系统和方法。本发明一种基于自定义的知识槽结构的文本知识抽取方法,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树。本发明的有益效果:利用通过一个前端页面提供业务人员设定某个知识的基础结构,得到其需要抽取的非结构化文本内容,文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割。
技术领域
本发明涉及文本知识抽取系统领域,具体涉及一种基于自定义的知识槽结构的文本知识抽取系统和方法。
背景技术
随着大数据的时代的快速发展,人工智能技术的提高,基础数据样本对数据分析越来越重要,但是普通的知识获取基本上是基于结构化数据或者是人工操作。
文本知识抽取中常见的是结构化抽取,以及实体抽取。
一种是用搜索个体所组成的群体优势动态地搜索,并采用一种有效的正区比较进行特征组合得到多知识的方法,包括以下步骤:计算约简初值;启用双矩编码策略;搜索初始化;计算结束判据;计算搜索个体的适应值;最优保存;状态转移联合操作。本发明采用双矩编码策略,搜索个体位置编码成0、1字符串,维度与条件属性个数相同。当维度规模超过23时,完成约简所消耗的时间并不呈指数显著增长,节约了空间维度和时间。本发明采用粗糙集正区判别POS'E=U′pos适应值为对应条件属性个数,如果POS'E≠U′pos适应值惩罚为条件属性总数,这一策略简单合理地保证了知识抽取效果。
一种是针对表格数据,进行提取,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。
一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并将该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四,直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题,也能够得到未知的概念和概念间的关系,能够提高知识抽取的召回率。
发明内容
本发明要解决的技术问题是提供一种基于自定义的知识槽结构的文本知识抽取系统和方法,该方法利用通过一个前端页面提供业务人员设定某个知识的基础结构,得到其需要抽取的非结构化文本内容,文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割,实体识别算法根据最好的分割文本进行关键字匹配以及命名实体识别,实体关系抽取算法根据文本提取的实体进行文本词性分析以及语义角色标注,知识结构评价算法根据实体以及实体之间的关系进行相似匹配以及关系的准确性进行评价。
为了解决上述技术问题,本发明提供了一种基于自定义的知识槽结构的文本知识抽取方法,包括:
步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;
步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;
步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州派维斯信息科技有限公司,未经苏州派维斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910487585.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种证据指引方法、装置、设备及存储介质
- 下一篇:翻译模型的训练方法和装置





