[发明专利]基于自定义的知识槽结构的文本知识抽取系统和方法有效
| 申请号: | 201910487585.7 | 申请日: | 2019-06-05 |
| 公开(公告)号: | CN110175334B | 公开(公告)日: | 2023-06-27 |
| 发明(设计)人: | 张坤;于阳阳;管慧娟;孔令军;李华康 | 申请(专利权)人: | 苏州派维斯信息科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/33 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
| 地址: | 215000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自定义 知识 结构 文本 抽取 系统 方法 | ||
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:
步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;
步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;
步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;
步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;
其中:步骤400具体包括:
步骤410:使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM进行中文分词;
步骤420:使用word2vec对需要处理的知识样本树进行向量化,以及已分词的短语向量化;
步骤430:使用BiLstm-Crf进行模型训练,找出其实体以及各个短语的词性,即对未提供知识样本树的文件进行实体抽取,并且将部分实体保存成知识样本树;
步骤440:利用文本向量化之后的向量,对知识样本树中的关键字跟文本进行相似度匹配,利用余弦定理;
步骤450:利用知识样本树中的关键字对短语进行匹配,并且将已匹配的短语进行其属性进行提取;
步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;
步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。
2.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤200具体包括:
步骤210:用户在页面上上传文件;
步骤220:用户在页面上选择知识树样本;
步骤230:判断上传文件是否是压缩包,如果是压缩包则进入步骤240,否则进入步骤250;
步骤240:将压缩包文件进行解压操作,并且得到压缩包里面的全部文件,对全部文件进行数组化;
步骤250:对单个文件进行后缀名判断,如果其是图片文件或者PDF文件,进入步骤260,如果不是就进入步骤270;
步骤260:针对PDF文件,先对其进行简单的读取操作,如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作;如果不是图片就进行文本读取,按照位置信息合并文本文档;针对图片文件,对图片使用文字位置感知模型,找出其有文字区域的位置信息,然后按照位置进行区域合并,确保其文字信息不会出现乱行出错,对已找到的文字区域进行二值化处理,使用文字识别模型对已处理的图片进行文字识别,得到其识别结果;
步骤270:读取不同格式的文件,并且对不同格式的文件进行不同的操作。
3.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤440具体包括:
步骤441:根据已分割的子文本进行知识实体树的子树的关键字的提取;
步骤442:对已分词的文本将其跟关键字相似度最高的短语进行匹配;
步骤443:对操作的文件进行判断,判断其是否属于Excel表格,如果是进行步骤444,否则进行步骤445;
步骤444:Excel表格中存在其上下关系,左右关系,对其处理可能存在子树有多个属性;对其处理需要进行单独的处理;
步骤445:文本基本上只能提取其二个实体之间的关系,基于语法树进行文本知识提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州派维斯信息科技有限公司,未经苏州派维斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910487585.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种证据指引方法、装置、设备及存储介质
- 下一篇:翻译模型的训练方法和装置





