[发明专利]基于远程监督和提示学习的实体属性生成方法及系统在审
申请号: | 202211474722.1 | 申请日: | 2022-11-23 |
公开(公告)号: | CN115878813A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 曾山松;张磊;余安东;胡佳 | 申请(专利权)人: | 电信科学技术第五研究所有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F16/28;G06F18/24;G06F18/214;G06N5/022;G06N20/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 杨春 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 远程 监督 提示 学习 实体 属性 生成 方法 系统 | ||
1.基于远程监督和提示学习的实体属性生成方法,其特征在于,包括:
S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系的集合,A={a}为知识图谱中各个属性组成的集合,a是一个包含属性名ak和属性值av的二元组;
S2、利用远程监督方法,将知识图谱中的实体e∈E、实体e的属性名ake、及其属性名ake对应的属性值ave组成的三元组(e,ake,ave)作为种子,通过实体e和属性值ave到开放文档库D中去检索,召回同时包含实体e和属性值ave的文本集合De={de};
S3、将文本集合De中能够正确表达属性类型ake的文本de标注为正例文本se∈Se,定义集合C={(e,ake,ave,se)}为知识图谱中所有种子三元组(e,ake,ave)召回的正例文本se组成的四元组集合;
S4、获取待生成实体属性的文本x;
S5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名ake;
S6、通过fprompt(x,e,ake)将文本x、实体e、属性名ake转化成提示学习任务的输入形式xprompt;
S7、将xprompt作为预训练语言模型BERT的输入,获得文本x中实体的属性值。
2.根据权利要求1所述的基于远程监督和提示学习的实体属性生成方法,其特征在于,fprompt(x,e,ake)包括以下步骤:
1)、定义模板t表示为:
[x];属性抽取:【实体】[e]-【属性名】[a]-【答案】[z]
模板内容t为一段由输入槽位[x]和实体槽[e],实体属性槽[ake],答案槽位[z]拼接而成的文本字符串,其中输入槽[x]、实体槽[e]、实体属性槽[ake]分别是基于提示学习的属性抽取任务的输入文本x、实体e、及其实体e需要抽取属性的名称ake的占位符,答案槽[z]是实体e需要抽取属性的值ave的占位符;
2)、把输入的文本x填充模板t输入槽[x]的位置,实体e填充到模板t实体槽[e],实体e需要抽取属性的名称ake填充到模板t实体属性槽[ake];
3)、返回填充后的字符串作为输入x的提示形式。
3.根据权利要求1所述的基于远程监督和提示学习的实体属性生成方法,其特征在于,在S7中包括:
S71、将xprompt作为预训练语言模型BERT的输入,让其预测xprompt中槽位[z]填入的单词词汇的概率分布;
S72、取概率值最大的单词插入槽位[z]之前,形成新的提示学习模板:
xprompt=insert_before(xprompt,[z],max_probability(v))
其中v代表文档词汇库中的词汇,max_probability(v)代表取概率最大的词汇;insert_before函数为执行上述插入操作以修改当前样本;
S73、判断生成的单词是否是句子的结束单词“。”,若是则进入S74,反之,则用修改后的当前样本返回S71;
S74、将修改后的当前样本中的终止符合“。”删除,并作为实体的属性值。
4.基于远程监督和提示学习的实体属性生成系统,其特征在于,包括:
知识图谱;知识图谱中存储实体,关系,属性等三元组信息,
开放文档数据库;
提示学习模板引擎;提示学习模板引擎用于将文本输入转化为可以进行提示学习的文本格式,用于提示与训练语言模型微调下游的实体属性抽取任务;
预训练语言模块;预训练语言模块对语料进行预训练,然后将提示学习模板引擎生成的提示学习形式文本作为样本,微调下游的任务;
用于在线业务数据实体抽取的实体识别模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电信科学技术第五研究所有限公司,未经电信科学技术第五研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211474722.1/1.html,转载请声明来源钻瓜专利网。