[发明专利]一种基于语义依存树的答案抽取方法有效
| 申请号: | 201810239159.7 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108595413B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 周蕾;史维峰 | 申请(专利权)人: | 西北大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06F40/289;G06F16/332;G06F16/951;G06F16/9532 |
| 代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷;周春霞 |
| 地址: | 710069 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 依存 答案 抽取 方法 | ||
1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
所述的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path-len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810239159.7/1.html,转载请声明来源钻瓜专利网。





