[发明专利]利用了网络搜索的依存句法的领域自适应方法有效
| 申请号: | 201310729563.X | 申请日: | 2013-12-26 |
| 公开(公告)号: | CN103646112B | 公开(公告)日: | 2017-01-18 |
| 发明(设计)人: | 周光有;赵军 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吴秋明 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 网络 搜索 依存 句法 领域 自适应 方法 | ||
1.一种利用了网络搜索的依存句法领域自适应方法,包括:
训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;
获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;
获取候选依存句法树的评估值的步骤(S3),对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树xik,基于基准依存句法分析模型L,获得每一棵候选依存句法树xik的评估值,将对该评估值进行归一化得到的归一化评估值记为L(xik);
通过网络搜索获取特征向量值的步骤(S4),将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},以集合中的每一个词语语义关系fj为特征,通过网络搜索计算得到该词语语义关系fj的强度fj(xik),即该特征的特征向量值,其中J是大于等于1的整数,1≤j≤J;和
构建重排序模型的步骤(S5):设重排序目标函数为 其中α0表示与由基准依存句法分析模型L得 到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数,选出重排序目标函数最大的候选依存句法树。
2.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},所述未标注数据的一个句子的语义是由词语、词语关系表达出来的。
3.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数通过广义迭代缩放算法得到。
4.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
所述特征向量值fj(xik)的计算采用网络搜索对特征进行搜索来进行,特征向量值fj(xik)包括名词选择关联向量值、介词选择关联向量值、并列结果选择向量值、和形容词选择关联向量值,其中,
所述名词选择关联向量值通过下述式计算得到,即,在修饰词m是名词(NN),它的中心词h是名词(NN)或者动词(VV)的情况下,词语关系的特征向量值fj(xik)为:
所述介词选择关联向量值通过下述式计算得到,即,在修饰词m是介 词(PP),它的中心词h是动词(VV)或名词(NN)的情况下,词语关系的特征向量值fj(xik)为:
所述并列结果选择关联向量值通过下述式计算得到,即,在修饰词m是并列连词(CC),它的中心词h是动词(VV)、名词(NN)或形容词(JJ),词语关系的特征向量值fj(xik)为:
所述形容词选择关联向量值通过下述式计算得到,即,在修饰词m是形容词(JJ),它的中心词h是名词(NN),词语关系的特征向量值fj(xik)为:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310729563.X/1.html,转载请声明来源钻瓜专利网。





