[发明专利]利用了网络搜索的依存句法的领域自适应方法有效
| 申请号: | 201310729563.X | 申请日: | 2013-12-26 |
| 公开(公告)号: | CN103646112B | 公开(公告)日: | 2017-01-18 |
| 发明(设计)人: | 周光有;赵军 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吴秋明 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种利用了网络搜索的依存句法领域自适应方法,包括构建基于K‑Best的候选依存句法树重排序模型,用一个基准模型来产生一组候选依存句法分析树,其中,每一个候选依存句法分析树对应一个概率,从而定义了多个依存句法分析结果的初始序列,在此序列的基础上,重排序模型试图利用目标领域新增的句法特征来改进初始的句法树序列;进行基于网络搜索的候选依存句法树的词语依存关系评估,首先需要将一棵依存句法树拆分为一组词语关系的集合,对于集合中的每一个词语语义关系,利用网络搜索,分别计算该词语语义关系的强度,然后根据词语关系的权重来确定其评估值。经过实验证明,在宾州中文树库上训练的依存句法器,在生物医学数据上也表现出了良好的性能。 | ||
| 搜索关键词: | 利用 网络 搜索 依存 句法 领域 自适应 方法 | ||
【主权项】:
一种利用了网络搜索的依存句法领域自适应方法,包括:训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;获取候选依存句法树的评估值的步骤(S3),对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树xik,基于基准依存句法分析模型L,获得每一棵候选依存句法树xik的评估值,将对该评估值进行归一化得到的归一化评估值记为L(xik);通过网络搜索获取特征向量值的步骤(S4),将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},以集合中的每一个词语语义关系fj为特征,通过网络搜索计算得到该词语语义关系fj的强度fj(xik),即该特征的特征向量值,其中J是大于等于1的整数,1≤j≤J;和构建重排序模型的步骤(S5):设重排序目标函数为其中α0表示与由基准依存句法分析模型L得 到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数,选出重排序目标函数最大的候选依存句法树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310729563.X/,转载请声明来源钻瓜专利网。





