[发明专利]一种基于跨语言资源的柬语命名实体识别的方法有效

专利信息
申请号: 201711084450.3 申请日: 2017-11-07
公开(公告)号: CN107861947B 公开(公告)日: 2021-01-05
发明(设计)人: 严馨;谢俊;郭剑毅;余正涛;线岩团 申请(专利权)人: 昆明理工大学
主分类号: G06F40/295 分类号: G06F40/295
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语言 资源 命名 实体 识别 方法
【权利要求书】:

1.一种基于跨语言资源的柬语命名实体识别的方法,其特征在于:获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别;

所述方法的具体步骤如下:

Step1、获取英柬双语平行文本语料及柬语单语文本语料;

Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本中的每个柬语单词所对应的词向量文本;

Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2,...,win),wj=(wj1,wj2,...,wjn),则其两词之间的相似度表示为:

Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;

Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;

Step 6、将标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别;

所述步骤Step5的具体步骤为:

Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下:

式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,表示柬语单词ui和类别为y的英语单词之间的对齐关系,表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;

Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:

约束条件为:

其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,表示柬语单词的边缘顶点集,表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;wij表示柬语单语不同词之间的相似度;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;

如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:

在满足的前提下,γi(y)和κi的定义如下:

其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711084450.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top