[发明专利]一种通用的基于关联的词性标注方法有效
| 申请号: | 201810985852.9 | 申请日: | 2018-08-28 |
| 公开(公告)号: | CN109325225B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 邵玉斌;郭海震;龙华;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/253 | 分类号: | G06F40/253 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种通用的基于关联的词性标注方法,属于自然语言处理技术领域。本发明首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。 | ||
| 搜索关键词: | 一种 通用 基于 关联 词性 标注 方法 | ||
【主权项】:
1.一种通用的基于关联的词性标注方法,其特征在于:(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;(7)使用步骤(6)提取的特征文件训练一个模型model;(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810985852.9/,转载请声明来源钻瓜专利网。





