[发明专利]一种基于藏语语言特征的藏语情感词典的构建方法及系统在审
申请号: | 201710292292.4 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107122465A | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 邱莉榕 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京高沃律师事务所11569 | 代理人: | 王加贵 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 藏语 语言 特征 情感 词典 构建 方法 系统 | ||
技术领域
本发明涉及微博语言分析技术领域,特别是涉及一种基于藏语语言特征的藏语情感词典的构建方法及系统。
背景技术
目前,英文和中文的情感分析领域比较成熟,尤其英语情感处理领域,拥有非常全面的情感词典资源,其中比较著名的有普林斯顿大学的SentiWordNet、哈佛大学整理且开发了General Inquirer(GI)词典,这些词典是很多研究者通常选用的资源之一,在该词典中,不但每个词的义项都被列出,其情感属性也有相应的标注。中文中可使用的资源有董振东老师开发的《知网》(HowNet);张伟、刘缙等人编撰的《学生褒贬义词典》;史继林、朱英贵编撰《褒义词词典》;杨玲,朱英贵编撰的《贬义词词典》;哈尔滨工业大学信息检索实验室整理的《同义词词林扩展版》;清华大学整理共享的《中文褒贬义词典》;大连理工大学整理的《情感词汇本体》以及台湾大学整理的中文情感词典(NTUSD)。
而藏语作为中国国内的一种重要语言,其语言处理发展缓慢,藏语的情感分析研究起步相对较晚,语料及情感资源匮乏,藏语缺乏语义词典,不易分析确定藏语语言表达的情感,从而引起理解错误,例如在微博中,因为错误理解藏语语言表达的情感,可能会使得无法准确找到需要微博信息,造成流量的浪费等。
发明内容
本发明的目的是提供一种基于藏语语言特征的藏语情感词典的构建方法,可准确确定当前藏语微博信息表达的情感。
为实现上述目的,本发明提供了如下方案:
一种基于藏语语言特征的藏语情感词典的构建方法,所述构建方法包括:
将带有情感分类的汉语词汇本体与汉藏词典进行匹配,获得藏语基础情感词典;
通过Word2vec工具对预先收集的藏语微博信息进行语料训练,获得语料训练词汇的近义词集,作为扩充候选词集合;
计算各个扩充候选词的权重方差;
根据所述权重方差对所述扩充候选词进行筛选,获得情感扩充词,对藏语基础情感词典进行扩充,用于分析当前藏语微博信息表达的情感。
可选的,所述构建方法还包括:在进行匹配后,对匹配的结果进行校对,删除无关词汇。
可选的,语料训练词汇包括基本词、表情词、程度副词、否定词及连词中至少一者;
其中,获得表情词的近义词集包括:
从语料训练的结果中抽取表情词;
统计抽取的各个表情词的出现频率;
根据所述出现频率以及各个表情词表示的情感对各个抽取的表情词进行筛选,将筛选后的表情种子集合添加到扩充候选词集合中。
可选的,所述计算各个扩充候选词的权重方差具体包括:
设藏语微博信息形成的文档集合为D,情感类别为K,k∈K,D={D1,D2,...,Dk},Dk表示第k类情感的文档集合;文档总数为N,N=N1+N2+...+Nk,Nk表示第k类情感的文本数量;扩充候选词集合W={w1,w2,...,wn};
计算扩充候选词wi在文档集合Dk中出现的比例TFik:
其中,i=1,2,...,n,Nik表示扩充候选词wi在文档集合Dk中出现的次数;
计算扩充候选词wi的反文档频率IDFi:
其中,Ni表示第i类情感的文本数量;;
根据比例TFik和反文档频率IDFi,计算扩充候选词wi在对应情感类别中的权重值TFIDFik:
TFIDFik=TFik×IDFi----------(3);
计算扩充候选词wi在各个情感类别中权重的平均值
根据权重值TFIDFik及权重的平均值确定扩充候选词wi的权重方差D(TFIDF(wi)):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710292292.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助决策系统及方法
- 下一篇:一种网络文章查询方法及系统