[发明专利]一种领域词典的构建方法在审
申请号: | 201611149314.3 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106649662A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 张晓霞;刘世林 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 词典 构建 方法 | ||
技术领域
本发明自然语言处理领域,特别涉及一种领域词典构建方法。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能地判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。
而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。
基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种领域词典构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成不同的领域或者主题文本集;根据分析需要,选取少量的对应领域种子词,在此基础上分析出聚类后的领域或者主题文本集与所选领域种子词的关系远近,仅保留关系较密切的领域或者主题文本集作为领域词典扩展的来源。在此基础上结合词语相关性分析算法进行领域词典的自动扩展,进而得到对应的领域词典。
为了实现上述发明目的,本发明提供了以下技术方案:一种领域词典构建方法,包含以下实现步骤:
(1)提取出待处理文本集中各文本的关键词;
(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(3)选取领域的种子词;
(4)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;
(5)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为领域词存入待扩充的词典中。
具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。
进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:
(2-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611149314.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:知识库构建方法和装置
- 下一篇:一种基于紧凑视频表征的视频拷贝检测方法