[发明专利]用于自然语言处理的领域词典生成系统在审
申请号: | 201611145025.6 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106802918A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张晓霞;刘世林 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自然语言 处理 领域 词典 生成 系统 | ||
技术领域
本发明自然语言处理领域,特别涉及用于自然语言处理的领域词典生成系统。
背景技术
大数据时代的到来为世界创造了新的机会,对大数据进行分析利用体现大数据的价值,自然语言处理在大数据分析中占据重要的地位,面对海量的网络文本资源,通过运用自然语言处理的分析方法自动地、智能提取出有用信息,或者判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着重要的实际应用意义。利用分析结果,可以对事情的发展演变进行或者用户喜好正确的预判,进而提前采取相应的措施来实现更大的正面效果。
自然语言处理中经常需要使用词典来进行对应的特征抽取,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。
然而现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到理想的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。这样的背景下如果能实现:根据用户具体分析需求快速构建针对性强的领域,将有极大节省全手动构建词典的人力物力,然而现有技术中还缺乏能够实现这类词典快速构建功能的相应工具。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于自然语言处理的领域词典生成系统,用户只需将待处理文本和领域种子词输入本系统中所述系统就可以实现在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。
为了实现上述发明目的,本发明提供了以下技术方案:用于自然语言处理的领域词典生成系统,所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建;
所述词典构建包含以下实现过程:
(1)提取出待处理文本集中各文本的关键词;
(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(3)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;
(4)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。
进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:
(2-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611145025.6/2.html,转载请声明来源钻瓜专利网。