[发明专利]基于词分布的词语全局权重计算方法无效
| 申请号: | 200910198891.5 | 申请日: | 2009-11-17 |
| 公开(公告)号: | CN101706776A | 公开(公告)日: | 2010-05-12 |
| 发明(设计)人: | 夏天 | 申请(专利权)人: | 上海第二工业大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 上海天翔知识产权代理有限公司 31224 | 代理人: | 朱妙春 |
| 地址: | 201209 上*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 分布 词语 全局 权重 计算方法 | ||
技术领域:
本发明涉及一种自然语言的处理方法,特别涉及一种词语权重的计算方法。
背景技术:
90年代以来,随着网络信息的爆炸,人们需要精准地在网络上获取信息。这促使自然语言处理迅速发展,信息检索、信息过滤、文本分类、自动文摘、问答系统等自然语言处理应用技术的研究就成为近年来研究的热点。支持向量机、向量空间模型、潜在语义分析模型等新模型层出不穷。
这些新模型都以词语权重的计算为基础,词语权重计算是否准确直接影响着自然语言处理的最终结果,如图1。文档中每一个词语所表达的文档的信息量是不同的,我们用词语权重来表示词语的重要程度,只有准确地计算出每个词语的权重,才能使文档中的语义信息表现得更加明显。
常见的权重算法,布尔权重,特征频度,TF-IDF,熵等,都考虑了能够描述词语包含信息量的某个因素,如:词频、文档频、词的位置等。有的权重计算方法根据词语在单一文档中的规律计算出权重,称之为词语局部权重;还有的根据词语在文档集中的规律计算出权重,称之为词语全局权重。
现有的词语权重计算方法得到的结果不够精确,这将直接影响以词语权重算法为基础的自然语言处理模型的处理结果。
发明内容:
本发明针对现有词语权重计算方法不够准确的问题,而提供一种基于词分布的词语全局权重计算方法,该方法能够提高计算词语权重的准确性,从而有效的提高相应自然语言处理模型的准确率。
为了达到上述目的,本发明采用如下的技术方案:
基于词分布的词语全局权重计算方法,该方法包括如下步骤:
(1)将待分析文档集进行预处理,使待分析文档集成为包含文档主要内容的词序列。
(2)计算词序列中词语的分布均匀度系数;
(3)计算词序列中词语的分布广度系数;
(4)计算基于词分布的词语全局权重。
根据上述技术方案得到的本发明能有效优化目前词语权重计算方法,提高其准确率,推动自然语言处理的研究和应用。本发明能够使得以词语权重算法为基础的自然语言处理应用,如信息检索、文本分类、垃圾邮件过滤等获得更佳的处理结果。本发明在实际应用中可与其他权重算法组合,能够获得更高的准确率。
附图说明:
以下结合附图和具体实施方式来进一步说明本发明。
图1为词语权重计算方法与自然语言领域各技术的关系示意图。
图2为在文档集中词语分布均匀度与词语权重的关系示意图。
图3为在文档集中词语分布均匀度与词语权重的关系示意图。
图4为本发明的流程图。
具体实施方式:
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
词语全局权重根据词语在文档集中的统计规律进行权重计算,它考虑文档集影响词语权重的一些因素,如:词的文档频IDF等。在文档集中,大范围均匀分布的词语蕴含更少的信息量,和文档的内容基本无关;小范围集中分布的词语,蕴含较多信息量,更可能和出现该词语的文档内容相关。
本专利对文档中词语的分布进行研究,根据“K.Pearson定理”设计分布均匀度系数及其计算方法,来衡量词的分布情况。文档集中不同的词对应着不同的分布均匀度系数,分布均匀度系数的值越小,词的分布越均匀,其全局权重也应当越小。
另一方面,该统计量仅仅描述了词语分布的均匀程度,本专利还利用词语分布广度,来适当提高相应词的权重。
基于上述原理,本发明提供的一种基于词分布的词语全局权重算法通过如下步骤实现(参见图4):
(1)计算词语全局权重前,必须将待分析的文档集进行中文分词、词性标注、去停用词、信息抽取等预处理操作,从而使待分析文档集成为包含文档主要内容的词序列(其为本领域较为成熟的技术,此处不加以赘述)。
(2)计算词序列中词语的分布均匀度系数;
设某一文档集共有m篇文档、Cm个字,对其执行步骤(1)后,得到了词序列。下面对词序列中的第j个词语求分布均匀度系数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海第二工业大学,未经上海第二工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910198891.5/2.html,转载请声明来源钻瓜专利网。





