[发明专利]一种针对短文本的倾向性分析的系统与方法有效
申请号: | 201110438138.6 | 申请日: | 2011-12-23 |
公开(公告)号: | CN102541840B | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 文本 倾向性 分析 系统 方法 | ||
一种利用中文信息语义处理技术,分析短文本中的倾向性的系统与方法。本发明所述的系统包括3个部分:用户输入模块101、倾向性识别模块102、倾向性输出模块103。所述的方法包括两部分,识别部分和倾向性知识库。识别部分包括4个步骤:对象检索111、倾向性特征识别112、句子倾向性识别113、文本倾向性识别114。倾向性知识库包括词语倾向性库122和领域倾向性模式库123。领域倾向性模式库123,以领域为单位,给出整个领域的倾向性表达的语义模式,语义模式表达采用格式为“语义属性+属性值=>倾向性”的格式。句子倾向性识别模块112对输入的句子进行语义结构分析,分析出句子的语义结构,在语义结构基础上,给出倾向性数值化后的集合。文本倾向性识别113把所有句子的结果进行累加计算,并给出最后的倾向性值。
本发明涉及信息的加工分析技术,更具体地说,涉及一种利用中文信息处理技术分析短文本内容中所表达的倾向性的系统与方法。
随着互联网的发展,互联网上出现了越来越多的用户原创内容(User GeneratedContent),BBS论坛,特别是微博出现以后,互联网上大量的UGC内容都是短文本的(微博限制字数在140个以内),用户在短文本的表达时,常常旗帜鲜明的表达自己的倾向性(对商品的喜好,对事件的态度等),这种倾向性对互联网信息监测、信息的加工分析意义重大。
文本的倾向性分析,比较常用的方法是采用统计方法,对文本中出现的倾向性词语进行统计分析,然后给出出现频度大的倾向性作为文本的倾向性。比较经典的算法是PMIIR(Point Mutual Information Information Retrieval)算法,这种处理方法对新闻等长文本有效,针对短文本,由于文本长度较短,倾向性词语经常出现的次数不多,采用统计方法往往无法得到很好的结果。
针对短文本的倾向性分析,需要从语言本身出现,分析文本中所表达的重点是什么,对每个表达对象的倾向性等语义关系,在这些语义分析的基础上,进行倾向性分析,才能得到比较准确的结果。
本发明提供了一种利用中文信息语义处理技术,分析短文本中的倾向性的系统与方法。
本发明所述的系统包括3个部分:
模块101:用户输入模块,用于用户输入对象,作为倾向性分析的对象,倾向性的结果表示的是作者对这个对象的倾向性。同时,用户需要输入待处理短文本的领域名称。用户输入以XML格式给出,用户输入的对象可以有多个。输入的XML格式如下:
<input>
<domain>领域名</domain>
<object>对象关键词</object>
……
<object>对象关键词</object>
</input>
模块102:倾向性分析模块,用于分析短文本中,对101用户输入的对象的倾向性。
模块103:倾向性输出,输出短文本中所给出的倾向性结果。输出结果以XML形式给出。针对用户输入的一个或多个对象,给出一个或多个结果。输出的XML格式如下:
<output>
<result>
<object>对象关键词</object>
<qxx>倾向性值</qxx>
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110438138.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:物体转动惯量测量装置
- 下一篇:一种自锁压力信号器