[发明专利]属性提取和聚类设备及方法无效

专利信息
申请号: 201110077400.9 申请日: 2011-03-22
公开(公告)号: CN102693245A 公开(公告)日: 2012-09-26
发明(设计)人: 赵凯;胡长建;邱立坤;许洪志;王大亮 申请(专利权)人: 日电(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 潘剑颖
地址: 100191 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 属性 提取 设备 方法
【说明书】:

技术领域

发明涉及自然语言处理领域,具体涉及一种属性提取和聚类设备及方法。

背景技术

随着因特网的发展,越来越多的人在网上发布信息,其中包括用户对产品、服务的评论和人们对事件、政策等的看法。这些评论和看法例如可以发表在购物网站、论坛和个人博客上。通过分析这些文本,可以了解人们对于产品、服务、事件、政策等的意见和态度,因此具有很大的价值。

具体地,对产品和服务而言,有两个重要需求。第一是提取描述对象和对应的描述,其中描述对象通常是产品和服务的某种属性。例如“这个手机的屏幕很大”,对产品“手机”而言,“屏幕”是描述对象(它是手机的一种属性),“大”是对“屏幕”的描述。在以下论述中,将描述对象称为“属性”。注意,这是只是为了称呼方便,事实上描述对象可能包含产品和服务的狭义属性之外的内容,例如“这个手机适合商业人士”,描述对象是手机的适用人群,这并不是狭义上的手机的属性(例如屏幕、电池等)。

第二是针对属性进行聚类。人们常常用不同的词语描述同一属性,例如“屏幕”“显示屏”“屏”都是指手机的屏幕。如果系统可以把关于它们的描述分开提取和总结,例如“80%的用户喜欢这款手机的屏幕,20%的用户不喜欢。60%的用户喜欢这款手机的显示屏,40%的用户不喜欢”,则用户感受较差。如果系统可以把它们聚合起来,显示总的统计结果:“70%的用户这款手机的屏幕(显示屏、屏),30%的用户不喜欢”,则用户感受较好。所以,把实质意义相同而词语表述不同的属性进行聚类是很有意义的。

参考文献1(“Product Feature Categorization with Multilevel Latent Semantic Association”,Honglei Guo,Huijia Zhu,Zhili Guo,XiaoXun Zhang,and Zhong Su,CIKM2009)描述了一种属性提取和聚类方法。该方法主要包括以下步骤:

第一步:从半结构化的文本中抽出名词和名词词组,并把它们作为属性。表1示出了半结构化文本的一个例子:

表1-半结构化文本

在表1中,“优点”和“缺点”分别是用户对产品的短语描述,而“具体评论”是用户评论的文本描述。

因此,该方法首先从“优点”和“缺点”中提取名词片段。具体地,可以根据情感词(例如可以存储在预定义的情感词表中)对“优点”和“缺点”进行分割。例如,“良好的”是一个情感词,它把“良好的触摸屏”分割为“良好的”和“触摸屏”两个部分,然后把以名词结尾的片段保留下来,即“触摸屏”。

其次,检查第一步保留的片段是否在“具体评论”中出现,并保留出现的片段。例如对于“较长的电池寿命”,“具体评论”中出现了“电池寿命”,因此保留“电池寿命”。

再次,如果先前的片段在“具体评论”中有组合,则也保留该组合。例如“LCD”和“触摸屏”在“具体评论”中有组合,因此也保留“LCD触摸屏”。

最后,第一步的执行结果形成如下属性集合:

{“LCD”,“触摸屏”,“图像质量”,“电池寿命”,“LCD触摸屏”}

第二步:针对属性集合中的每一个属性,根据其在“具体评论”中的上下文形成向量。例如,对于属性“屏幕”在“具体评论”中出现的以下文本:“我的新笔记本电脑非常好,因为其LCD屏幕很大很好”,可以形成以下的上下文向量:

{屏幕,好,新,大,好,LCD,很}

该向量的形成规则是:

{属性,属性之前的第一形容词,属性之前的第二形容词,属性之后的第一形容词,属性之后的第二形容词,紧邻属性左边的词,紧邻属性右边的词}

再比如有另一条评论:“我的旧屏幕很差”,可以形成以下的上下文向量:

{屏幕,旧,,差,,旧,很}

要注意的是,因为不存在属性之前和之后的第二形容词,所在对应位置为空。

上述两个向量合并后可形成如下向量:

{屏幕,{好-1,旧-1},{新-1},{大-1,差-1},{好-1},{LCD-1,旧-1},{很-2}}

其中,“好-1”的意思是“好”这个词出现了1次,而“很-2”的意思是“很”这个词出现了2次,以此类推。

第三步:根据上下文向量对属性进行聚类。参考文献1中的方法使用了LDA模型实现聚类。表2示出了聚类结果的一个例子:

表2-聚类结果

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110077400.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top