[发明专利]一种基于流形学习的产品隐式属性识别方法无效
申请号: | 201210061970.3 | 申请日: | 2012-03-09 |
公开(公告)号: | CN102682074A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陈纯;卜佳俊;赵璇;王沛斌;程虓 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流形 学习 产品 属性 识别 方法 | ||
技术领域
本发明涉及意见挖掘的产品属性识别,无障碍网页浏览方法的技术领域,特别是基于流形学习的隐式属性识别方法。
背景技术
随着web2.0的发展,论坛得到了用户的极大关注,许多用户在电子产品的论坛上讨论产品的使用体验。另外网上购物也进入繁荣时期。网站向在线购物用户提供产品评论功能来增加体验。互联网上因此产生了大量的产品评论数据。用户通过这些数据可以了解一个产品的性能。但是对于某一用户而言,这些海量的评论数据,一方面存在大量无用信息,因为用户只对产品的某一些属性而非全部感兴趣,另一方面用户没有时间和精力逐条阅读,但是如果有选择性地阅读又容易形成意见偏差。尤其是对于视力障碍人士而言,阅读这样的评论数据更是非常困难。世界目前有3000万盲人,在科技迅猛发展,人人尽享信息高速公路带来便利的今天,应该让残疾人也充分享受信息技术的成果,提高这一部分人群的用户体验。因此有必要提供海量评论数据的无障碍浏览方法。
目前已有对产品评论按属性进行总结的技术,但是现存技术只能简单根据评论中显式提及的产品属性名称进行分类,对于通过意见词隐式地阐述产品属性的评论则无法分类。而用户评论中存在大量的未提及产品属性名称的评论,如果不能对其进行正确分类则会严重影响评论总结的性能。
流形学习被广泛应用在模式识别中,有成熟的算法。将观测到的产品属性和意见词及其关系,转化为图,通过流形学习的方法,在新的空间捕捉到节点间的本质关系,进而实现从意见词到产品属性的推断。
发明内容
为了克服现有网站的产品评论系统无法根据意见词自动识别评论中的产品隐式属性,从而导致对海量评论数据的分类总结不够准确的缺点,提供一种能够帮助用户快速从海量在线产品评论中了解产品某一属性的性能,以提高浏览产品评论的体验度,本发明提出了一种基于流形学习的产品评论隐式属性识别方法,该方法包括以下步骤:
1、从网络上抓取产品评论数据后,对评论数据进行如下操作:
1)利用词性标注和语法标注工具,对每一条评论数据中的每一个语句进行词性标注和语法标注,利用公共的标准意见词种子集、词性和语法关系提取出产品属性和意见词,加入对应词表中;
2)扩展产品属性词表和意见词词表;
3)构建产品属性和意见词的关系图;
4)利用流形学习的方法寻找新的同一空间表示产品属性和意见词;
5)对评论数据中的每一个未显式提及产品属性的语句,根据意见词表提取语句中的意见词,利用新空间中的几何位置关系,实现利用意见词推断隐式属性。
2、步骤2)中所述的词表扩展使用从产品评论数据提取出的产 品属性词表作为种子词表,将种子词表同义词加入到种子词表中,再对更新后的词表重复扩展操作,通过限制扩展次数或者等待词表收敛终止扩展。
3、步骤3)中所述的关系图构建:
1)产品属性词和意见词为图中节点{vi},词间关系为图中的边{ei,j}表示,关系权值以边的权重{wi,j}表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210061970.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锂离子电池
- 下一篇:一种基于RFID的轨道车辆测速系统及方法