[发明专利]一种基于流形学习的产品隐式属性识别方法无效
申请号: | 201210061970.3 | 申请日: | 2012-03-09 |
公开(公告)号: | CN102682074A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 陈纯;卜佳俊;赵璇;王沛斌;程虓 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流形 学习 产品 属性 识别 方法 | ||
1.一种基于流形学习的产品评论隐式属性识别方法,其特征在于从网络上抓取产品评论数据后,对产品评论数据进行如下操作:
1)利用词性标注和语法标注工具,对每一条评论数据中的每一个语句进行词性标注和语法标注,利用公共的标准意见词种子集、词性和语法关系提取出产品属性和意见词,加入对应词表中;
2)扩展产品属性词表和意见词词表;
3)构建产品属性和意见词的关系图;
4)利用流形学习的方法寻找新的同一空间表示产品属性和意见词;
5)对评论数据中的每一个未显式提及产品属性的语句,根据意见词表提取语句中的意见词,利用新空间中的几何位置关系,实现利用意见词推断隐式属性。
2.如权利要求1所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤2)中所述的词表扩展使用从产品评论数据提取出的产品属性词表作为种子词表,将种子词表同义词加入到种子词表中,再对更新后的词表重复扩展操作。通过限制扩展次数或者等待词表收敛终止扩展。
3.如权利要求1或2所述的基于流形学习的产品评论隐式属性识别方法,其特征在于:所述的步骤3)中所述的关系图构建:
1)产品属性词和意见词为图中节点{vi},词间关系为图中的边{ei,j}表示,关系权值以边的权重{wi,j}表示;
2)若产品属性和意见词在同一评论语句中出现,则认为产品属性和意见词存在共现关系,产品属性i和意见词j的共现权重为二者的PMI值,即
3)若产品属性i出现在意见词j的词典解释中,则认为意见词对产品属性有语义指向关系,指向关系权重SRIi,j为1,否则为0;
4)产品属性i和意见词j的总权重为
5)产品属性i和产品属性j间的关系权重意见词m和意见词n间的关系权重由二者的语义近似关系衡量,由现有的词义相似度分析工具直接获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210061970.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锂离子电池
- 下一篇:一种基于RFID的轨道车辆测速系统及方法