[发明专利]用于网上购物的关联提取的系统和方法有效
申请号: | 201380008497.5 | 申请日: | 2013-02-08 |
公开(公告)号: | CN104106087B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 佐菲亚·斯坦基维兹;关根聪 | 申请(专利权)人: | 乐天株式会社 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 苏志莲 |
地址: | 日本国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 网上 购物 关联 提取 系统 方法 | ||
1.一种用于确定多个类别之间的关联关系的计算机实现的方法,包括:
从第一类别的描述中提取描述第二类别的名称的所有句子,从第二类别的描述中提取描述所述第一类别的名称的所有句子,以及针对每一个类别,构造作为类别句子的集合的类别文档,其中,所述构造包括:删除与另一描述重复的描述;以及保留与一个或多个其他类别相关的类别的描述;
通过对类别文档库运行话题模型来创建针对每一个类别文档的话题;
针对在单独的类别文档中描述的每一个目标类别,选择一个或多个相关类别;
将所述一个或多个相关类别指派给所述话题;
根据所述目标类别的类别文档针对每一个相关类别选择至少一个片段句子,以说明目标类别与一个或多个相关类别之间的关系;
基于与所述目标类别相对应的名称和表示所述话题的词来选择代表性产品;以及
构建包括所述至少一个片段句子和所述代表性产品的名称的话题页面。
2.根据权利要求1所述的计算机实现的方法,其中,所述话题模型使用潜在狄利克雷分配算法。
3.根据权利要求1所述的计算机实现的方法,其中,构建所述话题页面包括:进行k均值聚类,以根据产品本体树中的距离将话题聚集在一起。
4.根据权利要求1所述的计算机实现的方法,其中,创建的话题的数量比类别的数量少至少十倍。
5.根据权利要求1所述的计算机实现的方法,其中,选择相关类别包括:根据多个类别文档中的第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。
6.根据权利要求1所述的计算机实现的方法,其中,所述第一类别的所述描述是所述第一类别的产品的描述,并且所述第二类别的所述描述是所述第二类别的产品的描述。
7.一种用于确定多个类别之间的关联关系的系统,包括:
数据处理器,被编程为:
从第一类别的描述中提取描述第二类别的名称的所有句子,从第二类别的描述中提取描述所述第一类别的名称的所有句子,以及针对每一个类别,构造作为类别句子的集合的类别文档,其中,所述构造包括:删除与另一描述重复的描述;以及保留与一个或多个其他类别相关的类别的描述;
通过对类别文档库运行话题模型来创建针对每一个类别文档的话题;
针对在单独的类别文档中描述的每一个目标类别,选择一个或多个相关类别;
将所述一个或多个相关类别指派给所述话题;
根据所述目标类别的类别文档针对每一个相关类别选择至少一个片段句子,以说明目标类别与一个或多个相关类别之间的关系;
基于与所述目标类别相对应的名称和表示所述话题的词来选择代表性产品;以及
构建包括所述至少一个片段句子和所述代表性产品的名称的话题页面。
8.根据权利要求7所述的系统,其中,所述话题模型使用潜在狄利克雷分配算法LDA。
9.根据权利要求7所述的系统,其中,所述数据处理器被进一步编程为:
通过使用LDA结果以选择表示所述话题的产品类别,来构建所述话题页面;以及
使用k均值聚类根据产品本体树中的距离将所述类别聚集在一起。
10.根据权利要求7所述的系统,其中,创建的话题的数量比类别的数量少至少十倍。
11.根据权利要求7所述的系统,其中,所述数据处理器被进一步编程为选择相关类别包括:根据多个类别文档中的第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。
12.根据权利要求7所述的系统,其中,所述第一类别的所述描述是所述第一类别的产品的描述,并且所述第二类别的所述描述是所述第二类别的产品的描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐天株式会社,未经乐天株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380008497.5/1.html,转载请声明来源钻瓜专利网。