[发明专利]一种社会热点与商品品类的匹配方法有效
| 申请号: | 201811396382.9 | 申请日: | 2018-11-22 |
| 公开(公告)号: | CN109597990B | 公开(公告)日: | 2022-11-15 |
| 发明(设计)人: | 窦志成;左笑晨;黄真;文继荣 | 申请(专利权)人: | 中国人民大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/289;G06F40/295;G06F16/36;G06Q30/02 |
| 代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 徐宁;孙楠 |
| 地址: | 100872 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 社会 热点 商品 品类 匹配 方法 | ||
1.一种社会热点与商品品类的匹配方法,其特征在于包括以下步骤:
1)构建商品品类知识图谱;
2)获取微博热门话题内容;
3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;
4)对商品标题与微博内容进行文本匹配;
5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果;
所述步骤3)中,匹配结果在已构建好的知识图谱上的检索方法如下:
(1)泛产品品类识别检索:泛产品品类名称部分检索累计得分为实 体识别结果在知识图谱中检索的累计得分为
(2)对品牌名称识别检索:直接使用实体识别结果,识别出所有类型为品牌的实体,将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分为Scoreb;
(3)热搜词识别检索:对于所有的商品品类,找到该品类下相关的所有热搜词,将它们在微博内容中进行检索,检索结果累计得分为Scoreh;
(4)商品属性识别检索:对于所有的商品品类,找到品类具有的属性值,将他们再微博内容中进行检索,检索结果累计得分为Scorea;
(5)根据泛产品品类识别检索、品牌名称识别检索、热搜词识别检索和商品属性识别检索结果,得到最终匹配得分Score为:
所述步骤4)中,商品标题与微博内容匹配方法包括以下步骤:
4.1)确定待匹配的文本;
4.2)采用KNRM模型,KNRM通过引入核函数机制,在多个不同相似度下计算每个词的特征向量,由词的特征向量构成句子的特征向量;
4.3)将商品标题与微博内容文本的词向量矩阵计算相似度,进而得到相似度矩阵;
4.4)在相似度矩阵上使用多个不同的核函数,在多种相似度水平上,分别计算微博文本内各个词对商品标题中词的相关性贡献值,得到商品标题中各词的软词频;
4.5)将各词的软词频加和得到用于排序的特征,通过多层感知机得到最终的匹配分数。
2.如权利要求1所述方法,其特征在于:所述步骤1)中,商品品类知识图谱包括商品品类、三个实体和商品品类属性;每一个商品品类与三个实体关联,三个实体分别是泛产品品类、热搜词和品牌。
3.如权利要求2所述方法,其特征在于:所述泛产品品类是将多个相近的品类集中起来,作为匹配过程中的一个整体,减少匹配品类总数,提高话题匹配成功的概率;所述热搜词是用户在搜索指定商品时输入的搜索词,热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。
4.如权利要求1所述方法,其特征在于:所述步骤2)中,微博数据通过网络爬取,抓取最新的热搜微博内容;这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博;将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。
5.如权利要求4所述方法,其特征在于,所述除噪过滤方法包括以下步骤:
2.1)去除所有的标点符号以及表情非常用文本符号;
2.2)去除所有以“@”开头以及冒号结尾的字符串;
2.3)去除以“#”开头与结尾的字符串。
6.如权利要求1所述方法,其特征在于:所述泛产品品类名称部分检索中,使用HanLP汉语言处理包对微博内容进行分词,并将所有的泛产品品类名称作为词典对分词结果进行过滤;过滤后出现次数最多的前十个词,去除其中出现次数不超过1次的词,用这些词在知识图谱中的泛产品品类名称部分进行检索,即与每一个商品品类下相关的所有泛产品品类名称进行匹配,每匹配成功,便为该品类累计得分
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811396382.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:跨语言的词汇义原预测方法、装置与电子设备
- 下一篇:汽车远程检测方法





