[发明专利]基于电商用户行为数据的近义词识别方法有效
| 申请号: | 201510129041.5 | 申请日: | 2015-03-24 |
| 公开(公告)号: | CN104657514B | 公开(公告)日: | 2018-05-25 |
| 发明(设计)人: | 王军;甘骏;彭中正;王磊;张迪;肖琴 | 申请(专利权)人: | 成都知数科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 近义词 算法模型 训练集数据 词类数据 命名实体 商品描述 行为数据 词组 近义 商用 标注 用户行为数据 数据预处理 结果数据 数量对应 随机选择 有效实体 原始数据 相似度 词库 分词 过滤 输出 返回 | ||
本发明公开了一种基于电商用户行为数据的近义词识别方法,解决了现有技术中如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。该识别方法包括:(1)将原始数据进行数据预处理;(2)随机选择部分商品描述数据分词并进行标注;(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,得到结果数据有效实体词库;(5)过滤用户行为数据;(6)组成多个相似词类数据集;(7)组成与相似词类数据集数量对应的近义词组;(8)整理汇总所有近义词组,计算词与词之间的相似度;(9)输出近义词识别结果。
技术领域
本发明涉及自然语言处理领域,具体的说,是涉及一种基于用户行为数据的近义词识别方法。
背景技术
近年来,互联网电子商务蓬勃发展,影响渗透到人类生活的方方面面。互联网上存在着不同品类上亿种商品,单靠人工,甚至不可能将所有商品遍历一遍,更遑论识别分析,个性化搜索是解决大数据提取的重要方案。在大数据领域,文字搜索面临的最大挑战就是提高召回率。准确的词语联想,可以极大地提高搜索结果召回率。然而,现有技术中,并没有解决商品标题关键词的命名实体和对命名实体的近义词识别的问题,极大地降低了词语联想的准确性。
发明内容
本发明的目的在于克服上述缺陷,提供一种基于用户行为数据的近义词识别方法,解决了如何识别商品标题关键词的命名实体和对命名实体的近义词识别的问题。
为了实现上述目的,本发明采用的技术方案如下:
基于电商用户行为数据的近义词识别方法,包括以下步骤:
(1)将原始数据进行数据预处理,提取目标商品的商品描述数据和用户行为数据;
(2)随机选择部分商品描述数据分词并进行标注;
(3)返回标注的商品描述数据并作为隐马尔可夫算法模型的训练集数据;
(4)通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并由隐马尔可夫算法识别提取的商品描述数据,得到结果数据有效实体词库;
(5)过滤用户行为数据,从中提取用户浏览行为数据和用户搜索行为数据;
(6)读取用户浏览行为数据和用户搜索行为数据,组成多个相似词类数据集;
(7)调用隐马尔可夫算法模型,识别相似词类数据集中每个近义词类的有效实体和相同词性的实体,组成与相似词类数据集数量对应的近义词组;
(8)整理汇总所有近义词组,计算词与词之间的相似度;
(9)按相似度大小归一化排序,输出近义词识别结果。
进一步的,所述步骤(6)的具体方法如下:
读取用户浏览行为数据
(61)读取用户浏览行为数据,建立用户-商品二部图;
(62)利用经典的基于物品的协同过滤算法,计算商品间的相似度;
(63)提取每个商品对应的相似度最高的5-10个商品对应的词,组成一个相似词类;
读取用户搜索行为数据
(64)读取用户搜索行为数据,提取用户每次搜索输入的搜索词和点击过的所有商品对应的词,组成一个搜索词类;
(65)提取同一个商品被搜索点击时,用户输入的搜索词,组成一个相似词类。
进一步的,所述原始数据包括原始商品描述数据和原始用户行为数据。
进一步的,所述步骤(1)的具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知数科技有限公司,未经成都知数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510129041.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据采集系统
- 下一篇:一种资源预勘方案的获取方法和装置





