[发明专利]用于购物网页的短文本分类方法、装置、设备及其介质在审
| 申请号: | 201810413709.2 | 申请日: | 2018-05-03 |
| 公开(公告)号: | CN110443661A | 公开(公告)日: | 2019-11-12 |
| 发明(设计)人: | 包喆元 | 申请(专利权)人: | 上海媒科锐奇网络科技有限公司 |
| 主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F17/27 |
| 代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
| 地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 短文本 短文本分类 分类 分词 购物 网页 去噪声 信息技术领域 分词处理 商品领域 网页获取 | ||
本发明涉及信息技术领域,公开了一种用于购物网页的短文本分类方法、装置、设备及其介质。本发明的用于购物网页的短文本分类方法包括:从购物网页获取待分类短文本;对待分类短文本进行分词处理得到待分类短文本的第一分词集;对第一分词集进行去噪声处理得到待分类短文本的第二分词集;基于第二分词集提取对应待分类短文本的关键词;根据提取的关键词和商品领域词集,将待分类短文本进行分类。本发明能够针对购物网页中短文本数据的类型特点,通过去噪声和领域词集的使用,提高对短文本分类的准确性。
技术领域
本发明涉及信息技术领域,特别涉及一种用于购物网页的短文本分类方法、装置、设备及其介质。
背景技术
在对购物网页的数据进行搜索时,一般采用垂直搜索引擎进行垂直搜索。为了实现购物网页的垂直搜索,需要对网页进行web(万维网)数据结构化,web数据结构化主要是针对网页库中的商品数据进行分类、规整、使数据结构化。对于现在web数据结构化目前业内的做法大多数应用基于数据挖掘算法的智能分类技术,但是也有少许地方应用人工干预的方式进行分类。在web数据结构化过程中,需要计算文本相似度,但是,由于web中商品的数据形式是短文本形式的,而现有的文本相似度计算方法大多数适应于长文本,相似的长文本一般包含一定数量的相同的词汇,但是相似的短文本不一定有相似或者相同的词,从而导致现有的基于web数据结构化的文本分类效果较差,分类准确率较低。
发明内容
本发明的目的在于提供一种用于购物网页的短文本分类方法、装置、设备及其介质,可针对购物网页中短文本数据的类型特点,通过去噪声和领域词集的使用,提高对短文本分类的准确性。
为解决上述技术问题,本发明的实施方式公开了一种用于购物网页的短文本分类方法,该方法包括:
从购物网页获取待分类短文本;
对待分类短文本进行分词处理得到待分类短文本的第一分词集;
对第一分词集进行去噪声处理得到待分类短文本的第二分词集;
基于第二分词集提取对应待分类短文本的关键词;
根据提取的关键词和商品领域词集,将待分类短文本进行分类。
在一示范例中,对第一分词集进行去噪声处理得到待分类短文本的第二分词集包括:
采用词频-反文档频率算法计算第一分词集中的分词的重要度;
采用文档频数算法从重要度低于预定重要度的分词中选择噪声词;
从第一分词集中删除噪声词得到第二分词集。
在另一示范例中,根据提取的关键词和商品领域词集,将待分类短文本进行分类包括:
基于提取的关键词,对待分类短文本进行向量化处理,得到向量化短文本;
通过将提取的关键词在商品领域词集中进行匹配,确定待分类短文本所属的商品领域;
基于待分类短文本所属的商品领域,对向量化短文本进行聚类处理;
根据聚类处理的结果对待分类短文本进行分类。
在另一示范例中,基于待分类短文本所属的商品领域,对向量化短文本进行聚类处理包括:
对向量化短文本执行马氏距离软聚类计算,得到类目体系的相似度,
根据聚类结果对待分类短文本进行分类包括:
根据类目体系的相似度对待分类短文本进行分类。
本发明的实施方式还公开了一种用于购物网页的短文本分类装置,该装置包括:
获取单元,用于从购物网页获取待分类短文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海媒科锐奇网络科技有限公司,未经上海媒科锐奇网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810413709.2/2.html,转载请声明来源钻瓜专利网。





