[发明专利]特征词汇提取方法及装置有效
| 申请号: | 201610152669.1 | 申请日: | 2016-03-17 |
| 公开(公告)号: | CN107203507B | 公开(公告)日: | 2019-08-13 |
| 发明(设计)人: | 张增明 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征 词汇 提取 方法 装置 | ||
本申请提供一种特征词汇提取方法及装置。其中,方法包括:获取网络资源的描述信息作为提取语料;对提取语料进行词组标记,以获得词组标记结果;从词组标记结果中,提取可以反映网络资源特征的特征词汇。采用本申请提供的方法,可以保证所提取到的特征词汇的数量,提高特征词汇的质量。
【技术领域】
本申请涉及数据处理技术领域,尤其涉及一种特征词汇提取方法及装置。
【背景技术】
随着互联网的高速发展,网上的信息量急剧增加,用户需要从中搜索所需的信息。例如,在电子商务领域,用户需要在成千上万的商品中搜索心仪的商品。
在现有技术中,电子商务网站除了收集商品的结构化信息,例如类目、标题、价格等之外,还需要收集其它能体现商品特点的词汇,例如款式(中袖、无袖、长袖、v领、圆领等)、样式(波点、千鸟格等)、材料(涤纶、丝等)等,丰富商品的基础特征数据。这些体现商品特点的词汇称为特征词汇。
目前,电子商务网站获取商品的特征词汇的常用方法是:在商家发布商品时,引导商家自己填写最能反映商品特点的词汇。由于不是每个商家都愿意且有能力填写每个商品的特征词汇,所以采用这种方法获取商品的特征词汇,存在词组数量不足,词组质量较差等问题。
【发明内容】
本申请的多个方面提供一种特征词汇提取方法及装置,用以保证特征词汇的数量,提高特征词汇的质量。
本申请的一方面,提供一种特征词汇提取方法,包括:
获取网络资源的描述信息作为提取语料;
对所述提取语料进行词组标记,以获得词组标记结果;
从所述词组标记结果中,提取可以反映所述网络资源特征的特征词汇。
本申请的另一方面,提供一种特征词汇提取装置,包括:
获取模块,用于获取网络资源的描述信息作为提取语料;
标记模块,用于对所述提取语料进行词组标记,以获得词组标记结果;
提取模块,用于从所述词组标记结果中,提取可以反映所述网络资源特征的特征词汇。
在本申请中,使用网络资源的描述信息作为提取语料,对提取语料进行词组标记,然后从中提取可以反映网络资源特征的特征词汇,与现有技术中引导网络资源提供者手动填写特征词汇的方案相比,消除了网络资源提供者主观因素的影响,不仅可以提取足够数量的特征词汇,而且可以保证特征词汇的质量。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的特征词汇提取方法的流程示意图;
图2为本申请另一实施例提供的特征词汇提取方法的流程示意图;
图3为本申请又一实施例提供的特征词汇提取方法的流程示意图;
图4为本申请又一实施例提供的特征词汇提取装置的结构示意图;
图5为本申请又一实施例提供的特征词汇提取装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610152669.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可平滑扩容的直流充电桩组
- 下一篇:自感应照明型充电桩





