[发明专利]一种电子商务字典中单字词的自动抽取方法无效
申请号: | 201310079808.9 | 申请日: | 2013-03-14 |
公开(公告)号: | CN103136191A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 姚明东;陈浩;范英磊 | 申请(专利权)人: | 姚明东 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 字典 字词 自动 抽取 方法 | ||
技术领域
本发明主要面向电子商务领域。尤其涉及一种电子商务字典中单字词的自动抽取方法
背景技术
随着信息技术的飞速发展,各种新鲜词层出不穷,尤其在电子商务领域中,各种新词汇出现更为频繁。目前主流应用大多采用手工生成或简单统计生成,也有部分采用机器学习的方法去搜集词条形成字典。
电子商务字典是电子商务网站应用的基础,单字词是指由一个字所构成的有独立意义的单词如“水”、“锡”、“与”、“寸”等,在电子商务网站搜索引擎、推荐系统、分词系统等多方面单字词是不可或缺的成分。然而,由于单字词字符长度短,因而在自动抽取和分词过程中容易被忽略,如何从长段文本中精确抽取单字词是一项较具挑战性的工作。
目前对于单字词的获取,单纯基于机器学习的方法无法区分字是独立词还是其它词的子串,因此都是通过搜集一些样本文档,然后手工去获取单个字的词以及单个字作为独立词出现的概率。这种方法的缺点主要包括:一是人工处理工作量大,效率低;二是人工处理主观性强,标准很难统一;三是单个字是否可以独立存在与领域相关,人工判断没有依据。比如“熊”,在通用字典中是词,但是在电子商务中则不是(基于我们统计的大量数据,熊在电子商务平台商品中出现过,比如熊胆,但从未独立出现过。)
发明内容
本发明针对电子商务领域特点,提出一种电子商务领域中单字词的自动获取方法。
本发明的技术方案如下:
一种电子商务字典中单字词的自动抽取方法,包括以下步骤:
A1、语料准备和预处理;
A2、对语料进行带有冗余数据的递进穷举,获取所有可能的潜在词组合;采用递进穷举方法按有效词最大长度+1穷举各种分词组合,同时累计各种单字及多字组合出现的频率,形成完整的包含所有可能潜在词集合。引进大于有效词长度的无效潜在词用于过滤切分边界数据;
A3、对于长度为2以上的基于较短潜在词在一组以该词作为前缀/后缀的最短长潜在词中分布的离散度进行无效词的过滤;
A4、基于长度为2以上潜在词独立出现的概率进行无效词过滤;
较短潜在词在包含它的最短长潜在词中出现次数大于一定阀值,并且长潜在词不符合正则过滤条件,则短潜在词count减长潜在词count的差值,对于差为0的短潜在词直接删除,否则短潜在词count为所述差值;
A5、对于经过A3、A4两步过滤后剩余的长度为2以上的潜在词进行正则过滤,前缀/后缀/中间包含在预先定义的集合中,并且剩余部分都为以上过滤之后有效词的,则删除该潜在词;同时对于前缀/后缀包含在预先定义的集合中,并且不在例外的词的集合;
A6、出现在唯一上下文中误删除长度为2以上有效词的补偿;首先基于如下条件判断出现在唯一上下文中误删除的潜在词:
(1)该潜在词不符合正则过滤条件;
(2)包含该潜在词的所有潜在词都被过滤掉了,不管长度是多少;
(3)该潜在词的count与所有包含它的潜在词count相同;
其次,找到包含该误删除词的最长潜在词;在一个潜在词出现在多个最长潜在词的情况下,做拼接,重新还原切分边界;然后对以上最长潜在词/还原的切分单元基于已有有效词进行正/逆向最大匹配分词,如果切分的组合已经作为一个潜在词出现在有效词词典中,则继续向后扫描字符串,对于没有出现在潜在词字典中的长度不小于2的 最长切分组合加入到有效潜在词词典中,频率为该组合的全切分的原始频率;最后对于最长潜在词中不包含有效词的,则保留最长潜在词,加入有效词词典中;
A7、单个字在更长词中作为子串出现的频率统计:找到包含该字的所有其它更长有效词,从短到长依次处理,删除所有包含当前词的更长词;
A8、补偿交集型误统计修正,减掉重复统计的单字词在更长词中作为子串出现的频率;
1)对于所有步骤A7中剩余词获取全切分结束后的原始count,作为词的当前count;
2)对于步骤A7中剩余词找到所有以当前字作为前缀和后缀的潜在词,作为前缀和后缀的分为两组,两组中各取一个两两组合;
3)对2)中生成的组合结果到步骤A7的结果中逐一匹配,对于匹配成功的组合,则用组成该组合的两个词其中之一的当前count减去组合的原始count;
A9、单字词独立出现频率统计计算,从递进穷举中获取的单字词的总频率减掉步骤8最终获取的count;
A10、过滤结束,剔除在所有语料中出现次数很少的词低频词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚明东,未经姚明东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310079808.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配合式检测量规
- 下一篇:一种用于工程塑料保持架内外径的检测工装