[发明专利]基于网页文本语义特征的在线零售额计算方法在审
申请号: | 201310575302.7 | 申请日: | 2013-11-15 |
公开(公告)号: | CN103605724A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 柴跃廷;孙骁 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网页 文本 语义 特征 在线 零售额 计算方法 | ||
技术领域
本发明涉及互联网大数据技术领域,具体涉及一种基于网页文本语义特征的在线零售额计算方法。
背景技术
互联网全时空可接入、虚拟化、开放化的特点,使得电子商务作为一种新兴的商业模式迅速发展。为了进行科学有效的管理,通常需要统计某段时间内的在线零售总额。现有技术中计算在线零售额的计算方法大致可分为三类,略述如下。
1.结算中心法
这种方法需要目标市场设置一个或多个结算中心,以便将每一笔交易记录在案。因为结算中心记录了每一次交易清单,所以通过这种方法得到的交易额是最准确的,同时也是实时的。股票市场中的情形正是如此。在面向消费者的在线零售的市场中,任何一个企业都有自己的结算中心,即订单处理系统,但是企业出于种种考虑,并不总能如实地披露自己的交易额,多有夸大成分。
2.间接统计法
这种方法的思想是利用辅助信息,间接估算交易额。辅助信息一般来自于交易流程中起重要作用的步骤,例如大多数订单的履行都离不开物流,那么如果想要知道一段时期内某一企业的交易额,可以通过获取该段时间内企业的物流包裹量,再乘以客单价,即可大致计算出企业的交易额。同样地道理,也可以统计该段时间内各大银行、第三方支付平台、邮局汇款等金融机构流入企业的资金量。这种方法的弊端是信息源的不准确甚至不可获取,不论是获取物流还是资金流,都不是一件容易的事情。因此这种方法只能给出交易额的参考值。
3.抽样统计法
这种方法基于普查理论,先将目标市场划分为不同群体,再在不同群体内部进行抽样,取得一定数量的样本,对每一个样本做调查,最后将结果汇总,推算出总体的指标数值。这种方法的理论基础坚实,是目前应用最广泛的交易额统计方法。美国普查局主导的对电子商务市场交易规模的年度调查曾多次采用这种方法,将全部企业按制造业、批发业、零售业、服务业等群体分层抽样,各群体内部再做进一步的划分,例如批发业又被划分为电子类、药类、工业零件类等。由数理统计理论保证,如果抽样过程满足一定的条件,那么这种方法的结果是可以让人信服的。但是,样本数据来源于接收问卷的企业自己上报,很难保证其客观性。同时,这种方法要求实施方掌握了目标市场的结构数据,兼有强大的实施力和大量的人力物力。因此,这种方法只适用于政府主导的年度市场调查,单个组织机构很难实施,此外,它只能给出市场层面的数据,而缺乏对企业层面的精细考察,统计结果也会有一定程度的滞后。
以上三种方法从本质上说,都延续了传统市场的思路,没有充分利用电子商务这种在线交易方式的特点。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的目的在于提出一种基于网页文本语义特征的在线零售额计算方法。
为了实现上述目的,根据本发明实施例的基于网页文本语义特征的在线零售额计算方法,包括:对网民总体进行分层抽样得到样本;实时监测样本成员的上网行为,基于网页语义特征发现所述样本成员的网络购物下达的订单,并基于网页语义特征从所述订单中抓取订单金额;对样本网络购物信息进行实时汇总及统计,得到所述在线零售额,其中,所述样本网络购物信息包括所述订单以及所述订单金额。
根据本发明实施例的基于网页文本语义特征的在线零售额计算方法,与现有技术相比,优点在于:订单信息是实时抓取并分析的,因此统计结果是实时的;当样本成员在其常用计算机上安装完客户端软件之后,信息的收集和汇总完全由计算机和互联网技术自动完成,因此统计过程是便捷的;样本成员订单金额的监测由客户端内部算法完成,算法经过理论推导和实际测试证明是有效的、精确的,统计流程剔除了人为因素的干扰,因此数据来源是客观的,数据是准确的。
另外,根据本发明实施例的基于网页文本语义特征的在线零售额计算方法还可以具有如下附加技术特征:
在本发明的一个实施例中,所述基于网页语义特征发现所述样本成员网络购物下达的订单具体包括以下步骤:获得当前网页源代码;过滤出网页源代码内的中文;检测网页中文文本内是否含有网页文本特征,得到网页特征向量;根据网页特征向量计算网页特征数值;若所述网页特征数值大于网页特征数值阈值,则所述网页是订单页面,否则是非订单页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310575302.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效的海水烟气脱硫脱硝方法
- 下一篇:科研信息演化的分析方法和装置