[发明专利]一种用于对待分类词条进行分类的方法、装置与设备在审
申请号: | 201310049244.4 | 申请日: | 2013-02-07 |
公开(公告)号: | CN103984685A | 公开(公告)日: | 2014-08-13 |
发明(设计)人: | 何明哲 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 对待 分类 词条 进行 方法 装置 设备 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于对待分类词条进行分类的方法、装置与设备。
背景技术
在现有的输入法技术中,对输入法词库的词条扩充方式主要为抓取网页中的待分类词条,随后对待分类词条执行人工分类操作,而尚未存在较好的自动分类方式。当面对海量的待分类词条数据时,人工分类方式成本较高,且分类效率较低,严重影响输入法词库的词条扩充与完善。
因此,如何实现自动化地对待分类词条进行分类,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种用于对待分类词条进行分类的方法、装置与设备。
根据本发明的一个方面,提供了一种用于对待分类词条进行分类的方法,该方法包括以下步骤:
a将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
b将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
c根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
根据本发明的另一方面,还提供了一种用于对待分类词条进行分类的分类装置,该分类装置包括:
第一相似度获取装置,用于将待分类词条与多个网页分别进行相似度计算,以获取所述待分类词条分别与所述多个网页的相似度信息;
第一网页确定装置,用于将所述相似度信息大于预定相似度阈值的至少一个网页确定为提取网页;
分类选择装置,用于根据所述提取网页包括的多个已分类词条分别所属的分类信息的出现频次,来由所述多个已分类词条分别所属的分类信息中选择至少一个分类信息作为所述待分类词条的分类信息。
与现有技术相比,本发明与现有技术的区别在于:1)基于待分类词条与多个网页的相似度信息来确定多个网页中的提取网页,根据提取网页包括的多个已分类词条分别所属的分类信息的出现频次,从多个已分类词条分别所属的分类信息中选择至少一个分类信息作为待分类词条的分类信息,实现了自动化地对待分类词条进行分类操作,从而降低人工分类成本,在保证分类质量的前提下极大地提升了分类效率,进而为扩充输入法词库中词条扩充与完善提供了保证;2)重复地执行相似度信息获取操作、提取网页确定操作、分类信息选择操作和待分类词条确定操作,在满足预定的停止条件时结束重复执行操作,实现了自动提取待分类词条、并对待分类词条自动进行分类的分类循环操作,进一步提升分类效率,适于从海量网页中提取待分类词条并对其自动执行分类,进一步为快速准确地扩充输入法词库提供了有力保证。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于对待分类词条进行分类的分类装置的装置示意图;
图2示出根据本发明一个优选实施例的用于对待分类词条进行分类的分类装置的装置示意图;
图3示出根据本发明另一个方面的用于对待分类词条进行分类的方法流程图;
图4示出根据本发明一个优选实施例的用于对待分类词条进行分类的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于对待分类词条进行分类的分类装置的装置示意图。本实施例的分类装置包含于网络设备中;该分类装置包括第一相似度获取装置1、第一网页确定装置2和分类选择装置3。
其中,所述网络设备包括一种能够按照预先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例,其他现有的或今后可能出现的网络设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310049244.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:挖掘机
- 下一篇:一种薄板筒体装焊的设备