[发明专利]标签组分类方法、设备和数据混合方法、设备有效
| 申请号: | 201110101514.2 | 申请日: | 2011-04-19 |
| 公开(公告)号: | CN102750289A | 公开(公告)日: | 2012-10-24 |
| 发明(设计)人: | 张军;钟朝亮;王主龙;大木宪二;田中昌弘;粂照宣;松尾昭彦 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;李春晖 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签 组分 方法 设备 数据 混合 | ||
技术领域
本发明涉及数据处理,更具体地涉及标签组的分类方法和设备,以及数据混合方法和设备。
背景技术
目前,存在用于描述数据的各种数据格式标准,例如XML(eXtensible Markup Language,可扩展标记语言)、JSON(JavaScript Object Notation,JavaScript对象表示)或CSV(Comma Separated Values,逗号分隔值)等。在每种数据格式标准中,分别定义了用于描述数据内容的含义的标签。例如,对于列表型的数据,例如对于包含若干条新闻的新闻列表,可以定义用于描述新闻内容的一组标签:title(标题)、pubdate(发布时间)、author(作者)等;再例如,对于包括了若干个日程安排的日程安排表,可以定义用于描述日程安排内容的一组标签:starttime(开始时间)、endtime(结束时间)、attendees(参加者)和location(地点)等。因此,利用该组标签,可以方便地发布或访问数据内容。
但是,对于相同或类似含义的数据内容,不同的数据格式标准可能采用不同的标签进行描述。例如,针对数据内容“创建数据的人”,不同的数据格式标准可能采用“author(作者)”、“writer(写作者)”或“creater(创作者)”等不同的标签。因此,存在这样的需求:识别用不同标签描述的相同或相似含义的数据内容,并且用统一的标签来描述上述相同或相似的数据内容,从而完成相同或相似含义的数据内容的混合。
现有技术中,通过直接比较多个数据内容本身来判断多个数据内容之间是否相同或相似。由于数据内容本身的数据量比较大,因此直接比较多个数据内容本身,往往导致计算量大,而且判断的准确性也较差。
另外,现有技术中也存在通过比较两个标签之间是否相同或相似来判断两个标签所描述的数据内容是否相同或相似的技术。但是,实际使用中存在各种不同的数据格式标准,其所采用的标签也千差万别。如果仅仅将标签与标签进行比较,很难综合考虑各种标签的多种特征,导致判断的准确性也较差。
而且,如上所述,例如对于包含若干条新闻的新闻列表,可以定义用于描述一条新闻内容的一组标签(在下文中称为“标签组”):title(标题)、pubdate(发布时间)、author(作者)等。由此可见,一条数据内容一般是由描述该条数据内容的包含若干个标签的标签组所定义的。因此,判断多条数据内容之间是否具有相同或相似含义,应该综合判断用于描述多条数据内容的多个标签组之间是否相同或相似。如果仅将标签与标签进行比较,则难以判断用包括若干个标签的标签组所描述的数据内容是否具有相同或相似含义。
发明内容
考虑到上述问题,申请人认识到应该通过比较多个标签组是否相同或相似来识别具有相同或相似含义的数据内容。本发明的核心思想在于,为了比较多个标签组是否相同或相似,可以先将相同或相似的标签组划分成同一类,再将新发现的标签组与所划分的标签组的类进行比较。由于同一类中的所有标签组都是相同或相似的,因此标签组的类综合考虑了各种标签组的多种特征。所以,通过将标签组与标签组的类进行比较,可以更准确地判断标签组之间的相同或相似。
根据本发明的一个实施例,提供了一种对标签组进行分类的方法,其中标签组包括至少一个标签和由至少一个标签定义的相应数据,上述方法包括:在多个同义标签集中确定标签组的每个标签所属的同义标签集;生成与标签组相对应的特征向量,在所生成的特征向量中,每个元素分别与多个同义标签集中的不同同义标签集相对应,每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目;计算特征向量与至少一个类中每个类的核心特征向量之间的相似度,其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和;根据所计算出的相似度,将标签组分类到至少一个类中接近的类中。
上述分类步骤包括:根据所计算出的标签组与至少一个类中每个类之间的相似度是否超过预定阈值,来确定至少一个类中每个类是否为接近的类;以及如果至少一个类中没有接近的类,则将标签组分类到一个新的类中。
在上述分类步骤中,如果接近的类有多个,则将标签组分类到所计算的最大相似度所对应的类中。
上述相似度包括余弦相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110101514.2/2.html,转载请声明来源钻瓜专利网。





