[发明专利]一种知识共享平台的词条处理装置和方法有效
| 申请号: | 201410268830.2 | 申请日: | 2014-06-16 |
| 公开(公告)号: | CN104021202B | 公开(公告)日: | 2017-11-24 |
| 发明(设计)人: | 李永强 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京铭硕知识产权代理有限公司11286 | 代理人: | 王艳娇 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 知识 共享 平台 词条 处理 装置 方法 | ||
1.一种知识共享平台的词条处理装置,所述装置包括:
候选词条获取单元,用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;
内容比较单元,用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;
词条确定单元,用于根据内容比较单元计算的文本相似度,从候选词条中确定与所述第一目录相关的词条,
其中,候选词条获取单元选择所述第一目录的目录名加上所述第一目录的一部分目录内容组成候选文本,从所述候选文本中确定属于词条数据库中的现有词条,将所述现有词条确定为所述候选词条。
2.如权利要求1所述的装置,其中,所述候选词条获取单元使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
3.如权利要求1所述的装置,其中,所述内容比较单元使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
4.如权利要求1所述的装置,其中,所述词条确定单元具体用于:将针对所述候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则所述词条确定单元将高于预设阈值的候选词条确定为与所述第一目录相关的词条。
5.如权利要求4所述的装置,其中,所述词条确定单元还用于:确定所述候选词条是否满足预设的多条后处理规则;如果满足预设的多条后处理规则中的第N条,则所述词条确定单元确定所述第N条后处理规则对应的阈值,并判断针对满足所述第N条后处理规则的候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则所述词条确定单元将高于与所述第N条后处理规则对应的阈值的候选词条确定为与所述第一目录相关的词条,N为自然数。
6.一种知识共享平台的词条处理方法,所述方法包括:
根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内 容,获取与所述第一目录关联的候选词条及其词条内容;
计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;
根据计算的文本相似度,从候选词条中确定与所述第一目录相关的词条,
其中,在获取所述候选词条的步骤中,选择所述第一目录的目录名加上所述第一目录的一部分目录内容组成候选文本,从所述候选文本中确定属于词条数据库中的现有词条,将所述现有词条确定为所述候选词条。
7.如权利要求6所述的方法,其中,使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
8.如权利要求6所述的方法,其中,使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
9.如权利要求6所述的方法,其中,确定与所述第一目录相关的词条的步骤具体包括:将针对所述候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则将高于预设阈值的候选词条确定为与所述第一目录相关的词条。
10.如权利要求9所述的方法,其中,确定与所述第一目录相关的词条的步骤进一步包括:确定所述候选词条是否满足预设的多条后处理规则;如果满足预设的多条后处理规则中的第N条,则确定所述第N条后处理规则对应的阈值,并判断针对满足所述第N条后处理规则的候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则将高于与所述第N条后处理规则对应的阈值的候选词条确定为与所述第一目录相关的词条,N为自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410268830.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一体式室内外空气交换机
- 下一篇:一种锂离子电池的化成方法





