[发明专利]一种语料结构化的方法及装置有效
| 申请号: | 201110260373.9 | 申请日: | 2011-09-05 |
| 公开(公告)号: | CN102982036A | 公开(公告)日: | 2013-03-20 |
| 发明(设计)人: | 李凯;翟因为;黄冶 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种语料结构化的方法及装置,应用于信息处理技术领域。该方法包括:获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。应用本发明提供的方法和装置将语料文件进行结构化,从而能够满足精确检索的要求。 | ||
| 搜索关键词: | 一种 语料 结构 方法 装置 | ||
【主权项】:
一种语料结构化的方法,其特征在于,包括:获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110260373.9/,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置和图像形成系统
- 下一篇:电加热吸烟系统





