[发明专利]电子产品命名实体自动识别系统的构建方法及识别方法无效
申请号: | 201010602773.9 | 申请日: | 2010-12-23 |
公开(公告)号: | CN102033950A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 孙承杰;林磊;梅丰;王晓龙;刘远超;刘秉权 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子产品 命名 实体 自动识别 系统 构建 方法 识别 | ||
1.电子产品命名实体自动识别系统的构建方法,其特征在于它包括下述步骤:一、利用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词和词性标注处理,之后按照电子产品命名实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标注语料库;所述对电子产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系列名和型号三部分区分出电子产品命名实体;二、基于条件随机域方法,定义多个特征模板,特征模板利用标注语料和知识库具体化出特征,条件随机域方法在标注语料库上的运算结果可以为每个特征赋予一定的权重,特征和其对应的权重构成的条件随机域模型就能用来进行电子产品命名实体识别。
2.根据权利要求1所述的电子产品命名实体自动识别系统的构建方法,其特征在于知识库中的资源均是利用网络爬虫技术和信息抽取技术从互联网上自动获取的;所述知识库包括:针对电子产品具有品牌信息特性所构造的品牌名词典;针对一个品牌下的电子产品有系列之分所构造的系列名词典;或针对一些具有特定意义的短语所构造的特定词语知识库。
3.基于权利要求1所述方法构建的电子产品命名实体自动识别系统的识别方法,其特征在于它包括下述步骤:一、把用于识别的自由文本输入所述电子产品命名实体自动识别系统;二、系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算就得到最终的识别结果。
4.根据权利要求3所述的电子产品命名实体自动识别方法,其特征在于它还包括步骤三、采用规则修正方法对识别后的电子产品命名实体进行修正,所述修正规则是通过基于错误驱动的方法获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010602773.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资源推荐方法及装置
- 下一篇:二次蒸发空调器