[发明专利]电子产品命名实体自动识别系统的构建方法及识别方法无效
申请号: | 201010602773.9 | 申请日: | 2010-12-23 |
公开(公告)号: | CN102033950A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 孙承杰;林磊;梅丰;王晓龙;刘远超;刘秉权 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 牟永林 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 电子产品命名实体自动识别系统的构建方法及识别方法,本发明涉及自然语言处理中的命名实体识别系统的构建方法和识别方法,属于从相关信息中把电子产品的名称进行自动识别的技术。用于电子产品的名称识别。它解决了基于规则的识别系统在识别时召回率较低,而基于机器学习的识别系统识别时需要人工标注大量训练语料的问题。构建方法包括下述步骤:形成原始语料的知识库;构建一个标注语料库;基于条件随机域方法进行电子产品命名实体识别。识别方法包括下述步骤:把自由文本输入电子产品命名实体自动识别系统;系统首先利用特征模板提取特征,然后利用条件随机域模型得到每个特征对应的权重,把这些权重利用条件随机域方法进行运算得到识别结果。 | ||
搜索关键词: | 电子产品 命名 实体 自动识别 系统 构建 方法 识别 | ||
【主权项】:
电子产品命名实体自动识别系统的构建方法,其特征在于它包括下述步骤:一、利用下载软件从互联网中收集多种体裁的电子产品网页信息,提取出网页信息的正文,从而形成原始语料的知识库;使用分词词性标注工具,对原始语料进行分词和词性标注处理,之后按照电子产品命名实体的定义,对分词和词性标注后的语料进行实体标注,构建一个标注语料库;所述对电子产品命名实体的定义是指按照一个电子产品命名实体的品牌名、系列名和型号三部分区分出电子产品命名实体;二、基于条件随机域方法,定义多个特征模板,特征模板利用标注语料和知识库具体化出特征,条件随机域方法在标注语料库上的运算结果可以为每个特征赋予一定的权重,特征和其对应的权重构成的条件随机域模型就能用来进行电子产品命名实体识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010602773.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种资源推荐方法及装置
- 下一篇:二次蒸发空调器