[发明专利]基于依存分析实现菜名实体识别的方法有效
申请号: | 201910354720.0 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110222332B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 杨晓燕;庄泽彬;陈子扬;徐戈;李佐勇 | 申请(专利权)人: | 闽江学院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 徐东峰 |
地址: | 350108 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 依存 分析 实现 实体 识别 方法 | ||
本发明提供了一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
技术领域
本发明涉及一种基于依存分析实现菜名实体识别的方法。
背景技术
命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体,菜名实体识别有以下几个难点:(1)中文菜名种类繁多,无法列出菜名清单;(2)中文复合菜名的构成比较复杂,可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成,如香菇菜心、东坡红烧肉、水煮牛肉;(3)因为地域和餐厅不同,所以待识别的菜名可能会产生很多别名,如:黑米饭,乌米饭;(4)待识别的菜名可能会由许多单词修饰,导致实体的边界难以划分,如水煮鱼、酸菜鱼、烤鱼、红烧鱼;(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难,如蚂蚁上树,青龙卧雪、龙凤呈祥,这给菜名识别增加难度,因此菜名是命名实体中相对较难识别的一类。
发明内容
本发明提供了一种基于依存分析实现菜名实体识别的方法,可以有效解决上述问题。
本发明是这样实现的:
一种基于依存分析实现菜名实体识别的方法,包括以下步骤:
S1,建立菜名语料库;
S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;
S3,读取当前行,并寻找词性是名词的词语作为候选词;
S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;
S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。
作为进一步改进的,所述建立菜名语料库的步骤包括:
从网络上下载客户对商家的评论文本建立菜名语料库。
本发明的有益效果是:采用本发明基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足;可以快速的、准确的识别菜名。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的基于依存分析实现菜名实体识别的方法的流程图。
图2是本发明实施例提供的基于依存分析实现菜名实体识别的方法中对语料进行预处理后的依存关系。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于闽江学院,未经闽江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354720.0/2.html,转载请声明来源钻瓜专利网。