[发明专利]基于文法网络和lucene的语义分析方法在审
申请号: | 201710972496.2 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107704451A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 周红;刘楚雄 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 四川省成都市天策商标专利事务所51213 | 代理人: | 谭德兵,李洁 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文法 网络 lucene 语义 分析 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种利用ABNF语义规范和Lucene搜索引擎解决语义分析的方法。
背景技术
随着人工智能的兴起,自然语言处理作为人工智能领域的一个重要方向,主要研究人与计算机通过自然语言进行通信的理论和方法,规则化的文法规范仍然是市场上的主流选择。不管是正则匹配的方式还是文法网络的方式,都需要穷举出所有可能出现的语法,可是像视频名称,演员,电视频道之类的数据用文本穷举的方式显然是不合理的。
目前的自然语言理解,通用方式是:按规则来进行匹配或神经网络深度学习。神经网络深度学习需要长期的数据收集和大量的数据样本进行训练和字典标注,并且精准度不稳定,解析结果会有所偏差,短期来看,特别不适合初始阶段,所以规则匹配和神经网络的搭配开发是一个健壮合理的开发方法。
发明内容
本发明克服了现有技术的不足,提供一种快速高效解析语义的基于文法网络和lucene的语义分析方法。
考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:
一种基于文法网络和lucene的语义分析方法,包括:
a)编写文法网络语法规则;
b)Lucene索引文件构建;
c)解析器中增加lucene搜索叶子节点rule列表;
d)语句匹配,按照定义的规则,匹配指定的叶子节点。
为了更好地实现本发明,进一步的技术方案是:
根据本发明的一个实施方案,还包括:定时进行Lucene索引文件增量构建。
根据本发明的另一个实施方案,采用ABNF语法规则。
根据本发明的另一个实施方案,所述步骤c)中采用antlr文法规范解析器。
根据本发明的另一个实施方案,所述步骤d)中按照节点一层一层匹配。
根据本发明的另一个实施方案,所述索引文件包括:VIDEO、CATEGORY、MUSICTYPE。
本发明还可以是:
根据本发明的另一个实施方案,利用antlr解析器解析成树状结构,在叶子节点中增加lucene查询节点。
根据本发明的另一个实施方案,通过lucene在硬盘中构建变量的索引文件。
与现有技术相比,本发明的有益效果之一是:
本发明的一种基于文法网络和lucene的语义分析方法,将文法网络和lucene结合,在语义分析方面降低了工作量和重复性,使用lucene检索,提高了检索速度,能够很好的索引变量,能快速高效的解析语义。
附图说明
为了更清楚的说明本申请文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。
图1为根据本发明一个实施例的基于文法网络和lucene搜索引擎的方法步骤示意图。
图2为根据本发明一个实施例的规则匹配流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
基于背景技术部分提到的内容,规则匹配可使用正则匹配和文法网络匹配,规则匹配需要穷举出所有语法可能,更适合一些适用范围较窄的场景,比如订票系统,tv指令等。在视频领域,我想看某演员和某导演的电影,那么需要在规则中穷举出所有的演员和导演,工作量太大,重复性太高,这显然是不太合理的,因此本发明的一实施例用actor关键字来代替所有演员,directory来代替所有导演,video代替所有视频名称,当解析器识别到这些关键字节点时,采用lucene来搜索对应的变量。
步骤包括:1.通过lucene在硬盘中构建演员actor,导演director,视频video,音乐music等变量的索引文件;2.选取合适的ABNF解析器解析文法规范;3.修改解析器,添加基于lucene查找的叶子节点。
其中,修改antlr文法规范解析器,添加lucene搜索TerminalNode叶子节点的步骤包括:
a.首先将变量数据:如演员,角色,歌曲,小说等分文件夹构建索引。以视频名VIDEO为例:
视频名:name=“歌声不绝”
视频别名列表:otherNames=[“歌至歌”,“为你唱的歌”,“歌声不断”,“无法无天”]
视频类别:category=“movie”
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710972496.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用互联网技术的iPS细胞银行系统及其方法
- 下一篇:电镀工艺的集成调度方法