[发明专利]英文短语识别方法、装置、介质和电子设备有效
申请号: | 202110450671.8 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113032529B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 贾培磊;丁文彪;许国伟 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/289;G06F40/284 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 安伟 |
地址: | 100089 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 短语 识别 方法 装置 介质 电子设备 | ||
本发明涉及一种英文短语识别方法、装置、介质和电子设备,其中该方法包括:对待识别的英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块;基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,形成候选查询文本;基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建;在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。本发明实施方案可以实现对例如不固定形式的英文短语的识别,且识别的准确率和效率较高。
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种英文短语识别方法、英文短语识别装置,以及实现英文短语识别方法的计算机可读存储介质和电子设备。
背景技术
短语作为英语表达和运用的基本单元,在英语学习和应用过程中具有举足轻重的作用。
相关技术中的家教机或学习机等可以自动识别英文短语,极大提升了用户英语学习和运用的便利程度。目前的英文短语识别分析技术通常是构建短语库,然后通过字符串匹配或正则匹配的方法在短语库中进行查询识别分析。
但是,目前的英文短语识别分析技术对于例如不固定形式的英文短语,识别的准确率较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种英文短语识别方法、英文短语识别装置,以及实现英文短语识别方法的计算机可读存储介质和电子设备。
第一方面,本公开实施例提供了一种英文短语识别方法,包括:
待识别英文文本进行依存句法分析得到分析结果,所述分析结果至少包括所述英文文本中的指定词和/或指定词块;
基于预设字符替换规则,将所述英文文本中的所述指定词和/或指定词块替换为对应的指定字符,生成候选查询文本;
基于预设的AC自动机,识别所述候选查询文本中是否包含目标短语模板,所述AC自动机是预先基于样本短语模板而构建;
在识别到所述候选查询文本包含目标短语模板时,在所述英文文本中确定所述目标短语模板对应的目标短语。
在本公开的一些实施例中,所述预设字符替换规则包括第一字符替换规则和/或第二字符替换规则;
其中,所述第一字符替换规则指示对以下任意一项或多项指定词和/或指定词块进行字符替换:动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词、形容词、副词、名词、名词词块;
所述第二字符替换规则指示对以下任意一项或多项指定词块进行字符替换:依序包含名词词块和动词的词块;依序包含名词词块、介词to和动词的词块;依序包含名词词块、介词for和动词的词块。
在本公开的一些实施例中,所述第一字符替换规则指示对动词、动名词、动词的过去分词、所有格形式的词、包含指定后缀的词分别由对应不同的第一指定字符替换;对形容词和副词由同一第二指定字符替换;对名词和名词词块由同一第三指定字符替换;
所述第二字符替换规则指示对各所述指定词块中的名词词块均由所述第三指定字符替换,动词由对应的所述第一指定字符替换。
在本公开的一些实施例中,所述方法还包括:
识别到所述候选查询文本包含目标短语模板时,记录所述目标短语模板在所述英文文本中的起始字符位置;
所述在所述英文文本中确定所述目标短语模板对应的目标短语,包括:
基于所述起始字符位置,在所述英文文本中确定所述目标短语模板对应的目标短语的字符位置;
基于所述字符位置,确定所述目标短语模板对应的目标短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110450671.8/2.html,转载请声明来源钻瓜专利网。