[发明专利]一种分词查询方法、装置及存储介质在审
申请号: | 202110739685.1 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113449080A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 吴迪 | 申请(专利权)人: | 东莞市小精灵教育软件有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
地址: | 523851 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 查询 方法 装置 存储 介质 | ||
本申请实施例公开一种分词查询方法、装置及存储介质。该方法包括:获取扫描笔扫描到的文字序列,确定文字序列中的各字符及其顺序;将文字序列与预设的数据库进行匹配,确定组成文字序列的第一字词元素,第一字词元素位于文字序列的预设位置处,第一字词元素为第一词元素或第一字元素;根据数据库中各字词元素关联的内容数据,查询第一字词元素关联的内容数据,对内容数据进行展示。采用上述技术手段,解决现有扫描笔无法精确查询字词含义的问题,提高用户使用体验。
技术领域
本申请实施例涉及智能学习技术领域,尤其涉及一种分词查询方法、装置及存储介质。
背景技术
现在中小学生要求提前预习课文,并了解课文中生词或生字的含义,此时学生可以使用扫描笔点击课文中的生词或生字,扫描笔根据识别到字词进行查询,以获取对应的字词含义。
中文的语句排列一般都是字词混排的,而一个句子一般是由多个字词组成。当学生想用扫描笔查询句子中的一个词汇时,使用扫描笔点击课本上的该词汇,扫描笔头部的摄像头会将课本的对应区域拍摄成图片,以对图片进行文字识别。课文中字体大小是不可控的,拍摄区域是固定,当课文中字体较小时,摄像头很大概率会把该词汇邻近的文字拍摄到,导致识别到的词汇包含多余的文字信息,导致查询的词汇不满足用户期望,影响用户的使用体验。
发明内容
本申请实施例提供一种分词查询方法、装置及存储介质,解决现有扫描笔无法精确查询字词含义的问题。
在第一方面,本申请实施例提供了一种扫描笔的分词查询方法,包括:
获取扫描笔扫描到的文字序列,确定所述文字序列中的各字符及其顺序;
将所述文字序列与预设的数据库进行匹配,确定组成所述文字序列的第一字词元素,所述第一字词元素位于所述文字序列的预设位置处,所述第一字词元素为第一词元素或第一字元素;
根据所述数据库中各字词元素关联的内容数据,查询所述第一字词元素关联的内容数据,对所述内容数据进行展示。
进一步的,所述下载用户当前学习的课本文件,包括:
在所述将所述文字序列与预设的数据库进行匹配之前还包括:
确定当前查询模式为外语翻译或汉语解析;
确定当前查询模式为外语翻译时,确定与所述文字序列进行匹配的数据库为外语词典数据库;
确定当前查询模式为汉语解析时,确定与所述文字序列进行匹配的数据库为汉语词典数据库。
进一步的,所述第一字词元素位于所述文字序列的开头;
相应的,所述将所述文字序列与预设的数据库进行匹配,确定组成所述文字序列的第一字词元素包括:
识别出所述文字序列的首字符,确定数据库中以所述首字符为开头的词;
将所述文字序列与数据库中以所述首字符开头的词进行匹配,若匹配成功,则确定匹配到的词为所述文字序列的第一词元素,否则确定所述首字符为所述文字序列的第一字元素。
进一步的,所述第一字词元素位于所述文字序列的结尾;
相应的,所述将所述文字序列与预设的数据库进行匹配,确定组成所述文字序列的第一字词元素包括:
识别出所述文字序列的尾字符,确定数据库中以所述尾字符为结尾的词;
将所述文字序列与数据库中以所述尾字符结尾的词进行匹配,若匹配成功,若匹配成功,则确定匹配到词为所述文字序列的第一词元素,否则确定所述尾字符为所述文字序列的第一字元素。
进一步的,所述若匹配成功,若匹配成功,则确定匹配到词为所述文字序列的第一词元素包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市小精灵教育软件有限公司,未经东莞市小精灵教育软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110739685.1/2.html,转载请声明来源钻瓜专利网。