[发明专利]基于哈希词典的接处警文本物品名称提取方法和装置在审
申请号: | 202010348757.5 | 申请日: | 2020-04-28 |
公开(公告)号: | CN111626052A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 彭涛;张鹏;刘岩 | 申请(专利权)人: | 北京明亿科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06Q50/18 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词典 接处警 文本 物品 名称 提取 方法 装置 | ||
本公开实施例公开了基于哈希词典的接处警文本物品名称提取方法和装置。该方法的一具体实施方式包括:获取待提取物品名称接处警文本;基于目标词典对待提取物品名称接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下物品名称确定操作:按照预设哈希算法计算该分词的哈希值,以及响应于根据计算得到的该分词的哈希值在预设物品名称哈希词典中查找到该分词,将该分词确定为物品名称词;将分词序列的各分词中的物品名称词确定为待提取物品名称接处警文本对应的物品名称集合。该实施方式实现了自动提取接处警文本中的物品名称。
技术领域
本公开实施例涉及计算机技术领域,具体涉及基于哈希词典的接处警文本物品名称提取方法和装置。
背景技术
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,大量接处警文本中会涉及关于物品名称的描述。其中,物品可能包括作案工具、损失物品、涉案交通工具等等。尤其对于损失物品,例如失窃物品,损坏物品可能涉及损失的金额。若能提取接处警文本中的物品名称,再将不同的物品名称关联相应的损失金额,可以自动生成该接处警警情对应的损失金额,进而可以根据损失金额协助进一步对该案进行相应的处理。因此,提取接处警文本中的物品名称是非常重要的。目前,大都采用人工提取接处警文本中的物品名称,然而凭人工提取接处警文本中的物品名称的人工成本太高且依赖于个人经验。
发明内容
本公开实施例提出了基于哈希词典的接处警文本物品名称提取方法和装置。
第一方面,本公开实施例提供了一种基于哈希词典的接处警文本物品名称提取方法,该方法包括:获取待提取物品名称接处警文本;基于目标词典对上述待提取物品名称接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下物品名称确定操作:按照预设哈希算法计算该分词的哈希值,以及响应于根据计算得到的该分词的哈希值在预设物品名称哈希词典中查找到该分词,将该分词确定为物品名称词;将上述分词序列的各分词中的物品名称词确定为上述待提取物品名称接处警文本对应的物品名称集合。
在一些实施例中,上述预设物品名称哈希词典是通过如下生成步骤预先生成的:获取预设输入法应用对应的物品名称词库;新建空的哈希词典;对于所获取的物品名称词库中的每个物品名称词,执行以下存储操作:根据该物品名称词的哈希值确定该物品名称词在所新建的哈希词典中的存储位置,以及按照计算得到的存储位置将该物品名称词存储在所新建的哈希词典中,其中,该物品名称词的哈希值是按照上述预设哈希算法计算得到的;将所新建的哈希词典确定为上述预设物品名称哈希词典。
在一些实施例中,上述目标词典包括预设词典和上述预设输入法应用对应的物品名称词库。
在一些实施例中,在获取预设输入法应用对应的物品名称词库之后,上述生成步骤还包括:删除所获取的物品名称词库中的无效数据,其中,上述无效数据包括乱码、包含错别字的词和停用词。
第二方面,本公开实施例提供了一种基于哈希词典的接处警文本物品名称提取装置,该装置包括:获取单元,被配置成获取待提取物品名称接处警文本;切词单元,被配置成基于目标词典对上述待提取物品名称接处警文本进行切词得到相应的分词序列;第一确定单元,被配置成对于所得到的分词序列中的每个分词,执行以下物品名称确定操作:按照预设哈希算法计算该分词的哈希值,以及响应于根据计算得到的该分词的哈希值在预设物品名称哈希词典中查找到该分词,将该分词确定为物品名称词;第二确定单元,被配置成将上述分词序列的各分词中的物品名称词确定为上述待提取物品名称接处警文本对应的物品名称集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010348757.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于区块链的安全审计方法、系统及存储介质
- 下一篇:业务信息的审核方法及装置