[发明专利]一种隐私政策信息提取方法有效
申请号: | 202110265392.4 | 申请日: | 2021-03-11 |
公开(公告)号: | CN113051607B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 刘爽;杨怀伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 隐私 政策 信息 提取 方法 | ||
1.一种隐私政策信息提取方法,其特征在于,包括以下步骤:
(1)隐私政策文本数据获取和隐私政策文本数据处理;首先通过编写网络爬虫收集隐私政策文本数据;将收集到的隐私政策文本数据作为原始的数据进行数据处理,即过滤得到非英文的隐私政策文本;去除重复的隐私政策文本;并借助自然语言处理技术转化为统一文本格式的隐私政策数据;
(2)将步骤(1)处理后得到的隐私政策数据经过深度学习的HAN、BERT模型进行段落分类和句子分类;
(3)根据步骤(2)得到的段落分类和句子分类的结果,使用自然语言处理技术将得到的段落分类内容切分为句子,并为每个句子中的单词采用BIOES进行标注,其中标注的信息为:收集用户的信息、收集用户信息的目的、用户存在哪些权力、与哪些第三方共享;最后获得实验所需的数据集;
(4)根据步骤(3)得到的数据集划分为训练集、测试集、验证集;将标注的信息数据转化为符合BiLSTM-CRF模型的输入格式,同时删除特殊字符和标签;创建隐私政策信息提取BiLSTM-CRF模型;至此对训练集中的标注的数据进行提取,得到最优预测模型;
(5)加载预训练的词向量,生成训练的单词向量矩阵;单词向量矩阵为embedding层的输入,经过BiLSTM层编码输出句子中每个单词中每一个标签的预测分值,选择标签分值最高的作为对应单词的标签;将对应单词的标签作为CRF层的输入,其中CRF层中为每一个句子中的每个单词标记标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265392.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置