[发明专利]一种用于保护汉语语音私密度的掩蔽信号的生成方法有效
申请号: | 201510094030.8 | 申请日: | 2015-03-03 |
公开(公告)号: | CN104637485B | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 李晔;马晓凤;郝秋赟;樊燕红;姜竞赛;张鹏 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G10L19/018 | 分类号: | G10L19/018 |
代理公司: | 济南泉城专利商标事务所37218 | 代理人: | 褚庆森 |
地址: | 250014 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 保护 汉语 语音 密度 掩蔽 信号 生成 方法 | ||
技术领域
本发明涉及一种用于保护汉语语音私密度的掩蔽信号的生成方法,更具体的说,尤其涉及一种可形成无实际意义的、与正常说话语音极其相似的、减小了听觉上负面影响的用于保护汉语语音私密度的掩蔽信号的生成方法。
背景技术
会议室保密涉及到国家、商业、科技等机密信息的保护,属于信息安全领域,从国家安全到商业应用都有迫切的需求,商业窃听每年给国家造成的经济损失可达数百亿元。作为保密会议室最基本的信息形式,声音是需要保护的重点。保密会议室中声音信息的泄露主要有两种方式:主动泄露和无意识泄露。主动泄露指的是通过在会议室内部安装窃听设备所造成的泄露,而无意识泄露指的是会议召开期间,声音通过空气传声、固体传声等方式泄露,而被非授权人员听到。具体而言,声音信号无意识泄露的通道主要包括:门、窗、墙体以及各种管道等。本文所提出的方法主要针对声音信号的无意识泄露。目前,针对声音信号的无意识泄露,大都采用声掩蔽技术进行防护。具体而言,就是在可能存在声音泄露的位置、途径上布设干扰源,产生干扰信号,从而掩蔽有用的语音信号,从而达到声音泄露防护的作用。上述干扰信号被称为掩蔽信号。
掩蔽信号的选择要考虑两个方面的因素,一是掩蔽效果,二是掩蔽信号对人的心理和生理影响。目前常见的掩蔽信号主要有白噪声、粉噪声、暖通空调噪声等。白噪声和粉噪声,通常具有比较稳定的统计特性,但掩蔽效率较低。而暖通空调噪声信号本身具有不连续、不稳定、分布不均或是声音级过高,有时候反而成为噪声源,对人的心理和生理影响比较大,负面效应明显。
发明内容
本发明的主要目的是利用汉语发音的特点,包括字、词、句的各项统计特性,合成一种新的掩蔽信号,由于其与正常发音的统计特性类似,因而不容易被破解,掩蔽效果好,同时会降低掩蔽信号对人心理和生理的影响,兼具一定的迷惑性。
本发明的用于保护汉语语音私密度的掩蔽信号的生成方法,其特别之处在于,通过以下步骤来实现:
a).统计语句概率表,以具有代表性的汉语语料库为统计样本,对语料库中每个段落所包含的语句数进行统计,获得组成段落的语句数的概率表,简称语句概率表,其中表示语句数目为的段落占所有段落的百分比,1≤≤;
b).统计句段概率表,对语料库中所有语句所包含的句段数进行统计,获得语句的句段数的概率表,简称句段概率表,其中表示句段数目为的语句占所有语句的百分比,1≤≤;
c).统计词组概率表,对语料库中所有句段所包含的词组数进行统计,获得句段的词组数的概率表,简称词组概率表,其中表示词组数目为的句段占所有句段的百分比,1≤≤;
d).统计汉字概率表,对语料库中所有词组所包含的汉字数进行统计,获得词组的汉字数的概率表,简称汉字概率表,其中表示汉字数目为的词组占所有词组的百分比,1≤≤;
e).统计音节概率表,首先按照字母顺序对音节进行排序,记为,然后根据各音节在日常用语中出现的概率,获得音节概率表,简称音节概率表,其中表示音节在日常用语中出现的频率,1≤≤;
f).生成文本信息,按照如下步骤生成语音对应的文本信息:
f-1).确定自然段的语句数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出自然段中所包含的语句数为,其中,1≤≤,;通过步骤f-2)确定出自然段中的每个语句;
例如,若随机数,则该自然段包含1个语句,若,则该自然段包含2个语句,依此类推;
f-2).确定语句中的句段数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出语句中所包含的句段数为,其中,1≤≤,;通过步骤f-3)确定出每个语句中的句段;
例如,若随机数,则该语句包含1个句段,若,则该语句包含2个句段,依此类推;
f-3).确定句段中的词组数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出句段中所包含的词组数为,其中,1≤≤,;通过步骤f-4)确定每个句段中的词组;
例如,若随机数,则该句段包含1个词组,若,则该句段包含2个词组,依此类推;
f-4).确定词组中的汉字数,在区间范围内产生随机数,并判断随机数所属区间;如果在区间内,则得出词组中所包含的汉字数为,汉字数即音节数,每个汉字对应一个音节,其中,1≤≤,;通过步骤f-5)确定每个汉字的音节;
例如,若随机数,则该词组包含1个汉字,若,则该词组包含2个汉字,依此类推;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510094030.8/2.html,转载请声明来源钻瓜专利网。