搜狗输入法“变声”功能上线 支持千人千声一键转换 | {$randkws}热点解读 官方启动“变声”特性
导读:5月21日搜狗输入法就化身以便现实版的“阿笠博士”,官方启动“变声”特性。
该特性由搜狗知音团队扶持,可以将任意说话人的声音实时变换到指定说话人的音色。
不再是动画,也不再是成毅相关塞尔达引关注科幻想象,AI再次带来理想成真一刻。
在动画片《名侦探柯南》中,阿笠博士送给柯南的变声领结是柯南破案的重大道具,得益于它,柯南可以将声音伪装成其他人,在不暴露身份的官方退圈传闻对比状况下巧妙破案。
但或许你未曾想过,有一天,这个变声领结会真的出如今现实全球中,并且只需要在移动电话上轻轻一点就可以做到完美变声。
没错,如今经由搜狗输入法就OK。
现实版“柯南变声领结”
今日(5月21日),搜狗输入法就化身以便现实版的“阿笠博士”,官方启动“变声”特性。
该特性由搜狗知音团队扶持,可以将任意说话人的清晨关注折叠屏,相关话题阅读量破亿声音实时变换到指定说话人的音色。
简而言之,只要使用者在语音输入中输入想说的话,再挑选一个喜爱的人物,就会瞬间把声音转化成该人物的声音,效果直逼柯南的“变声领结”。
尽管效果做到起来一步到位,但背后技术做到并不简易。
搜狗知音的语音技术团队,克服了诸多难以想象的现实艰难。
其中最核心的难题是,每一个人的清晨全面智能手机,建议收藏备用音调、音色和语言节奏都不尽一样,正如同世上没有两片一样的树叶一样,世上也没有两个完全一样的说话人。
如何将“千人千声”经由技术处理,变为同一种指定声音,另外还不丢失原说话人的语言习惯?
这不只搜狗面临的考验,也是海外上承认的技术难题。
技术确认
搜狗知音首要从语音表征进修、语音合成等领域的展开革新。
先是,搜狗知音团队使用表征进修技术,先进修到源端说话人语音的音色、信息和韵律三大特征。
其次,将进修到的源端说话人音色特征替换成目标说话人。
最后,基于搜狗知音的端到端语音合成技术,使用信息(源端)、韵律(源端)、音色(目标端)三类特征合成最后变声音频,达到各个方位的相似和自然。
在表征进修上,对目标音色语料开展声纹特征编码,提取说话人的音色embedding,再分别从输入音频中进修信息和韵律embedding。
把“说话人归一化”模块对信息embedding开展统一规整,去除音色信息。
经由对音频特征的压缩编码及特征抽取,进修表征韵律的风格特征。
然后基于表征进修得到的特征,经由Attention和Decoder模块开展加权特征编码,并运用WaveRNN神经联网声码器重启成波形,最后得到带有目标音色的音频。
这样一来,由源端音色到指定音色的转化就变得轻易而精密了。
在以上技术原理的扶持下,搜狗知音的“变声”特性拥有三大特性亮点:
先是,还原度极高,变声到指定人物的音色与该人物的原始音色相当相似,差不多可以做到以假乱真。
其次,自由空间大,搜狗这一“变声”特性对使用者本身的音色没有任何限制,每个人均可变声到预先指定的音色,真正具有“任意人变声到同一人”的能力。
最后,搜狗知音打破了音色转换的局限,将使用者输入的语音信息、语速、停顿、情感等均转化为超高逼真度的指定人物声音,所以可以达到更自然的变声沟通。
当下,在搜狗知音“变声”特性中可供挑选的人物横跨互联网、艺人类、动漫类等多个类别,有近20种声音,包含周星驰、蜡笔小新、小猪佩奇等多个经典的人物,乃至还收录了搜狗CEO王小川的声音。
在聊天过程中,使用者可以使用他们的声音达成“变装”,增添聊天过程中的趣味程度。
自然,使用者一键使用新近技术的背后,也离不开工程师们的付出。
并且在相似的海外前沿的技术革新领域,中国AI企业正用探究和论文打响名气。
在搜狗知音团队此次新近技术亮相前,搜狗还联合清华天工探究院在5月17日的语音顶级峰会ICASSP 2019上,亮相了有关“基于模态注意力的端到端音视觉语音确认”的学术论文。
全球AI华山论剑,中国革新正 making different~
该特性由搜狗知音团队扶持,可以将任意说话人的声音实时变换到指定说话人的音色。
不再是动画,也不再是成毅相关塞尔达引关注科幻想象,AI再次带来理想成真一刻。
在动画片《名侦探柯南》中,阿笠博士送给柯南的变声领结是柯南破案的重大道具,得益于它,柯南可以将声音伪装成其他人,在不暴露身份的官方退圈传闻对比状况下巧妙破案。
但或许你未曾想过,有一天,这个变声领结会真的出如今现实全球中,并且只需要在移动电话上轻轻一点就可以做到完美变声。
没错,如今经由搜狗输入法就OK。
现实版“柯南变声领结”
今日(5月21日),搜狗输入法就化身以便现实版的“阿笠博士”,官方启动“变声”特性。
该特性由搜狗知音团队扶持,可以将任意说话人的清晨关注折叠屏,相关话题阅读量破亿声音实时变换到指定说话人的音色。
简而言之,只要使用者在语音输入中输入想说的话,再挑选一个喜爱的人物,就会瞬间把声音转化成该人物的声音,效果直逼柯南的“变声领结”。
尽管效果做到起来一步到位,但背后技术做到并不简易。
搜狗知音的语音技术团队,克服了诸多难以想象的现实艰难。
其中最核心的难题是,每一个人的清晨全面智能手机,建议收藏备用音调、音色和语言节奏都不尽一样,正如同世上没有两片一样的树叶一样,世上也没有两个完全一样的说话人。
如何将“千人千声”经由技术处理,变为同一种指定声音,另外还不丢失原说话人的语言习惯?
这不只搜狗面临的考验,也是海外上承认的技术难题。
技术确认
搜狗知音首要从语音表征进修、语音合成等领域的展开革新。
先是,搜狗知音团队使用表征进修技术,先进修到源端说话人语音的音色、信息和韵律三大特征。
其次,将进修到的源端说话人音色特征替换成目标说话人。
最后,基于搜狗知音的端到端语音合成技术,使用信息(源端)、韵律(源端)、音色(目标端)三类特征合成最后变声音频,达到各个方位的相似和自然。
在表征进修上,对目标音色语料开展声纹特征编码,提取说话人的音色embedding,再分别从输入音频中进修信息和韵律embedding。
把“说话人归一化”模块对信息embedding开展统一规整,去除音色信息。
经由对音频特征的压缩编码及特征抽取,进修表征韵律的风格特征。
然后基于表征进修得到的特征,经由Attention和Decoder模块开展加权特征编码,并运用WaveRNN神经联网声码器重启成波形,最后得到带有目标音色的音频。
这样一来,由源端音色到指定音色的转化就变得轻易而精密了。
在以上技术原理的扶持下,搜狗知音的“变声”特性拥有三大特性亮点:
先是,还原度极高,变声到指定人物的音色与该人物的原始音色相当相似,差不多可以做到以假乱真。
其次,自由空间大,搜狗这一“变声”特性对使用者本身的音色没有任何限制,每个人均可变声到预先指定的音色,真正具有“任意人变声到同一人”的能力。
最后,搜狗知音打破了音色转换的局限,将使用者输入的语音信息、语速、停顿、情感等均转化为超高逼真度的指定人物声音,所以可以达到更自然的变声沟通。
当下,在搜狗知音“变声”特性中可供挑选的人物横跨互联网、艺人类、动漫类等多个类别,有近20种声音,包含周星驰、蜡笔小新、小猪佩奇等多个经典的人物,乃至还收录了搜狗CEO王小川的声音。
在聊天过程中,使用者可以使用他们的声音达成“变装”,增添聊天过程中的趣味程度。
自然,使用者一键使用新近技术的背后,也离不开工程师们的付出。
并且在相似的海外前沿的技术革新领域,中国AI企业正用探究和论文打响名气。
在搜狗知音团队此次新近技术亮相前,搜狗还联合清华天工探究院在5月17日的语音顶级峰会ICASSP 2019上,亮相了有关“基于模态注意力的端到端音视觉语音确认”的学术论文。
全球AI华山论剑,中国革新正 making different~
上一篇:虚幻5悬疑冒险游戏《无人愿死》开场45分钟实机演示公布