☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

作者 | 陈旭鹏
由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。
近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。
近日,约旦大学VideoLab和Flinker Lab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器还可以通过一个轻型的卷积神经网络来解析语音参数(例如音高、响度、共振峰频率等),以及通 过可微分语音合成器重新合成语音。
研究者建立了一个高度可解释且可应用于小数据量情形的神经信号解码系统,通过将神经信号映射到这些语音参数,而不改变原内容的意思。
该研究以「A neural speech decoding framework leveraging deep learning and speech synthesis」为题,于 2025 年 4 月 8 日发表在《Nature Machine Intelligence》杂志上。

论文链接:https://www.nature.com/articles/s42256-024-00824-8
研究背景
开发神经-语音解码器的尝试大多数依赖于一种特殊的数据:通过皮层电图(ECoG)记录获取接受癫痫手术患者的数据。利用患有癫痫的患者植入的电极,在发音时收集大脑皮层数据,这些数据具有高时空分辨率,已经在语音解码领域帮助研究者获得了一系列很显著的成果,帮助推动了脑机接口领域的发展。
神经信号的语音解码面临着两大挑战。
首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。
其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。
早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。
近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。
另一方面,一些方法通过利用w*enet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。
然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。
主要模型框架

为应对这些挑战,研究者在这篇文章中介绍了一个新型的从脑电(ECoG)信号到语音的解码框架,研究人员构建了一个低维度的中间表示(low dimension latent representation),该表示通过仅使用语音信号的语音编解码模型生成(图 1)。
研究提出的框架由两部分组成:一部分是ECoG解码器,它能将ECoG信号转化为我们可以理解的声学语音参数(比如音高、是否发声、响度、以及共振峰频率等);另一部分是语音合成器,它将这些语音参数转化为频谱图。
研究人员构建了一个可微分语音合成器,这使得在训练ECoG解码器的过程中,语音合成器也可以参与训练,共同优化以减少频谱图重建的误差。这个低维度的潜在空间具有很强的可解释性,加上轻量级的预训练语音编码器生成参考用的语音参数,帮助研究者构建了一个高效的神经语音解码框架,克服了数据稀缺的问题。
该框架能产生非常接近说话人自己声音的自然语音,并且ECoG解码器部分可以插入不同的深度学习模型架构,也支持因果操作(causal operations)。研究人员共收集并处理了48名神经外科病人的ECoG数据,使用多种深度学习架构(包括卷积、循环神经网络和Transformer)作为ECoG解码器。
该框架在各种模型上都展现出了高准确度,其中以卷积(ResNet)架构获得的性能最好,原始与解码频谱图之间的皮尔森相关系数(PCC)达到了0.806。研究者提出的框架仅通过因果操作和相对较低的采样率(low-density, 10mm spacing)就能实现高准确度。
研究者还展示了能够从大脑的左右半球都进行有效的语音解码,将神经语音解码的应用扩展到了右脑。
研究相关代码开源:https://github.com/flinkerlab/neural_speech_decoding

该研究的重要创新是提出了一个可微分的语音合成器(speech synthesizer),这使得语音的重合成任务变得非常高效,可以用很小的语音合成高保真的贴合原声的音频。
可微分语音合成器的原理借鉴了人的发生系统原理,将语音分为Voice(用于建模元音)和Unvoice(用于建模辅音)两部分:
Voice部分可以首先用基频信号产生谐波,由F1-F6的共振峰组成的滤波器滤波得到元音部分的频谱特征;对于Unvoice部分,研究者则是将白噪声用相应的滤波器滤波得到对应的频谱,一个可学习的参数可以调控两部分在每个时刻的混合比例;在此之后通过响度信号放大,加入背景噪声来得到最终的语音频谱。基于该语音合成器,本文设计了一个高效的语音重合成框架以及神经-语音解码框架。
研究结果
具有时序因果性的语音解码结果

首先,研究者直接比较不同模型架构(卷积(ResNet)、循环(LSTM)和Transformer(3D Swin)在语音解码性能上的差异。值得注意的是,这些模型都可以执行时间上的非因果(non-causal)或因果操作。
研究结果表明,ResNet模型在所有模型中表现最佳,在48位参与者中达到了最高的皮尔森相关系数(PCC),非因果和因果的平均PCC分别为0.806和0.797,紧随其后的是Swin模型(非因果和因果的平均PCC分别为0.792和0.798)(图2a)。
FreeTTS
FreeTTS是一个免费开源的在线文本到语音生成解决方案,可以将文本转换成MP3,
231
查看详情
通过STOI+指标的评估也得到了相似的发现。解码模型的因果性对大脑-计算机接口(BCI)应用具有重大意义:因果模型仅利用过去和当前的神经信号生成语音,而非因果模型还会使用未来的神经信号。过去的研究通常采用非因果模型,这在实时应用中不可行。因此,研究者专注于比较相同模型在执行非因果和因果操作时的性能。
研究发现,即使是因果版本的ResNet模型也能与非因果版本媲美,二者之间没有显著差异。同样,因果和非因果版本的Swin模型性能相近,但因果版本的LSTM模型性能显著低于非因果版本,因此研究者后续主要关注ResNet和Swin模型。
为确保本文提出的框架能够很好地泛化于未见过的单词,研究者进行了更为严格的单词级交叉验证,这意味着相同单词的不同试验不会同时出现在训练集和测试集中。
如图2b所示,对未见单词的性能与文中的标准试验方法相当,表明即使在训练期间未见过的单词,模型也能够很好地进行解码,这主要得益于本文构建的模型在进行音素(phoneme)或类似水平的语音解码。
进一步,研究者展示了ResNet因果解码器在单个单词级别上的性能,展示了两位参与者(低密度采样率ECoG)的数据。解码后的频谱图准确保留了原始语音的频谱-时间结构(图2c,d)。
研究人员还对比了神经解码器预测的语音参数与语音编码器编码的参数(作为参考值),研究者展示了几个关键语音参数的平均PCC值(N=48),包括声音权重(用于区分元音和辅音)、响度、音高f0、第一共振峰f1和第二共振峰f2。准确重建这些语音参数,尤其是音高、声音权重和前两个共振峰,对于实现精确的语音解码和自然地模仿参与者声音的重建至关重要。
研究发现表明,无论是非因果还是因果模型,都能得到合理的解码结果,这为未来的研究和应用提供了积极的指引。
对左右大脑神经信号语音解码以及空间采样率的研究

研究者进一步对左右大脑半球的语音解码结果进行了比较。多数研究集中关注主导语音和语言功能的左脑半球。然而,我们对于如何从右脑半球解码语言信息知之甚少。针对这一点,研究者比较了参与者左右大脑半球的解码表现,以此验证使用右脑半球进行语音恢复的可能性。
在研究收集的48位受试者中,有16位受试者的ECoG信号采集自右脑。通过对比 ResNet 和 Swin 解码器的表现,研究者发现右脑半球也能够稳定地进行语音解码(ResNet 的 PCC值为 0.790,Swin 的 PCC值为 0.798),与左脑半球的解码效果相差较小(如图 3a 所示)。
这一发现同样适用于 STOI+ 的评估。这意味着,对于左脑半球受损、失去语言能力的患者来说,利用右脑半球的神经信号恢复语言也许是一个可行的方案。
接着,研究者探讨了电极采样密度对语音解码效果的影响。之前的研究多采用较高密度的电极网格(0.4 mm),而临床中通常使用的电极网格密度较低(LD 1 cm)。
有五位参与者使用了混合类型(HB)的电极网格(见图 3b),这类网格虽然主要是低密度采样,但其中加入了额外的电极。剩余的四十三位参与者都采用低密度采样。这些混合采样(HB)的解码表现与传统的低密度采样(LD)相似,但在 STOI+ 上表现稍好。
研究者比较了仅利用低密度电极与使用所有混合电极进行解码的效果,发现两者之间的差异并不显著(参见图 3d),这表明模型能够从不同空间采样密度的大脑皮层中学习到语音信息,这也暗示临床通常使用的采样密度对于未来的脑机接口应用也许是足够的。
对于左右脑不同脑区对语音解码贡献度的研究

最后,研究者考察了大脑的语音相关区域在语音解码过程中的贡献程度,这对于未来在左右脑半球植入语音恢复设备提供了重要的参考。研究者采用了遮挡技术(occlusion analysis)来评估不同大脑区域对语音解码的贡献度。
简而言之,如果某个区域对解码至关重要,那么遮挡该区域的电极信号(即将信号设为零)会降低重构语音的准确率(PCC值)。
通过这种方法,研究者测量了遮挡每个区域时,PCC值的减少情况。通过对比 ResNet 和 Swin 解码器的因果与非因果模型发现,听觉皮层在非因果模型中的贡献更大;这强调了在实时语音解码应用中,必须使用因果模型;因为在实时语音解码中,我们无法利用神经反馈信号。
此外,无论是在右脑还是左脑半球,传感运动皮层尤其是腹部区域的贡献度相似,这暗示在右半球植入神经假肢也许是可行的。
结论&启发展望
研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高,响度,共振峰频率等)并通过可微分语音合成器重新合成语音。
通过将神经信号映射到这些语音参数,研究者构建了一个高度可解释且可应用于小数据量情形的神经语音解码系统,可生成听起来自然的语音。此方法在参与者间高度
可复现(共48人),研究者成功展示了利用卷积和Transformer(3D Swin)架构进行因果解码的有效性,均优于循环架构(LSTM)。
该框架能够处理高低不同空间采样密度,并且可以处理左、右半球的脑电信号,显示出了强大的语音解码潜力。
大多数之前的研究没有考虑到实时脑机接口应用中解码操作的时序因果性。许多非因果模型依赖于听觉感觉反馈信号。研究者的分析显示,非因果模型主要依赖于颞上回(superior temporal gyrus)的贡献,而因果模型则基本消除了这一点。研究者认为,由于过分依赖反馈信号,非因果模型在实时BCI应用中的通用性受限。
有些方法尝试避开训练中的反馈,如解码受试者想象中的语音。尽管如此,大多数研究依然采用非因果模型,无法排除训练和推断过程中的反馈影响。此外,文献中广泛使用的循环神经网络通常是双向的,导致非因果行为和预测延迟,而研究者的实验表明,单向训练的循环网络表现最差。
尽管该研究并没有测试实时解码,但研究者实现了从神经信号合成语音小于50毫秒的延迟,几乎不影响听觉延迟,允许正常语音产出。
研究中探讨了是否更高密度的覆盖能改善解码性能。研究者发现低密度和高(混合)密度网格覆盖都能实现高解码性能(见图 3c)。此外,研究者发现使用所有电极的解码性能与仅使用低密度电极的性能没有显著差异(图3d)。
这证明了只要围颞覆盖足够,即使在低密度参与者中,研究者提出的ECoG解码器也能够从神经信号中提取语音参数用于重建语音。另外一个显著的发现是右半球皮质结构以及右围颞皮层对语音解码的贡献。尽管以前的一些研究展示了对元音和句子的解码中,右半球可能提供贡献,研究者的结果提供了右半球中鲁棒的语音表示的证据。
研究者还提到了目前模型的一些限制,比如解码流程需要有与ECoG记录配对的语音训练数据,这对失语患者可能不适用。未来,研究者也希望开发能处理非网格数据的模型架构,以及更好地利用多病人、多模态脑电数据。
本文第一作者:Xupeng Chen, Ran Wang,通讯作者:Adeen Flinker。
基金支持:National Science Foundation under Grant No. IIS-1912286, 2309057 (Y.W., A.F.) and National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.)。
更多关于神经语音解码中的因果性讨论,可以参考作者们的另一篇论文《Distributed feedforward and feedback cortical processing supports human speech production 》:https://www.pnas.org/doi/10.1073/pnas.2300255120
来源:脑机接口社区
以上就是AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊的详细内容,更多请关注其它相关文章!
# 中国科学院
# 京东营销推广引流方案
# 巴中网站建设的特点
# 招商健康网站推广
# 免费手游代理推广网站
# seo是什么故障灯
# 百度关键词排名难吗
# seo案例分析推广
# 自己能建设网站吗
# 宿迁租房网站建设文案
# 为什么要建设手机网站
# 是一个
# 理论
# 的是
# 未来
# 开源
# 展示了
# 大脑皮层
# 尤其是
# 低密度
# 纽约
# peech
# iis
# git
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器
周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇
自己动手使用AI技术实现数字内容生产
360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话
利用AI技术更好地发展农村电商
大型无人机FH-98国内首次夜航转场成功
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会
基于预训练模型的金融事件分析及应用
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
换流站无线物联网络为新型电力系统铺设“数字之路”
开创全新虚拟现实体验的Pimax Crystal VR头显
AIGC浪潮下,联想集团再加码计算与人工智能
Nature封面:量子计算机离实际应用还有两年
华为云天筹AI求解器荣获世界人工智能大会最高奖
无人机自主巡检为高海拔输电线路运维添“新彩”
人工智能和你聊天 成本有多高
直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院
实测 AI 建筑设计软件的自动生成效果图能力
飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办
建立元宇宙产业联盟:移动、咪咕、华为、小米等加入
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
生成式AI对云运维的3大挑战
从谷歌到亚马逊,科技巨头们的AI痴迷
当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?
央广车联网亮相2025世界人工智能大会
专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批
焊接协作机器人或将成为26届埃森展最大看点
美图开拍使用教程
深企派遣无人机救援队赴京津冀开展防汛救灾任务
“世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
WHEE安装教程
利好来了,AI再起一波?
iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了
田渊栋团队新研究:微调
小米又拿下国际比赛第一:AI翻译立功
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
ChatGPT会成为你家新的语音助手吗?
酒店业将如何受益于人工智能的改变?
Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用
奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发
AI成政客博弈工具,美国大选真假难辨,律师们的生意来了
生活垃圾智能分类机器人社区展“才能”,征求居民意见
Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
《自然》杂志拒绝刊登人工智能生成的图片和视频
研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
2024-04-17
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。