人脑接口最新突破,人脑接口的概念

  

  许多神经系统疾病患者已经丧失了语言能力,需要依靠特定的通讯设备进行交流。这些设备利用脑机接口或者头眼运动来控制光标选择字母,从而说出自己想说的话。但是这个过程比人类正常的语速慢很多,经常是跳字。   

  

  4月25日,《自然》杂志发表了加州大学旧金山分校的一项新成果,神经外科华裔教授张智威和他的同事开发出了一种可以将大脑活动转化为语音的解码器。这种人类语音合成系统对与人类下颌、喉咙、嘴唇和舌头的运动相关的大脑信号进行解码,并合成受试者想要表达的语音。   

  

     

  

  研究人员表示,脑机接口正迅速成为恢复功能丧失的临床可行手段。这项最新研究成果解决了瘫痪和失语症患者面临的重大挑战,可能是他们恢复“说话”能力的重要一步。   

  

  在《自然》杂志同时发布的综述文章中,埃默里大学和佐治亚理工学院的切坦潘达里纳思(Chethan Pandarinath)和叶海亚阿里(Yahia Ali)认为,这种利用控制嘴唇、舌头、喉咙和下巴运动的神经信号来合成语音的脑机接口装置,可以作为失语症患者恢复言语功能的基础工作。   

  

  阅读大脑说话的意图看似毫不费力,但实际上说话是人类进行的最复杂的活动之一。它需要精确地、动态地协调声道咬合结构中的肌肉、唇、舌、喉和颌。   

  

  当一个人因为中风、肌萎缩侧索硬化(霍金患有此病)或其他神经系统疾病而丧失语言功能和交流能力时,对他的冲击和打击可能是毁灭性的。   

  

  如果有一种技术可以将神经活动转化为言语,对于那些因为神经受损而无法交流的人来说,这将是革命性的。理论上,脑机接口技术可以通过直接从大脑“读取”人的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,来帮助瘫痪的人完成说话或移动。   

  

  在科幻小说的世界里,精神控制的实现可以来得很容易,也很容易。在现实世界中,其背后的脑机接口技术已经有近百年的历史。科学家们一直希望在该领域的科研和应用技术上实现突破,为许多目前无法回答的难题提供更好的探索工具,帮助人类进一步了解大脑,从而预防、诊断和治疗脑部疾病和其他重大疾病,并将该技术应用于睡眠管理、智能生活和残疾人康复。   

  

     

  

  图|史蒂芬霍金使用特殊的语音合成器(来源:newzpole.com)   

  

  目前,一些用于脑控打字的脑机接口技术依赖于测量头部或眼睛的残余非语言运动,或者控制光标逐个选择字母并拼出单词,这已经可以帮助瘫痪的人通过设备每分钟输出多达8个单词。   

  

  这些技术给重度交流障碍患者的生活带来了很大的改善,但与自然语音每分钟150字的平均速度相比,现有技术的输出速度仍然太慢,距离自然语音通过脑机接口顺畅交流还有很大差距。   

  

  通过直接的大脑活动信号来合成语音是一种很有前途的替代方法。拼写只是一系列连续的离散字母,而语音是一种高效的交流形式。与基于拼写的方法相比,直接语音合成有几个主要优点。直接语音合成除了能够以自然速度传达不受限制的单词外,还可以捕捉语音的韵律元素,如音调和语调,这是文本输出所不具备的。   

  

  此外,当前替代通信设备的实际限制是学习和使用它们所需的认知努力。因此,对于肌萎缩侧索硬化或脑干卒中导致的瘫痪患者,直接记录大脑皮层的神经控制信号,是实现自然语言高交流率的唯一手段和最直观的方式。   

  

  2017年,这篇论文的作者张智威和他的研究生Claire Tang在《科学》杂志上发表了一篇论文,阐述了大脑皮层中的颞上回神经元在语言中的重要性。人类大脑中用于区分相对声调变化的神经元被发现,可以帮助人类用语言清晰地表达感情和交流思想。   

  

     

  

  图|张智威教授(图片来源:UCSF)   

  

  但是要揭示大脑信号是如何控制声道运动的,仍然具有挑战性。因为说话的过程需要非常准确快速的多维度控制声道的闭塞。而且语音合成还有一个完全不同的挑战,就是解码声道运动和声音之间复杂的对应关系。自然语音的产生涉及100多个小肌肉,肌肉运动到声音的映射不是一一对应的。   

  

  合成可理解的语音在《自然》杂志的这项最新研究中,为了实现将大脑信号转换成可理解的合成语音,并以流利的说话者的速度输出,研究人员设计了一种神经解码器,该解码器明确使用了人类皮层活动中编码的运动学和声音表征来合成可听语音。   

  

  研究人员招募了五名正在接受癫痫治疗的参与者。作为癫痫治疗的一部分,他们将通过电极监测大脑活动。研究人员记录了五名受试者大声说出数百个句子时的高密度脑电图。   

CoG)信号,并跟踪控制语音和发生部位运动的大脑区域活动。

  

为了重建语音,研究人员设计了一种循环神经网络(RNN),首先将记录的皮质神经信号转化为声道咬合关节运动,然后将这些解码的运动转化为口语句子。

  

  

图 | 用于语音合成的脑机接口(来源:Nature)

  

以前的语音合成研究采用了上图 a 的方法,即使用脑电图设备监测大脑语音相关区域的神经信号,并尝试使用循环神经网络将这些信号直接解码为合成语音。

  

而 Edward Chang 以及同事开发了一种不同的方法(上图 b),将解码分为两个步骤。

  

第一步,将神经信号转换成声道咬合部位的运动(红色),这其中涉及语音产生的解剖结构(嘴唇、舌头、喉和下颌)。而为了实现神经信号到声道咬合部位运动的转化,就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动,因此他们建立了一个循环神经网络,根据以前收集的大量声道运动和语音记录数据库来建立关联。

  

第二步,将声道咬合部位的运动转换成合成语音

  

  

图 | 神经解码语音合成过程(来源:Nature)

  

研究人员的这种两步解码方法,产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中,听者可以轻松地识别并记录下合成的语音。

  

在另外的测试中,一名受试者首先按要求说出句子,然后再不出声地做出相同的发音动作。结果表明,无声言语的合成效果不如有声言语,但是研究人员认为仍有可能解码无声言语的特征。

  

所有当前用于语音解码的方法都需要使用发声语音训练解码器,基于这些方法的脑机接口技术也就不能让不会说话的人上手就用。对于已经丧失说话能力的患者来说,无法发声训练解码器是一个大问题。

  

但 Edward Chang 表示,虽然语音解码的准确性大大降低,但受试者在没有声音的情况下模仿发音仍然可以进行语音合成。至于那些不再产生语音相关运动的个体是否适用这套最新的语音合成脑机接口系统,还需要未来的进一步研究。

  

Chethan Pandarinath 和 Yahia Ali 认为,无论是在语音重建的准确性方面,还是在听众对所产生语句的辨识力方面,Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。

  

  

(来源:麻省理工科技评论)

  

不过,要使该系统真正成为一个临床可行的语音合成脑机接口,还存在许多挑战,毕竟重构语音的可懂度(intelligibility)仍远低于自然语音。好在,通过收集更大的数据集并继续开发基础计算方法,或许可以进一步改善语音合成脑机接口技术。

  

由于不能直接在动物身上进行相关研究,这在一定程度上限制了人类语言产生的研究进展,但近十年来,随着深度学习和人工神经网络的出现,以及多学科协作的能力,从探索语言相关大脑区域的开创性临床研究,到语音合成脑机接口的概念证明,都取得了引人注目的快速发展。

  

随着语音合成脑机接口的概念证明,我们期待有关临床试验的早日开展,也期待那些语言障碍患者能够早日重获自由说话并与世界重新联系的能力。

相关文章