小圈app是什么,小圈app是什么软件

  

     

  

  摘要:每个听障者都可以有自己的“沙利文老师”。   

  

  1882年,一场突如其来的疾病夺走了海伦凯勒生命中所有的颜色、声音和动作,当时她才19个月大。和她的生活一样,这个图斯坎比亚小镇的家庭从此进入了一个黑暗而寂静的世界。直到六年后,沙利文老师出现在海伦的生活中,事情才有了转机。在沙利文的帮助下,海伦凯勒不仅学会了盲文阅读,还在成年后写下了“只有聋人才重视听力”这句话。   

  

  这个故事小学几乎人人都熟悉,因为语文老师总是布置一篇《读假如给我三天光明有感》的命题作文。但并不是所有的听障人士都能像海伦凯勒一样幸运,得到沙利文独一无二的帮助。   

  

  目前,在全球4.66亿聋人和听力受损人群中,只有少数人能够负担得起与他人即时交流时需要购买的人工转录服务,如美国的CART、英国的Palantypist或其他国家的STTR。更多的人,默默地交谈着。   

  

  为了改变这种情况,2019年2月4日,谷歌推出了基于App的全新测试版――Live transcripte,这是一款只需使用你手机的麦克风,就能即时转录真实世界的语音并转换成实时字幕的应用。3月,在Play store正式上线。   

  

  Live转录用户界面| |YouTube截图   

  

  设计背后:ARS 带来的实时转录一岁时失聪的俄罗斯人迪米特里卡内夫斯基现在是谷歌的科学家。他说话有些困难。当他告诉店员“我今天过得很好”时,言语间有明显的停顿。然而现在,他不需要任何人工帮助。手机上的Live Transcribe正在黑色背景上实时同步店员说的每一句话:你想喝点什么?右上角的小圆圈不断改变大小,以表示周围环境的噪音水平。   

  

  “Live Transcribe的转录延迟小于200ms,接近实时。该应用的产品经理萨加尔萨尔瓦(Sagar Salva)告诉极客公园。这种延迟就像50HZ交流电方向的变化一样,很难被察觉,保证了双方的互动。同时,根据Salva的说法,它可以支持70多种语言和方言,覆盖全球80%的人口。对于双语家庭,该应用程序还具有在两种语言之间快速切换的按钮。   

  

  两年前,当拥有30年语音识别经验的Kanevsky加入谷歌的AI研究小组时,这个产品还没有诞生。Kanevsky需要为每次会议提前预订CART服务,并依靠字幕员虚拟加入会议,以点击屏幕上的语音对话并将其转录。萨尔瓦和她的同事们思考了如何利用谷歌目前的技术来减少卡涅夫斯基的准备过程。   

  

  Kanevsky正在使用Live Transcribe与服务员进行交流| |YouTube   

  

  现在从山景城到台北,这种模式不断优化,最终演变成Live Transcribe。   

  

  短时间内开发一个新的App,还是得益于谷歌本身的技术积累。据Salva称,Live Transcribe背后的核心技术是谷歌的各种语音搜索应用程序一直在使用自动语音识别(ASR)技术。ASR主要包括四个部分:特征提取、声学模型、语言模型、字典和解码。简而言之,它的任务是准确高效地将语音信号转换成文本信息。目前,YouTube上实时字幕转录的高准确率得益于谷歌技术的支持。   

  

  

Live transcribe:每个人的沙利文老师

  

  

  但是发展过程并不是一帆风顺的。   

  

  Salva说,第一个是用户实际使用场景的选择。他们可以选择在电脑、平板设备或手机等硬件设备上显示转录结果,或者有更大胆的设计。例如,卡涅夫斯基还尝试用小型投影设备将转录好的字幕打印在萨尔瓦的t恤上。   

  

  但对于听障人士来说,劳动回报和收入相对较低。根据中国残联发布的《2018 年残疾人事业发展统计公报》,全国城乡持证残疾人948.4万人,其中灵活就业(含社区和居家就业)254.6万人,从事农业养殖480.1万人,几乎占绝大多数。残疾人家庭人均可支配收入与社会平均水平也存在较大差距。   

  

  考虑到这些原因,在所有智能设备中,Salva和团队最终选择了智能手机:“目前全球有20亿人在使用Android手机,这种硬件平台选择是最便宜的。」   

://tupian.lamuhao.com/pic/img.php?k=小圈app是什么,小圈app是什么软件4.jpg">Sagar Salva|受访者提供

  


  

为了让较为低配的手机也能使用 Live Transcribe,Salva 和团队选择在这款 App 背后使用两种不同的神经网络。第一个是在设备上运行神经网络,主要完成声音分类的工作,例如婴儿哭声、玻璃破碎声音等。在对这些声音的实时转录中,能够快速地进行分类和辨析。第二个是用于完成语音转录成文字工作的云端神经网络模型。

  

「事实上,在云端,在 Google 的服务器上,利用机器学习和这些神经网络模型进行语音的识别是非常重要的,这意味着这款产品在一些低配的手机上也能够运行。」Salva 说。「当它在运行的时候,只会消耗大概 4M 左右的内存空间。我们做了电量使用优化,单次充电可以使用 10 个小时左右。」

  

谷歌想做的是让每个听力受损的都能真正使用得起这个免费的 App。实际上,这个想法早已有迹可循。

  

有迹可循:20% 的创新项目

在 2016 年 3 月,Google 就推出了 Accessibility Scanner,这是一款自动化工具,用于评估应用程序,并为视觉和听觉障碍用户提供改进方法,例如,通过扩大小型触摸目标或更改对比度。

  

2018 年 8 月,Google 又发布了一项新的开放式规范,旨在启动助听器的开发,这种助听器能够在蓝牙低功耗(LE)的 Android 手机上完美运行,充足的低延迟和对电池寿命的影响最小。

  

这些演进踪迹的源头却是一个偶然。Salva 介绍说,最初 Live transcribe 只是一个 20% 创新项目。20% 是在谷歌内部一个著名的鼓励文化:鼓励员工利用 20% 的时间用于创新。比如在一周 5 天的工作中,员工能用 1 天的时间用于研究本职工作外的其他感兴趣的项目。如这些创新获得了进一步的证明,便能获得推广、完善的机会,如耳熟能详的 Google News 和 Gmail 都属于创新诞生的产物。

  

当 Live transcribe 诞生后,不仅是 Kanevsky,在谷歌团队内部其他的听力受损同事之中也广受好评。因此,才逐渐走向了 Play 商店。

  


  

Salva正在介绍Live Transcribe诞生过程|受访者提供

  


  

在研发过程中,为了减少周围环境噪音得影响使转录效果更好,谷歌还推出了另一款相关的 App:Sound Amplifier。这款应用能够使用声音放大器,使音频更清晰,更容易听到。可以在 Android 智能手机上使用带有线耳机的声音放大器来过滤,增强和放大环境中的声音。

  

据世界卫生组织估计,到 2055 年,全世界听力受损的人数将达到 9 亿。虽然不确定那时的医疗是否已经能够使人们不再受到听力受损的困扰,但能肯定的是,至少今天正如谷歌所希望的一样,Live Transcribe 和 Sound Amplifier,正在帮助数亿聋人沟通得更清楚。

  

责任编辑 卧虫

相关文章