让计算机能听、能说、能看、能感觉,是未来人机交互(Human-computer interaction,HCI)的发展方向,其中语音已成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。目前,语音服务存在于各种场景中,包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。
语音人机交互
语音人机交互主要涉及自动语音合成(Text to Speech,TTS)和自动语音识别(ASR),它们互为逆过程,涉及声学、语言学、数字信号处理和计算机科学。新型的呼叫中心使用ASR响应用户所有可能的语音输入,通过内容分析和搜索引擎得出用户需求的文本结果,最后通过TTS将文本信息转换为语音信息播放给客户。而传统的呼叫中心基于交互式语音应答(IVR,Interactive Voice Response),用户利用音频按键电话输入信息、从系统中获得事先录制的数字或合成语音信息。显然前者使使服务更加的快捷、节约成本并提高交互的质量。
自动语音合成(Automatic Speech Synthesis)技术又称为文本转语音(TTS)技术,它可以将任何文字信息转换成标准流畅的语音且进行朗读。TTS常用于导航、语音播报、教育、娱乐、智能客服等场景,科大讯飞在该领域占领结构性优势。
自动语音识别(Automatic Speech Recognition,ASR)技术又称为语音转文本( STT )技术,通过计算机将口语识别和翻译成文本。ASR常用于搜索引擎、智能音箱等场景。
FakeYou Text to Speech 本质是一个TTS程序,但使用深度伪造技术,使用欧美名人(如比尔·克林顿或者比尔·盖茨)的口音,朗读用户输入的任何文本。
图中我们让“比尔·盖茨”朗读比尔·盖茨2021新年致辞的第一句话。
英伟达发布了 NVIDIA Riva 对话式 AI 应用服务框架,是一个 GPU 加速的 SDK,整合了 TTS 和 ASR 等智能算法引擎,提供现成的语音服务,旨在帮助用户轻松、快速地访问会话 AI 功能。
雷达 vs. 摄像头
再以自动驾驶为例说明计算机“能看”的技术。
自动驾驶系统分为三个层级:感知层、决策层和执行层。感知层收集周围的环境信息并做出预处理;决策层类似于人类的大脑,会基于感知层获取的信息,做出任务规划、行为决策和动作规划;执行层负责精准地执行决策层规划好的动作。其中,环境感知是全面实现自动驾驶的关键一环,为实现环境感知,雷达(超声波雷达、毫米波雷达、激光雷达)和摄像头的路线之争正酣。绝大多数车企利用激光雷达(Laser Detecting and Ranging,LiDAR)可提供高分辨率、高精度和抗有源干扰能力强的几何图像、距离图像、速度图像等特点,均有激光雷达搭载计划(包括通用汽车的Super Cruise),但特斯拉仍坚持摄像头纯视觉感知路线。
大脑对眼睛的视觉信号进行大量的后期处理,并试图创建一个向量空间。基于这个原理,特斯拉的FSD(Full Self-Driving)软件基本上是利用视觉算法和神经网络做到自动驾驶,摄像头感知图像之后形成数字信号,需要将数字信号映射到向量空间中,最终可以识别汽车、人、车道线、曲线和红绿灯等等。
更进一步,人类的大脑有时超越了向量空间,变成概念空间,这就要求自动驾驶系统建立向量空间,然后对这些空间进行实际预测。
比如当你开车时,前面有一辆卡车,还有一些孩子准备过马路,当你距离卡车较近的时候,卡车挡住了你的视线,你看不到那些小孩了。这时,你心里想的是这些孩子现在在什么位置,需要提前预测一下(位置)。
特斯拉投入巨量资源重写了算法的Tesla Autopilot配合Dojo超级计算机对神经网络视频训练优化自动驾驶技术。
实际上,还有雷达+摄像头这样的融合方案,中肯地评价是,明面上是用更低的成本带来信息获取能力的提升,实际上是弥补算法和算力的不足,毕竟大多车企无法回避软件之殇。
👍
楼主残忍的关闭了评论