微现场带你了解AI智能会议同传系统
开会从来不是件轻松的事,开大型会议尤其如此。除了会议前的大量准备工作,会议中还要有人负责会议记录,如果演讲者和听众语言不一致,还要有专门的同传人员进行翻译。
随着语音转写和机器翻译技术的日渐成熟,出现了语音输入法、智能翻译机等C端产品,满足了速记笔记、旅游翻译等用户需求。在中大型会议场景下,也广泛存在会议速记、会议同传等需求,但市场上能满足相关这种需求的产品却寥寥无几。因此,我们尝试将语音转写和机器翻译应用于中大型会议场景,用AI技术让会议速记、会议同传更加更加方便。
本文介绍了智能会议系统的产品分析过程和详细设计方案。
微现场AI智能同传系统性能强大,支持多种语言,欢迎咨询
场景和需求分析
会议场景有很多种,抛开会议规模、多媒体设备等因素,仅考虑发言人角色,就有产品发布会这样的单人演讲、博鳌论坛这样的多人对话,也有记者会这样的主持人与观众的对答。
后两种场景下存在多个输入音源,对话过程中有话筒传递、对话被打断、音源输入重叠等情况,会极大影响语音识别的准确率。因此在第一个版本中,我们只考虑单人发言的情况。
除了上面提到的产品发布会以外,单人发言的典型场景还有政府工作汇报、学术汇报和各种形式的大会演讲等。
这一场景中的需求除了速记和同传,还包含转写/翻译结果投屏等需求,详细需求描述如下:
准确地将语音转写为文本需求
转写准确率直接决定转写结果的可阅读性,也间接影响了翻译效果,是决定该系统是否可商用的最重要因素。目前各大竞品所宣称的转写准确率普遍在95%以上,我们的准确率不能低于该标准。
转写结果实时翻译需求
很多知识分享大会(如 I/O开发者大会、IxDC大会)、学术报告、产品发布会都存在发言人语言与听众不一致的情况,因此转写结果支持实时翻译也是基本需求之一。从团队算法能力出发,会议系统前期需支持中英互译。
转写和翻译结果延迟低需求
为确保阅读效果,文本展示延迟要做到1s以下才可用,参考同类竞品,会议系统的延迟应该在200~300ms。
转写和翻译结果实时投屏需求
将翻译结果传达给听众有两种方式,一种是将文本结果投影在大屏幕上,一种是将文本结果合成语音后播放,后一种技术不成熟,目前采用投屏的方式。
转写和翻译结果支持编辑的需求
受限于算法能力和声音采集效果,目前的转写和翻译结果还无法做到完全正确,因此结果需要支持编辑。为了提高出稿效率,最好在发言人演讲的同时就能对结果进行编辑。
内容安全保密需求
行业内部展会、企业高层会议、政府人员讲话等会议场景对会议内容保密性要求较高,会议系统需要确保内容不能轻易泄露。
除以上几个高优先级需求外,较低的需求还包括投屏字幕样式可调整、转写翻译结果可导出等,此处不再详细说明。
产品形态和框架
为了满足将采集到的音频转写翻译并投影至大屏幕的这一核心需求,需要分析在会议厅场景下音频信号的详细处理过程。
在传统的多媒体会议室中,发言人的音频一般经过音控台(如果有的话)直接输出给音箱:
音频 → 音控台 →音箱
将声音的转写和翻译结果投影至大屏幕要稍微复杂一些,从多路声卡中输出的音频需要先经过算法引擎处理,然后将处理结果传输给投屏端电脑,再投影至大屏幕。
音频 → 音控台 → 算法引擎 → 投屏电脑 → 大屏幕
这其中算法引擎可打包安装在本地电脑上,也可安装在云端。同时转写翻译过程的暂停/继续、翻译语言等需要用程序(主控端)进行控制。
上图是音频处理过程的示例,但这只是多种类型的会议室设备布置中的一种情况。在某些中型的会议室中,布置算法引擎的设备和投屏设备可能是同一台电脑。
为了适应这种会议室设备布置的多样性,我们将产品形态划分为控制转写/翻译过程的主控端和控制投屏显示的投屏端,各自的功能如下:
主控端:账户登录/退出、客户端和账户设置、会议配置、转写翻译结果查看和编辑等。
投屏端:连接主控端、显示转写/翻译结果、配置显示样式
主控端和投屏端的详细信息架构如下所示:确定了产品形态和信息架构后,就可以开始着手原型设计了。
产品原型设计
信息框架只能告诉我们产品具有哪些功能,不能告诉我们完成这些功能的具体任务流程。为了能让用户顺利完成任务,需要分析用户的操作流程。使用会议系统过程中所包含的子任务有:登录退出、重置密码、会议配置、投屏配置。
由于登录/退出和重置密码比较简单,以下我着重展示会议配置和投屏配置的原型。
1 会议配置
会议配置是指会议开始前,会议记录员为会议配置名称和发言人语言等项目的过程,只需点击主页的创建会议按钮即可创建会议。
创建会议后,在页面左侧配置语言、设备等项目,配置完成后点击开始开始会议按钮即可开始转写/翻译。在右侧可以看到实时转写的文本,且转写结果支持编辑。
下面是上线后的主控端配置会议的过程:
从上图可以看到,在主控端配置会议后(已连接服务器、音频线路畅通),便可以实现转写和翻译麦克风收集到的音频了。但如果会议系统的设备布局如图二所示,那文本结果并不能投影至大屏幕,因此需要在投屏电脑上安装投屏端。
2 投屏配置
投屏的配置非常简单,只需一个按钮即可连接至投屏。具体的原型此处不再展示,连接过程如下图所示。
连接后,上图跳动的文字是发言人音频的转写结果,该面板支持设置字号、对齐、全屏等展示样式。
总结
传统的会议速记和同传不仅对速记员/同传人员的短期记忆和信息处理速度要求较高,还需要具备大量专业领域知识,而这正是机器所擅长的。虽然以目前的技术机器还不能做到完全替代人类,但这将是大势所趋。本项目探索了将语音转写和机器翻译应用于大型会议,希望我们做产品的过程能给相关从业者以启发。