当前位置: 活动网 / 活动快报

微现场带你了解AI智能会议同传系统

2020-12-17 95
文章摘要:开会从来不是件轻松的事,开大型会议尤其如此。除了会议前的大量准备工作,会议中还要有人负责会议记录,如果演讲者和听众语言不一致,还要有专门的同传人员进行翻译。 随着语音转写

开会从来不是件轻松的事,开大型会议尤其如此。除了会议前的大量准备工作,会议中还要有人负责会议记录,如果演讲者和听众语言不一致,还要有专门的同传人员进行翻译。

随着语音转写和机器翻译技术的日渐成熟,出现了语音输入法、智能翻译机等C端产品,满足了速记笔记、旅游翻译等用户需求。在中大型会议场景下,也广泛存在会议速记、会议同传等需求,但市场上能满足相关这种需求的产品却寥寥无几。因此,我们尝试将语音转写和机器翻译应用于中大型会议场景,用AI技术让会议速记、会议同传更加更加方便。

本文介绍了智能会议系统的产品分析过程和详细设计方案。

微现场AI智能同传系统性能强大,支持多种语言,欢迎咨询

场景和需求分析

会议场景有很多种,抛开会议规模、多媒体设备等因素,仅考虑发言人角色,就有产品发布会这样的单人演讲、博鳌论坛这样的多人对话,也有记者会这样的主持人与观众的对答。

后两种场景下存在多个输入音源,对话过程中有话筒传递、对话被打断、音源输入重叠等情况,会极大影响语音识别的准确率。因此在第一个版本中,我们只考虑单人发言的情况。

除了上面提到的产品发布会以外,单人发言的典型场景还有政府工作汇报、学术汇报和各种形式的大会演讲等。

微现场带你了解AI智能会议同传系统

这一场景中的需求除了速记和同传,还包含转写/翻译结果投屏等需求,详细需求描述如下:

  • 准确地将语音转写为文本需求

    转写准确率直接决定转写结果的可阅读性,也间接影响了翻译效果,是决定该系统是否可商用的最重要因素。目前各大竞品所宣称的转写准确率普遍在95%以上,我们的准确率不能低于该标准。

  • 转写结果实时翻译需求

    很多知识分享大会(如 I/O开发者大会、IxDC大会)、学术报告、产品发布会都存在发言人语言与听众不一致的情况,因此转写结果支持实时翻译也是基本需求之一。从团队算法能力出发,会议系统前期需支持中英互译。

  • 转写和翻译结果延迟低需求

    为确保阅读效果,文本展示延迟要做到1s以下才可用,参考同类竞品,会议系统的延迟应该在200~300ms。

  • 转写和翻译结果实时投屏需求

    将翻译结果传达给听众有两种方式,一种是将文本结果投影在大屏幕上,一种是将文本结果合成语音后播放,后一种技术不成熟,目前采用投屏的方式。

  • 转写和翻译结果支持编辑的需求

    受限于算法能力和声音采集效果,目前的转写和翻译结果还无法做到完全正确,因此结果需要支持编辑。为了提高出稿效率,最好在发言人演讲的同时就能对结果进行编辑。

  • 内容安全保密需求

    行业内部展会、企业高层会议、政府人员讲话等会议场景对会议内容保密性要求较高,会议系统需要确保内容不能轻易泄露。

除以上几个高优先级需求外,较低的需求还包括投屏字幕样式可调整、转写翻译结果可导出等,此处不再详细说明。

产品形态和框架

为了满足将采集到的音频转写翻译并投影至大屏幕的这一核心需求,需要分析在会议厅场景下音频信号的详细处理过程。

在传统的多媒体会议室中,发言人的音频一般经过音控台(如果有的话)直接输出给音箱:

音频 → 音控台 →音箱

将声音的转写和翻译结果投影至大屏幕要稍微复杂一些,从多路声卡中输出的音频需要先经过算法引擎处理,然后将处理结果传输给投屏端电脑,再投影至大屏幕。

音频 → 音控台 → 算法引擎 → 投屏电脑 → 大屏幕

这其中算法引擎可打包安装在本地电脑上,也可安装在云端。同时转写翻译过程的暂停/继续、翻译语言等需要用程序(主控端)进行控制。


上图是音频处理过程的示例,但这只是多种类型的会议室设备布置中的一种情况。在某些中型的会议室中,布置算法引擎的设备和投屏设备可能是同一台电脑。

为了适应这种会议室设备布置的多样性,我们将产品形态划分为控制转写/翻译过程的主控端和控制投屏显示的投屏端,各自的功能如下:

  • 主控端:账户登录/退出、客户端和账户设置、会议配置、转写翻译结果查看和编辑等。

  • 投屏端:连接主控端、显示转写/翻译结果、配置显示样式

主控端和投屏端的详细信息架构如下所示:确定了产品形态和信息架构后,就可以开始着手原型设计了。

产品原型设计

信息框架只能告诉我们产品具有哪些功能,不能告诉我们完成这些功能的具体任务流程。为了能让用户顺利完成任务,需要分析用户的操作流程。使用会议系统过程中所包含的子任务有:登录退出、重置密码、会议配置、投屏配置。

由于登录/退出和重置密码比较简单,以下我着重展示会议配置和投屏配置的原型。

1 会议配置

会议配置是指会议开始前,会议记录员为会议配置名称和发言人语言等项目的过程,只需点击主页的创建会议按钮即可创建会议。

创建会议后,在页面左侧配置语言、设备等项目,配置完成后点击开始开始会议按钮即可开始转写/翻译。在右侧可以看到实时转写的文本,且转写结果支持编辑。

下面是上线后的主控端配置会议的过程:

从上图可以看到,在主控端配置会议后(已连接服务器、音频线路畅通),便可以实现转写和翻译麦克风收集到的音频了。但如果会议系统的设备布局如图二所示,那文本结果并不能投影至大屏幕,因此需要在投屏电脑上安装投屏端。

2 投屏配置

投屏的配置非常简单,只需一个按钮即可连接至投屏。具体的原型此处不再展示,连接过程如下图所示。

连接后,上图跳动的文字是发言人音频的转写结果,该面板支持设置字号、对齐、全屏等展示样式。

总结

传统的会议速记和同传不仅对速记员/同传人员的短期记忆和信息处理速度要求较高,还需要具备大量专业领域知识,而这正是机器所擅长的。虽然以目前的技术机器还不能做到完全替代人类,但这将是大势所趋。本项目探索了将语音转写和机器翻译应用于大型会议,希望我们做产品的过程能给相关从业者以启发。


热门标签

联系电话:18011300130