ICASSP 2022多通道多方会议转录挑战

ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE (M2MeT)

竞赛简介

语音识别(ASR)、说话人日志(Speaker Diarization)等语音信号处理技术的最新发展激发了众多语音技术的应用。会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的演讲风格和复杂的声学条件,需要考虑到重叠语音、数量未知的演讲者、大型会议室中的远场信号、噪音和混响等挑战。

然而,该领域的发展一直以来因为缺乏大型公开真实会议数据而受到制约。由于会议转录涉及复杂的处理过程,因此必须仔细收集和标注更丰富的信息,如说话人身份、语音上下文、开始/结束时间等。所有这些信息都需要准确的标注,这既昂贵又耗时。虽然目前已有多个的相关的数据集,但它们的都有着各自的限制,从语料库设置(如语料库大小、说话人数量、空间位置、收集条件等)到语料库内容(如录音质量、重音语音、说话风格)难以尽如人意。此外,几乎所有公开的会议语料库都是用英语收集的,语言之间的差异大大制约了中文会议转录技术的发展。

因此,我们发布了AliMeeting语料库,该语料库包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。基于该数据集,我们将推出多通道多方会议转录挑战赛(M2MeT),作为ICASSP2022信号处理大挑战赛。该挑战包括说话人日志和多说话人语音识别两个赛道,同时我们将详细介绍数据集、规则、评估方法和基线系统,旨在进一步促进该领域的可重复性研究。详细内容也可以参考我们已经发布的论文:M2MET论文

我们将提供会议场景中语音识别和说话人日志的基线系统的代码作为参考,目标是为了简化训练和评测程序,使参与者能够轻松灵活地进行实验和验证基于神经网络的方法。参考github链接

数据集

AliMeeting总共包含118.75小时的语音数据。数据集分为104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。其中,训练集包含212段会议,验证集包含8段。每段会话由一组参会者进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,男女比例均衡。训练集和验证集将在挑战开始时发布给参与者,而测试集音频将在最后的挑战评分阶段发布。

该数据集收集于13个不同会议室,分为小型、中型和大型三种规格,大小从8到55平方米不等。不同的房间具有不同的布局和声学特性。每个会议地点的详细参数将与训练数据一起发布。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的其他家具包括沙发、电视、黑板、风扇、空调、植物等。在录制过程中,麦克风阵列置于桌上,与会者围坐在桌边进行自然对话。与会者于麦克风阵列的距离范围为0.3到5.0米。所有参与者都是汉语母语者,说普通话,没有浓重口音。会议期间,自然产生各种室内噪音包括但不限于咔嗒声、键盘声、开门/关门声、风扇声、气泡声等。在训练集和验证集录制过程中,参与者在录制期间保持在相同位置不发生走动。训练集和验证集之间没有重复的参会者。图1展示了一个会议室布局的示意图。

每场会议的参会者数量从2人到4人不等。为覆盖不同的语音重叠比例场景,我们在录制过程中选择了各种会议主题,包括医疗、教育、商业、组织管理、工业生产等日常例会。训练集和验证集的平均语音重叠率分别为42.27%和34.76%。AliMeeting的更多详细信息见表1。表2显示了训练集和验证集中不同参会者人数的会议的详细语音重叠率。

我们还使用耳机麦克风记录了每个参会者的近场音频信号,并确保只记录和转录对应参会者自己的语音。需要注意的是,麦克风阵列记录的远场音频和耳机麦克风记录的近场音频已进行了同步.每场会议的所有抄本均以TextGrid格式存储,其中包含会话持续时间、说话人信息(说话人数量、说话人id、性别等)、每个说话人的片段总数、每个片段的时间戳和转录。

赛道设置以及测评介绍

说话人日志,也称为说话人分段聚类,通过记录多说话人音频数据上属于特定于说话人的语音事件来解决“什么人在什么时候说了话”的问题。组织者规定允许使用的限定数据集包括AliMeeting、Aisell-4和CN Celeb。AliMeeting的训练集和验证集数据不仅包含麦克风阵列记录的远场会议现场音频,还包含由每个与会者的耳机麦克风记录的近场音频。测试集包括10个小时的会议数据,将(根据时间安排)于之后发布,用于对该赛道的结果进行评分和排名。最终测试集评测的时候,主办方将只提供8通道麦克风阵列录制的测试集中的远场音频和相应的句子分段时间戳。请注意,组织者不会提供耳机麦克风的近场录音。参赛者需要确定每个时间点的发言者,并且为每段会议提供RTTM文件。

该赛道中说话人日志系统的准确度通过日志错误率(DER)来衡量,其中DER的计算公式为:说话人混淆(SC)、误报(FA)和漏检(MD)三种不同错误的总时间除以总持续时间:
DER=(T_SC+T_FA+T_MD)/T_Total * 100%
其中 T_SC、T_FA 和T_MD 是三种错误各自发生的时长,T_Total是总的时长。
我们采用匈牙利算法对预测结果和参考转录抄本进行对齐。Rich Transcription 2006 evaluation在真实标签片段的每个边界周围设置了一个0.25秒的“不计算分数”区域来减少转录抄本中注释不准确和人为错误的影响。由于此评估方案已在文献中广泛采用,我们在挑战中也遵循此设置。

多说话人语音识别赛道要求处理重叠语音并识别多个说话人的内容,组织者将仅提供AliMeeting和Aisell-4的训练和测试集作为赛道2的可用的限定数据。最终提供的测试集数据与赛道1相同。参赛者最终需要转录每个发言者的发言,但不需要为每段转录文本标注对应发言者。

多说话人语音识别赛道的精度采用字符错误率(CER)来衡量。对于给定的预测输出,CER计算将其转化为参考转录本所需的最小字符插入数(Ins)、替换数(SUB)和删除数(Del)与转录抄本的字符总数(包括空格)的比例:
CER=(N_Ins+N_Subs+N_Del)/N_Total * 100% 其中N_Ins, N_Subs, N_Del 是三种错误的字符数, N_Total 是字符总数。
考虑到置换不变训练(PIT)问题,我们提出了两种计算重叠语音CER的方案。
第一种计算方案是基于语句的先进先出(FIFO)方法:我们根据每条语句的开始时间对真实标签进行排序,并使用标记连接这些语句,然后按照这种固定的排列顺序计算CER。
第二种方法基于说话人的方法:参赛者直接预测得到每个说话人的抄本或者自行对相同说话人的抄本进行合并,然后组办方会对所有说话人的连接方式进行计算(相同说话人的语句合并需要参赛者自行处理或者预测)。

对于每条赛道,我们还设置了两个子赛道:

● 子赛道一(限定训练数据):参与者只能使用限定数据构建两个系统,严禁使用额外数据。赛道1(说话人日志)和赛道2(多说话语音识别)仅能使用AliMeeting、Aishell-4和CN Celeb。

● 子赛道二(开放训练数据):除了限定数据外,参与者可以使用任何公开可用、私人记录和模拟仿真的数据集。但是,参与者必须清楚地列出使用的数据。如果使用模拟仿真数据,请详细描述数据模拟的方案。


时间安排(AOE时间)
奖金
2021.11.14 参赛者注册截止。
在每个主赛道的子赛道一(限定训练数据)中取得的前三名的获奖队伍将获得由阿里巴巴集团提供的奖金:
2021.11.17 训练集、验证集数据发布。
第一名:5000 USD
2022.01.13 测试集数据发布。
第二名:2000 USD
2022.01.17 最终提交截止。
第三名:1000 USD
2022.01.31 评估结果和排名发布。
2022.02.10 选中团队提交论文至组办方的截止日期。
2022.02.17 提交最后论文至ICASSP的截止日期。

竞赛报名

来自学术界和工业界的有意向参赛者均应在2021年11月15日前向m2met.alimeeting@gmail.com 发送邮件,按照以下要求注册参加挑战赛:

● 主题: [ICASSP2022 M2MeT Challenge Registration] – 团队名(英文或者拼音)- 参与的赛道;
● 提供团队名称、隶属关系、参与的赛道、团队队长以及联系人信息(团队人数不限定);

主办方将在3个工作日内通过电子邮件通知符合条件的参赛团队,团队必须遵守将在挑战网站上发布的挑战规则。

组委会

谢磊
希尔贝壳基金会

希尔贝壳基金会

马斌
阿里巴巴达摩院新加坡研发中心研究员

阿里巴巴达摩院新加坡研发中心研究员

汪德亮
美国俄亥俄州立大学教授

美国俄亥俄州立大学教授

谭政华
丹麦奥尔堡大学教授

丹麦奥尔堡大学教授

Kong Aik Lee
新加坡A*STAR资讯通信研究院高级科学家

新加坡A*STAR资讯通信研究院高级科学家

鄢志杰
阿里巴巴首席工程师

阿里巴巴首席工程师

钱彦旻
上海交通大学副教授

上海交通大学副教授

卜辉
希尔贝壳CEO

希尔贝壳CEO

竞赛规则


  • 所有参赛者都应遵守以下规则:


    1. 1. 允许在原始训练数据集上进行数据增强,包括但不限于添加噪声或混响、速度扰动和音调变化;

    2. 2. 严格禁止以任何形式使用测试数据集,包括但不限于使用测试数据集微调或训练模型;

    3. 3. 允许多系统融合,但不鼓励使用具有相同结构仅参数不同的子系统融合;

    4. 4. 如果两个系统的测试DER或CER相同,则计算复杂度较低的系统将被认定为更优;

    5. 5. 如果使用强制对齐模型获得了逐帧分类标签,则必须使用相应子赛道允许的数据对强制对齐模型进行训练;

    6. 6. 端到端方法中允许使用浅层融合,例如LAS、RNNT和Transformer,但浅层融合语言模型的训练数据只能来自于允许的训练数据集的转录抄本;

    7. 7.最终解释权属于主办方。如遇特殊情况,主办方将协调解释。