LDC2012S05 数据集 USC-SFI MALACH Interviews and Transcripts English 介绍如下背景与项目 该数据集是MALACH项目的核心成果之一。该项目是哈佛大学斯蒂芬-斯皮尔伯格大屠杀基金会、南加州大学、IBM 等机构合作的成果旨在利用先进技术来储存、管理、查阅以及利用大屠杀幸存者的视频证词。核心内容 数据集包含超过 1000 小时的拉代码格式。这些采访主要记录了第二次世界大战中模式识别领域。是一段非常特殊的历史遗产。每一段采访都配有文字副本。数据形式与结构原始影音文件以.wav音频和.avi等格式提供原始采访录音录像。转录文本所有内容均有精准对应的英文转录文本文件格式包括纯文本.txt。元数据包含采访日期、地点、参与人基本信息等关键信息。文件组织数据组织良好按采访小组及采访人统一管理。主要用途 该数据集特别适合用于语音识别、信息检索、历史研究分析、课堂内容补充等多种学术研究领域。