语音和语言技术中心 demo 演示系统

Center for Speech and Language Technologies

信息技术研究院 · 清华大学 Research Institute of Information Technology · Tsinghua University

VV_SEG: deep speaker segmentation system.

提供了一个基于深度学习的说话人分割系统。该系统融合了基于深度神经网络的语音识别技术和深度说话人特征提取技术,实现了语音内容识别和说话人分割染色。注:当前呈现的系统仅支持两个说话人的分割任务。

VV_QuickMark: deep speaker analysis system.

提供了一套深层说话人信息分析系统。该系统融合了语音时频分析、有效音检测、深度说话人特征提取、图像边缘提取、动态时间规整、可视化分析等一系列技术手段,实现了对语音信号中说话人信息的深层分析与挖掘。注:当前系统仅支持文本相关的说话人识别任务。

VV_FACTOR: deep speech factorization and reconstruction

提供了一个基于深度学习的语音信号分解与重建系统。该系统采用了分层级联的训练框架;融合了基于深度神经网络的语音识别技术、深度说话人特征提取技术和深度情感特征提取技术;实现了将语音信号分解成内容因子、说话人因子和情感因子,并基于三种因子实现了语音信号的深度重建。

联系我们




地址:北京市海淀区清华大学FIT楼1-303房间
电话/传真:010-62796589
邮编:100084
E-mail:cslt@mail.tsinghua.edu.cn

© 清华大学 FreeNeb 老铁科技 2024