多模式声场拾音理论方法及应用技术研究
机械工程资助企业:
上海快特声学技术有限公司
企业导师: 孙瑞华

指导教师: 吴海军

项目成员: 邓智杰 朱子轩 单树城 胡嘉昊

项目概述
无论是教室,还是飞机动车舱室内,语音交流都是最自然、最直接的沟通方式。清晰、准确的语音传递对于促进教学互动、提高乘客满意度及保障安全通讯都至关重要。传统音响系统往往依赖于固定麦克风或个人携带的话筒,且必须将麦克风对着发声位置,使用极其不方便,很大程度上限制了交流的自由度和便捷性。现有基于传声器阵列拾音系统没有针对室内混响与强干扰环境针对性适配,在教室、舱室等环境下由于人员走动、说话人员多、其他噪声干扰强等原因,难以准确识别并提取目标语音信号,效果不太理想。本项目拟研究多模式声场拾音理论方法及应用技术,开发多模式声场拾音及放大硬件系统。
项目目标
根据空间要求,设计麦克风阵列构型,匹配定向增强算法,并针对麦克风录制的随机干扰噪声,如电风扇、异响等,开发噪声消除算法,抑制干扰信号。同时结合计算机视觉技术自动识别并追踪教室、飞机舱室等室内环境中的声源位置,实现声音的精准捕捉与放大。通过项目实施,让教学人员、舱内工作人员解放双手,不再需要随身携带麦克风设备,轻松提升教师教学互动效率与质量,增强室内的沟通清晰度与安全性。打造室内环境智能、高效的语音交流解决方案,建立交流友好环境。
项目成果
本项目通过研究基于混沌粒子群优化算法的二维MUSIC优化算法,克服了传统粒子群早熟收敛缺陷,实现全局搜索能力和实时性的提升;通过一种融合时变协方差矩阵估计与自适应优化的改进MVDR算法和DTLN神经网络的机器学习降噪算法,有效地抑制了各类教室内常见的平稳和非平稳噪声,大大提高了输出音频的清晰度。本项目还基于人脸识别法,能够实时跟踪说话者的人脸位置,并通过单目视觉定位算法,将说话者嘴唇的图片像素坐标转化现实世界中的物理坐标,为声音定向语音增强提供精确的空间参考;同时还研究了一种视听语音增强算法,结合相机拍摄的说话者的面部信息,实现对说话者声音的精确提取与加强。