编程算法

【聚类分析】降维聚类判断是谁在说话

本文基于 VoxCeleb1 语音数据集,探索了通过语音特征提取与聚类分析来识别说话人身份的可行性。文章首先介绍了语音数据的聚类任务及其意义,并对比了两种常见的语音特征——MFCC 和 Fbank,指出 MFCC 更具代表性。随后,探讨了降维方法 PCA 和 t-SNE 的应用场景与效果,认为 t-SNE 在保留语音结构方面更优。接着,对三种主流聚类方法(KMeans、DBSCAN、层次聚类)进行了评估,发现 KMeans 在 MFCC + t-SNE 组合下聚类效果最佳,并提供了相应的数据支持。此外,文章还分析了每个说话人语音在聚类中的表现差异,揭示语音聚类并非绝对精准,而是受特征、样本量、噪声等因素影响。最后提出了未来改进的方向,如使用深度学习特征、优化降维参数、增加样本量等,以为进一步提升语音聚类的效果和实用性。

编程算法

【降维分析】 声音的可视化探索:从鸟叫到声纹识别

本文从鸟叫声的三维可视化获得灵感,系统性地探索了声音在降维空间中的可区分性。通过对比不同歌曲和不同人的朗读音频,综合运用PCA与t-SNE技术,成功将高维音频特征投射到三维空间进行观察。实验发现,不同个体的声音在空间中呈现出独特的分布与轨迹,不仅中心点位置分离,其高能量特征点的分布模式与时间连续性也蕴含了丰富的声纹信息。这些结果为理解音色、口音乃至特定发音在空间中的“签名”提供了直观证据,并为进一步研究声纹识别和语音内容分析开辟了新颖的视觉探索路径。