【方法论】机器学习先做特征选择还是参数寻优？

知乎上有人提问：
特征选择若使用包裹式或嵌入式都得基于预测模型，那么这时候是先用模型的默认超参数做特征选择吗？然后再用新特征集进行超参数寻优？

那这样会不会出现一个问题，就是使用默认参数时并没有充分发挥所有特征的信息，导致一些有用的特征被筛掉了，导致整体性能变差，再怎么优化超参数也没用了。

本篇是对其问题的回答，也是对于此前【监督学习】：说话人特征提取算法比较 – Under the Sun with Paddy实验的回顾和总结。

是的，使用默认参数时很容易没有充分发挥所有特征的信息。解决方法是：应该将特征选择本身视为模型训练一个需要优化的“超参数”。

建议

理解模型的“偏好”：首先通过文献和经验，定性分析你的模型擅长处理何种信息（空间、时间、频率…），再据此设计或选择特征。
将特征子集作为超参数：在计算资源允许时，最严谨的方法是将“使用哪组特征”本身作为一个超参数，与模型参数一同进行优化。
优先使用嵌入式选择：使用L1正则化、树模型等内置特征重要性评估的方法，让特征选择与模型训练同步进行。
谨慎进行特征扩展：任何新的特征扩展（如我的动态特征）都应以控制变量的方式进行严格评估，警惕“维度堆砌”的陷阱。

具体的分析和结论

在我之前的实验中，我比较了MFCC、Fbank和LPCC三种音频特征在说话人识别任务中的表现。实验设计类似于一种“特征选择”场景：我固定了CNN模型的架构，比较MFCC、Fbank和LPCC三种音频特集性能。

实验发现：

1，特征集本身对性能有决定性影响。对于相同模型的多次实验中，MFCC在低噪声下准求率就底的降无可将。没有好的食材，厨艺在精湛也没用，再参数调优也提高不了鲁棒性。

2，不同特征集在不同模型下性能差异显著。

我使用CNN模型结果是：LPCC ≈ Fbank > MFCC；使用LSTM模型的文献结果是：Fbank > MFCC > LPCC，这说明了特征和使用什么模型超参数是紧密耦合的。如果先用默认超参数做特征选择，可能会过早地丢弃一些有用特征（如LPCC，其在文献中普遍不被看好），因为默认参数无法充分发挥这些特征的潜力，从而导致整体性能上限降低。

3，不合时宜的特征会破坏模型原有的学习能力。

预实验时，我‘自作聪明’地将FBank与其一阶、二阶差分动态特征拼接在一起，结果FBank特征的准确率急剧下降。特征工程的关键在于‘适配’而非‘堆砌’。为LSTM提供丰富的时序动态特征是‘投其所好’，而为CNN提供同样的特征则是‘强人所难’。在机器学习中，理解你的模型‘喜欢吃什么’，比一味地提供‘昂贵的食材’要重要得多。”