创意写作

【曙光大陆】002 这照片上是你吗?

孙仁同志——现在该叫他艾伦,或者凯因,或者随便什么史密斯了——觉得这世上的规则,就像他大学时那辆破车的链条,你永远不知道它会在哪个节骨眼上“嘎嘣”一声断开,把你撂在半路。不同的是,大学的链条断了顶多让你迟到,这里的链条断了,怕是连脖子都要一并交代了。

创意写作

【曙光大陆】001 古希腊掌管签到的神

孙仁后来总想,那个世界一定是个结构精妙的骗局。

故事开始于数学物理方程课前五分钟。他骑着那辆除了铃不响哪都响的破车,像枚精确制导的导弹,射向教学楼。透过门缝,他撇见了那个4个神圣的数字——签到码。在教务系统的宇宙里,孙仁这个名字暂时不会变成“缺勤”的悲惨状态。

编程算法

【方法论】机器学习先做特征选择还是参数寻优?

在监督学习中,特征选择应被视为模型训练的一部分,而非独立于模型的预处理环节。使用默认参数进行特征选择可能误删有用特征,影响模型性能。实验表明,特征与模型之间存在高度耦合,某些特征(如LPCC)在特定模型下表现优异,而另一些(如FBank与动态特征的组合)则可能适得其反。因此,建议采取“特征-模型协同设计”思路,分阶段评估特征有效性,并结合模型的“特征偏好”进行优化,以提升整体识别性能。

编程算法

【聚类分析】降维聚类判断是谁在说话

本文基于 VoxCeleb1 语音数据集,探索了通过语音特征提取与聚类分析来识别说话人身份的可行性。文章首先介绍了语音数据的聚类任务及其意义,并对比了两种常见的语音特征——MFCC 和 Fbank,指出 MFCC 更具代表性。随后,探讨了降维方法 PCA 和 t-SNE 的应用场景与效果,认为 t-SNE 在保留语音结构方面更优。接着,对三种主流聚类方法(KMeans、DBSCAN、层次聚类)进行了评估,发现 KMeans 在 MFCC + t-SNE 组合下聚类效果最佳,并提供了相应的数据支持。此外,文章还分析了每个说话人语音在聚类中的表现差异,揭示语音聚类并非绝对精准,而是受特征、样本量、噪声等因素影响。最后提出了未来改进的方向,如使用深度学习特征、优化降维参数、增加样本量等,以为进一步提升语音聚类的效果和实用性。

网站运维

AbuseIPDB黑名单实战测评:在中国网络环境下的效果与局限

本文通过本地蜜罐系统HFish在一周内捕获的真实攻击IP数据,对全球知名的威胁情报平台AbuseIPDB进行了实战测评。结果显示,AbuseIPDB免费黑名单在中国网络环境中存在显著局限性,包括地域性数据偏差、低威胁评分、高攻击频率IP漏报以及标签分类不精细等问题。为应对这些不足,建议构建以本地蜜罐数据为核心、结合其他威胁情报源和行为分析规则的多层混合防护体系,以提升对中国攻击行为的识别与防护能力。

编程算法

【降维分析】 声音的可视化探索:从鸟叫到声纹识别

本文从鸟叫声的三维可视化获得灵感,系统性地探索了声音在降维空间中的可区分性。通过对比不同歌曲和不同人的朗读音频,综合运用PCA与t-SNE技术,成功将高维音频特征投射到三维空间进行观察。实验发现,不同个体的声音在空间中呈现出独特的分布与轨迹,不仅中心点位置分离,其高能量特征点的分布模式与时间连续性也蕴含了丰富的声纹信息。这些结果为理解音色、口音乃至特定发音在空间中的“签名”提供了直观证据,并为进一步研究声纹识别和语音内容分析开辟了新颖的视觉探索路径。