CLAP HTSAT Fused 是一个基于对比学习的音频-语言预训练模型,通过融合层次化令牌语义音频变换器(Hierarchical Token Semantic Audio ...