改进多尺度注意力机制:从 EMA 到 EMAX 的理论与实现分析

本文提出了一种新的注意力模块——**EMAX(Enhanced Multi-scale Attention with eXpressive learning)**,在保持 EMA 高效性的同时,引入了动态分组、通道注意力、门控残差连接和全局注意力增强等创新设计,使其具备更强的表达能力和泛化能力。