标签:同时避免了对庞大计算资源的需求。其核心设计原则是将多模态理解与生成的视觉编码解耦