长沙,2025年11月25日——在近日于湖南长沙举行的2025世界计算大会上,昆仑元AI正式发布了其全模态融合模型BaiZe-Omni-14b-a2b。该模型基于昇腾(Ascend)平台开发,旨在通过其全面的文本、音频、图像和视频理解与生成能力,推动人工智能技术的新进展。
2025世界计算大会由工业和信息化部与湖南省人民政府共同主办,于11月20日至21日在长沙举行,聚焦计算领域的最新成果与发展趋势。
据昆仑元AI介绍,BaiZe-Omni-14b-a2b模型采用了创新的技术架构,包括模态解耦编码、统一跨模态融合和双分支功能设计,以优化多模态应用的发展。为提升计算效率,该模型在MoE+TransformerX架构中融入了多线性注意力层和单层混合注意力聚合层,确保了大规模全模态应用的顺利实施。
在模型训练过程中,昆仑元AI使用了涵盖超过3.57万亿token的文本数据、逾30万小时的音频数据、4亿张图像以及超过40万小时的视频数据。该公司表示,这些高质量、差异化配比的数据确保了单模态数据的纯度和跨模态数据的对齐质量,从而在不同训练阶段实现了性能的逐步提升。
性能方面,昆仑元AI指出,BaiZe-Omni-14b-a2b在多模态理解的核心指标上表现突出,文本理解准确率达到89.3%。在长序列处理场景中,该模型在32768token文本摘要任务中的ROUGE-L得分为0.521,显著高于行业主流模型GPT-4的0.487。此外,该模型还支持多语言文本生成以及图像、音频和视频的多模态生成。
此次发布标志着昆仑元AI在全模态大模型领域的最新突破,预计将为智能客服、内容创作等多个领域的智能化转型提供技术支持。