近日,清华大学研究团队在国际权威期刊《自然・机器智能》(Nature Machine Intelligence)上发表一项突破性研究成果,提出“能力密度”这一全新概念,旨在重新定义人工智能大模型的评估标准,不再仅仅关注模型的参数规模,而更侧重于每个参数所承载的智能水平。该研究成果以封面文章形式于11月20日正式刊发。
传统上,AI领域普遍遵循“规模法则”,即认为模型越大、能力越强,这在过去几年中推动了诸多强大AI模型的诞生。然而,随着模型参数量的急剧增长,其训练和使用成本也随之飙升,对AI技术的产业化应用构成了限制。清华大学计算机科学与技术系助理研究员肖朝军表示,评价AI模型应关注其“能力密度”,如同评判武林高手不只看“块头”,更要看其招式中蕴含的功力。
研究团队指出,提升AI模型的“能力密度”并非简单依赖于模型压缩。强行压缩大模型如同将一本厚重字典强塞入小本子,往往导致“智力”损失。因此,研究人员强调,打造“高密度”精干小模型需要更先进的“数据+算力+算法”体系协同设计。
通过对过去几年发布的51个开源大模型进行系统性分析,研究团队发现,AI大模型的“能力密度”正以指数级速度增长,大约每3.5个月(或100天)翻一番。这意味着,完成相同复杂任务所需模型的体积(参数量)每约3.5个月即可减半。例如,目前可能需要体育馆大小的“大脑”才能完成的任务,不久的将来只需客厅大小,再过约三个半月,其体积可能进一步缩小至背包大小。研究还显示,ChatGPT发布后,能力密度增长速度显著加快。
基于此“密度法则”理论,清华大学已与AI企业面壁智能(Miracl AI)展开深度合作,共同推出了一系列“高密度”模型,如MiniCPM等。这些模型在实际应用中展现出高效低成本的特点,并已成功应用于手机、汽车、智能家居和机器人等多个领域。面壁智能CEO李丹表示,公司将与清华大学合作,将密度提升曲线纳入模型研发的关键绩效指标,目标在2026年推出可在NPU手表端运行的“背包级”个人大模型。
研究团队认为,未来的AI模型将不再追求庞大规模,而是更加注重“精炼”和“高效”。当芯片的计算能力与AI的智能密度实现融合时,“端侧智能”时代有望加速到来,个人设备将拥有前所未有的智能水平,不仅反应更快速,也将更好地保护用户隐私。