青岛于近日正式推出国内首个支持全模态实时交互的视觉语言大模型VisualGPT,并在青岛虚拟智能体产业大会上同步上线智能体训练平台,此举标志着人工智能交互从传统“文字对话”迈入“视觉界面即时互动”的新阶段。
VisualGPT模型的核心亮点在于其全模态实时交互能力。用户可以通过上传图片或视频,直接在画面上进行圈选、标注或语音提问,模型能够在秒级时间内返回结构化答案、可执行代码或3D场景,无需切换至文字输入界面。 该模型将视觉编码器与流式解码器耦合,实现了低于300毫秒的端到端延迟,并支持1080p60fps的实时画面分析与多轮对话,打造“所见即所得”的用户体验。 目前,VisualGPT已在教育、医疗、金融三大领域开放SDK, enabling教师在课件上圈选公式即时生成动画讲解、医生在阅片时询问病灶指标、金融分析师直接对K线图提问获取策略回测等应用场景。
配套推出的青岛智能体训练平台,面向全国开发者免费开放多模态数据与算力资源,提供1000张A100/H100混合算力以及10PB的多模态数据。 平台计划于2026年扩容至5000张H100,旨在建成中国北方最大的AI训练集群。 大会期间,还发布了“百企百景”对接清单,首批已征集超过200个视觉交互需求,预计到2025年底将完成100个标杆案例的落地。
青岛市工业和信息化局表示,VisualGPT的发布使青岛在虚拟智能体赛道占据先机。未来三年,青岛将依托该模型建设“青岛AI创新谷”,目标是吸引超过300家上下游企业集聚,形成千亿级规模的全模态交互产业链,进一步巩固青岛在人工智能领域的产业地位。