微软公司于近期宣布发布Fara-7B,这是一款拥有70亿参数的新型计算机使用智能助手(Computer Use Agent, CUA),旨在直接在用户设备上执行复杂任务。该模型通过在本地运行,显著提升了数据安全性,并减少了延迟,使其能够在不将敏感信息传输至云端的情况下,自动化处理如内部账户管理或机密数据处理等工作流程。
Fara-7B 的独特之处在于其采用视觉方式识别和交互网页,如同人类使用鼠标和键盘一样。该模型通过截屏感知网页布局,并直接预测点击、输入和滚动等操作的像素坐标。与依赖于传统“可访问性树”的系统不同,Fara-7B 完全基于像素级视觉数据进行操作,这使其能够有效应对复杂或代码混淆的网页环境。
在性能测试方面,Fara-7B 展现出卓越的效率和准确性。在标准基准测试WebVoyager中,Fara-7B 的任务成功率达到73.5%。这一成绩超越了资源占用更大的模型,如GPT-4o(65.1%,当其被配置为计算机使用代理时)和本土的UI-TARS-1.5-7B(66.4%)。 此外,Fara-7B 的任务完成效率也表现突出,平均仅需约16个步骤即可完成任务,而UI-TARS-1.5-7B 大约需要41个步骤。
尽管Fara-7B 的推出备受期待,微软也指出其作为AI模型仍面临误判和复杂指令执行错误等风险。为应对这些挑战,Fara-7B 经过训练,能够识别“关键点”,即在涉及用户个人数据或不可逆操作(如发送邮件、金融操作)前主动暂停,并请求用户批准,以避免潜在的风险。 微软研究团队还设计了一款名为Magentic-UI的用户界面原型,旨在平衡这些关键点与用户体验,减少用户疲劳。
Fara-7B 的开发也体现了将复杂系统能力压缩为更高效小型模型的“知识蒸馏”趋势。 微软表示,未来的版本将致力于提升模型的智能性而非单纯增大体积,并计划在实时沙盒环境中通过强化学习进行模型改进。 目前,微软已在Hugging Face和Microsoft Foundry平台提供了Fara-7B 的MIT许可版本,供开发者进行实验和原型开发。 微软也同步为Windows 11的Copilot+ PC提供了量化和硅优化版本,支持NPU加速。 然而,Fara-7B 目前仍处于实验阶段,微软建议将其用于概念验证和试点项目,不适合直接用于关键任务的部署。