除了文生图、文生视频，AI还有这3种颠覆性的模型

1. 用于科学发现的AI模型：加速人类知识的边界

你可能想不到，AI正在一些最前沿的科学领域里干着“苦力活”，而且效率高得惊人。比如在材料科学和药物研发这两个领域，传统的研究方法通常依赖于研究人员的经验、直觉，再加上大量的试错实验，整个过程非常耗时且昂贵。 AI模型的出现正在改变这一切。

举个具体的例子，Google DeepMind开发的名为GNoME（Graph Networks for Materials Exploration）的模型，就干了件大事。这个模型通过学习原子之间的连接方式和已有的晶体结构数据，预测出了220万种新的晶体结构。这是什么概念？相当于把人类过去近800年才能积累到的知识，在很短的时间内就给发掘出来了。在这220万种新材料里，有38万种被认为是性质最稳定的，极有可能在未来应用于超导体、新一代电池和更高效的太阳能电池板等技术上。

而且，GNoME的预测准确率很高。传统方法的预测准确率大约在50%左右，而GNoME能达到80%。这意味着研究人员可以省去大量无效的实验，直接验证那些最有希望成功的材料。事实上，已经有外部的独立实验室通过实验，成功合成了GNoME预测出的736种新材料，这直接证明了AI预测的可靠性。

GNoME的核心技术是一种叫做图神经网络（GNNs）的东西。你可以把它想象成一个专门分析复杂关系的AI。普通AI模型处理图片或者文字，数据排列是比较整齐的。但原子之间的连接关系就像一张复杂的社交网络图，很不规整。图神经网络就擅长处理这种图结构数据，它能看懂原子和化学键组成的这张“关系网”，从而预测出新材料的性质。

另一个震撼业界的例子是AlphaFold，同样来自DeepMind。生物学里有一个困扰了科学家50多年的大难题，叫做“蛋白质折叠问题”。蛋白质是氨基酸链条组成的，但真正决定它功能的，是它折叠成的三维空间结构。搞清楚这个结构对于理解疾病、开发新药至关重要。以前解析一个蛋白质结构，可能需要一个团队花费数年时间和上百万美元的经费。

AlphaFold 2的出现，几乎解决了这个问题。它能根据蛋白质的氨基酸序列，以接近实验的精度，在几分钟内预测出其3D结构。 DeepMind将这个模型免费开放，并建立了一个包含超过2亿个蛋白质结构预测的数据库，全世界的研究人员都可以免费使用。这个数据库已经被来自190多个国家的超过300万研究者使用，极大地加速了从癌症疫苗到药物设计等多个领域的研究进程。比如，有研究人员利用AlphaFold来评估与阿尔茨海默病相关的潜在药物靶点，过去需要几周的分析工作，现在几天就能完成。

这些用于科学发现的AI模型，它们不是在凭空创造，而是通过学习海量的现有科学数据，去发现人类尚未注意到的规律和可能性。它们就像超级强大的“科研助理”，把科学家从繁琐的重复性工作中解放出来，让他们能更专注于创造性的思考和验证环节。

2. 结构化数据生成与处理模型：让数据自己开口说话

我们每天都在和各种各样的数据打交道，但这些数据可以粗略地分为两类：一类是像文章、图片、音频这样的非结构化数据，另一类则是像Excel表格、数据库里的数据那样的结构化数据。文生图、文生视频处理的是前者，而另一类同样重要的AI模型，则专注于处理结构化数据。

你可能会觉得，处理表格数据不是用SQL查询或者BI工具就可以了吗？为什么还需要AI？原因是，传统的工具需要使用者具备专业知识，比如你得会写SQL代码才能从数据库里捞数据。这就形成了一个门槛，让很多业务人员无法直接、快速地获取他们需要的数据洞察。

现在，出现了一类叫做“Text-to-SQL”的模型。顾名思义，就是把自然语言直接转换成SQL查询语句。比如，一个销售经理可以直接问：“上个季度哪个产品的销售额最高？” AI模型就能自动把这句话翻译成一段精准的SQL代码，然后执行查询，最后把结果直接告诉你。这让不懂技术的人也能轻松地与数据库对话，极大地降低了数据分析的门槛。像Google Cloud的BigQuery和Salesforce内部使用的工具，都已经集成了类似的功能。

为了保证转换的准确性，这些模型通常会用到一种叫做“检索增强生成”（RAG）的技术。简单来说，就是在生成SQL代码之前，AI会先去检索数据库的“说明书”（也就是数据库的 schéma），了解每个表是干什么的，字段代表什么意思，表和表之间有什么关联。这样，它就能更好地理解你的问题，并生成更靠谱的查询代码。

除了查询数据，AI还能“无中生有”，也就是生成全新的、但又非常逼真的结构化数据。这被称为“表格数据合成”（Tabular Data Synthesis）。这个技术有什么用呢？最直接的应用场景有两个。

第一个是保护数据隐私。很多公司拥有大量包含用户敏感信息的表格数据，比如医疗记录、金融交易数据等。这些数据既要用来训练机器学习模型，又不能直接泄露出去。这时候，就可以先用AI模型学习真实数据的统计规律和特征，然后生成一份“以假乱真”的合成数据。这份合成数据在统计上和真实数据非常相似，但又不包含任何真实的个人信息，可以放心地用于模型开发或者数据共享。

第二个是扩充数据。在训练机器学习模型时，我们常常会遇到数据量不足的问题，尤其是对于一些罕见情况的样本。AI可以生成额外的合成数据来扩充训练集，帮助模型学习得更充分。

实现表格数据合成的技术也有好几种，比如生成对抗网络（GANs）和变分自编码器（VAEs）。它们的工作原理有点像一个“伪造者”和一个“鉴别者”在互相博弈。生成模型（伪造者）不断尝试生成更逼真的假数据，而判别模型（鉴别者）则努力地去分辨真假。通过这个过程，生成模型最终能学会创造出高质量的合成数据。

3. 代码生成模型：从辅助工具到编程伙伴

对于程序员来说，AI代码生成工具已经不是什么新鲜事了。像GitHub Copilot这样的工具，很多开发者每天都在用。它就像一个坐在你旁边的“结对编程”伙伴，在你写代码的时候，实时地给你提供代码补全建议，有时甚至能直接生成一整个函数或者类。

这类模型的基础，大多是像OpenAI Codex这样在海量代码上训练过的大语言模型。它们学习了成千上万个开源项目的代码，从而理解了不同编程语言的语法规则和常见的编程模式。根据Stack Overflow在2023年的一项调查，超过70%的开发者已经在使用AI工具来帮助他们写代码或者调试。

但是，现在的代码生成模型已经不满足于仅仅做个“代码补全器”。它们正在向更复杂的任务演进。

首先，是理解更复杂的项目上下文。早期的代码工具可能只能看到你当前正在编辑的文件，给出的建议比较零散。而现在的模型，比如Sourcegraph Cody，能够分析整个代码库的上下文，理解不同模块之间的依赖关系和交互方式。这让它在处理大型、复杂的项目时，能给出更贴切的建议。

其次，是帮助进行代码审查（Code Review）。代码审查是软件开发流程中保证代码质量的重要环节，但通常很耗费人力。现在，一些AI工具，比如Codiga，可以自动检查代码中的潜在漏洞、错误和不符合规范的写法，并给出修改建议。 GitHub Copilot也已经具备了辅助开发者进行Pull Request审查的能力。这就像请了一个不知疲倦的专家来帮你检查代码，能发现很多人眼容易忽略的问题。

更进一步，AI正在尝试直接从需求生成代码。你可以用自然语言描述你想要实现的功能，比如“创建一个API接口，用来接收用户上传的图片，并把它保存到云存储里”，然后AI模型会直接为你生成对应的后端代码、前端组件甚至是数据库操作脚本。像Google的Gemini模型，就支持超过20种主流编程语言的代码生成。

当然，目前AI生成的代码还不能做到100%完美，尤其是在处理一些逻辑特别复杂或者非常规的需求时，还是需要有经验的程序员来审核和修改。但是，它已经能把开发者从大量重复、模式化的“胶水代码”编写工作中解放出来。比如，过去你需要花很多时间去查阅某个库的API文档，记住各种参数的写法，现在AI可以直接帮你搞定。这让开发者能把更多的精力投入到系统架构设计和核心业务逻辑的实现上。

原创文章，作者：MakeAI，如若转载，请注明出处：https://www.qidianhudong.com/aikonw/3258.html