绝区伍--2024年AI发展路线图

2024 年将是人工智能具有里程碑意义的一年。随着新模式、融资轮次和进步以惊人的速度出现，很难跟上人工智能世界发生的一切。让我们深入了解 2024 年可能定义人工智能的关键事件、产品发布、研究突破和趋势。

2024 年第一季度

2024 年第一季度将推出一些主要车型并进行改进，有望进一步推动 AI 能力的发展。

双子座超级发射

我们可以预期谷歌将在第一季度推出 Gemini Ultra。得益于宪法提示和自我监督等宪法人工智能技术，他们的新版对话式人工智能助手可能会击败 GPT-4。虽然它可能不会在每个领域都击败 GPT-4，但 Gemini Ultra 的安全性和推理能力应该远远超出 OpenAI 在 GPT-3 和 GPT-3.5 上所展示的水平。

Gemini Ultra 的推出将给 OpenAI 带来巨大压力，迫使其提前发布 GPT-4.5。然而，GPT-4.5 可能要到 2024 年第二季度才会真正推出。

开源微调技术取得进展

随着研究人员分享更多微调技术，我们还应该在 2024 年第一季度看到开源 AI 模型的显著改进。在推理任务和数学/逻辑问题上进行微调的模型可能会在常识和避免虚假声明等领域缩小与 GPT-3 等专有模型的差距。

到第一季度末，一些开源模型甚至可能在复杂的数学/逻辑推理基准测试中达到人类水平（超过 75%）。当然，作弊风险仍然是基准测试的一个隐患，但自然语言任务也应该会取得令人印象深刻的进步。

机器人技术融资增长

随着人工智能软件的快速发展，更多的资金将流入机器人等商业应用。我们应该看到至少两轮数百万美元的融资，这些融资面向专注于将人工智能进步带入现实世界的机器人初创公司。仓库机器人、自动驾驶汽车，甚至家庭/办公室的通用辅助机器人应该会在 2024 年取得重大进展。

小型开源模型的兴起

尽管 OpenAI 等组织宣布了超过 100 万亿参数的巨型模型，但较小的开源模型在许多现实世界的用例中仍将越来越受欢迎。公司发现，针对小众数据集进行微调的 100 到 200 亿个参数模型非常有用，而且训练和部署成本低廉。

即使 GPT-4 等超级模型成为头条新闻，也要寻找这些“微模型”来为更具互动性的演示和基本聊天机器人提供支持。与依赖 GPT-3 等单一模型相比，初创公司会发现使用一组微模型更容易满足用户需求。

2024 年第二季度

随着高调的模型发布、大量用于人工智能安全工作的资金以及这些复杂模型实际工作原理的突破性研究，人工智能炒作周期将在 2024 年第二季度再次达到高峰。

LLama 3 和 GPT 4.5 发布

Meta 预计将于 2024 年第二季度发布其大规模语言模型的第三版 LLama 3。LLama 3 应该能够在推理和为其输出提供证据等领域与 GPT-4 相媲美。一些专家预测它甚至可能在人工评估中超越 GPT-4。

OpenAI 不会甘于落后太久，很可能会在 LLama 3 发布后不久推出 GPT-4.5。与 GPT-4 发布后的不稳定稳定期相比，GPT-4.5 有望更强大、更安全、更可靠。

Mistral 完成一轮大规模融资

Mistral 是一家人工智能初创公司，致力于开放式构建下一代模型、数据集和训练基础设施，凭借爆炸式增长，该公司将在第二季度筹集大量资金。

Mistral 开放生态系统的流行将迫使传统科技巨头重新思考其闭源文化。预计 2024 年将有更多大型语言模型和数据集免费向研究人员发布。

人工智能安全的进步

随着 LLM 变得越来越先进（并且可能很危险），人工智能安全工作将在 2024 年第二季度加大力度。我们应该会看到一些基础论文发表，这些论文破解了大型语言模型的黑匣子，并提高了我们对它们行为的理解。这将使更安全的模型架构和训练实践成为可能。

全球还将齐心协力收集培训数据，以保持大语言模型课程的益处。诸如嵌入价值观一致和尊重规范的教学调整数据集等内容将限制不良行为。

在安全方面，大学和公司将合作系统地记录 LLM 遭受网络攻击的漏洞，并开发新的保护措施。随着模型在更多任务关键型场景中的部署，验证完整性和入侵预防将变得与准确性同样重要。

大语言模型推动科学发现

尽管人们担心大语言模型会取代白领工作，但人工智能模型将继续证明其对增强人类研究人员和工程师的作用。开放科学运动将进一步发展，越来越多的高中生将在人工智能的帮助下做出可验证的贡献。

大语言模型将加速数学领域的发现，解锁证明定理的新技术。神经网络增强的物理模拟将揭示传统研究中无法发现的现象。生物科学将受益于使用人工智能进行蛋白质折叠预测。

预计著名的研究型大学将大力投资专注于将大语言模型学位应用于其领域的中心，同时无缝记录证据和逻辑链以确保学术严谨性。

Grok 取得了显著的进步

Grok 是专注于科学推理能力的 xAI LLM，得益于宪法人工智能技术，它将得到显著提升。通过提供数学证明作为其新颖预测和结论的依据，与仅接受预测目标训练的不太严格的 LLM 相比，Grok 将独树一帜。

许多专家呼吁所有大语言模型的科学主张都应附上一些正式的逻辑论证或数学证明，而不仅仅是引用精选的文献。由于这一推动，致力于理性和推理基准的初创企业将蓬勃发展。

2024 年第三季度

在 2024 年上半年努力应对 LLM 之后，人工智能社区将在第三季度通过严格测试模型声明和量化现实世界的表现而稍微恢复立足点。

GPT 5.0 发布

OpenAI 将于 2024 年第三季度发布 GPT-5，以弥补 GPT-4 动荡推出所造成的声誉损害。与 GPT-3 和 GPT-4 相比，此模型更新最终将不负众望，连贯性、事实准确性和基本常识性均有显著提高。

当然，随着 Anthropic、谷歌和其他公司的竞争模型提高了人们的期望，对“改进”能力的门槛也在不断提高。不过，GPT-5 应该能巩固 OpenAI 目前作为行业领导者的地位。

LLM 绩效验证

2024 年上半年关于模型误导性声明的 LLM 大辩论将在第三季度开启性能验证时代。大学和公司的团队将发布用于量化语言模型输出的全面基准套件。

政策制定者也将参与其中，要求透明地报告在医疗保健、教育和金融等敏感领域部署的模型的连贯性、准确性和偏见等指标。

就像机器一样，LLM 的标准化安全表将列出已知的故障模式。测试机构将在生产环境中（而不仅仅是在受控条件下）审核和验证性能。

改进的开源模型

由于 Mistral 推动人工智能开发的开放性，到 2024 年第三季度，改进的开源模型将达到甚至超过 GPT-4 的原始能力。当然，领先的专有模型仍将在高级认知基准上占据主导地位。但对于许多现实世界的用例来说，开源就足够了。

通过高质量的开放模型生态系统将人工智能商品化将引发一波创新浪潮，因为初创企业和学生可以在这些模型的基础上进行构建，而不是从头开始重新创建基础。

视觉模型变得更加逼真

虽然大语言模型备受追捧，但视觉人工智能也将继续稳步发展。随着研究人员更多地关注元数据和视频一致性，2023 年令人震惊的人工智能生成图像将会消退。

到 2024 年第三季度，得益于模拟数据的进步和偏差测试机制的改进，视觉模型最终将可用于现实世界的产品，而不会出现令人尴尬的失误。在上下文和意图方面仍存在许多未解决的问题，但视觉和语言模型将开始从彼此的进步中受益匪浅。

代码生成大语言模型 (LLM) 课程受到追捧

像 GitHub 的 Copilot 这样的专门生成计算机代码的 LLM 将以代码行的形式为超过 50% 的真实软件项目做出贡献。在用自然语言编写规范和填写必要代码之间进行快速迭代将加速开发。

当然，验证自动生成代码的正确性、安全性和出处仍然存在巨大风险。但其生产力优势如此巨大，以至于几乎每个大型开源项目都会包含一些机器生成的逻辑。软件工程师的角色将永远转向验证和优化，而不是原始的改动。

2024 年第四季度

到 2024 年底，人工智能的炒作可能会开始让位于部署挑战的现实。虽然原始能力呈指数级增长，但融入社会却充满陷阱。引导这些改变世界的技术安全且合乎道德地应用需要社会科学家和政策专家与计算机科学家共同努力。

下一个 Gemini 版本发布

谷歌将于 2024 年第四季度在 Gemini 上发布其下一个版本。在 Sundar Pichai 的新领导议程下，谷歌投入了大量资源来开发宪法人工智能技术，例如自我监督和外部同行反馈。

升级后的 Gemini 在透明度、监督和可靠性方面大大缩小了与行业领导者的差距。谷歌希望这些严格的要求将有助于缓解北美和欧洲政策制定者的反垄断担忧。

当然，有些人认为，对于一家长期被指控窃取用户数据以牟利的公司来说，这为时已晚。但随着谷歌率先在无需大规模数据收集的情况下开发强大人工智能的方法，行业情绪开始转变。

开源模型获得合法性

到第四季度，开源 AI 模型将成为大型企业的可靠选择。Mistral 的持续进步加上模型验证标准的提高有助于大型银行、保险公司和其他受监管行业适应开放生态系统。

当然，国防和情报领域最敏感的应用仍将利用基于机密数据训练的闭源模型。但开放性已达到合法性的新高度，而不仅仅是学术界可以玩弄的东西。

标准小组围绕开放模型的测试、报告和合规性而成立。专注于部署工具的领先 MLOps 初创公司迅速更新其产品，以支持开放生态系统作为一流的集成目标，而不仅仅是专有模型。

ChatGPT 竞争对手不断增多

ChatGPT 在 2022 年底席卷全球。到 2024 年第四季度，随着争夺这一市场的竞争日趋垂直化，用户将被众多竞争对手所淹没。微软推出了一款与 Teams 和 Outlook 集成的下一代聊天机器人。谷歌推出了搜索中的 AI 助手门户 Bard。Meta 通过 Facebook、Instagram 和 WhatsApp 的对话助手加入竞争。

由于 ChatGPT 的火爆，对话式人工智能初创公司的风险投资也一路飙升。在心理健康、辅导伙伴和无障碍等垂直领域，专注的参与者承诺提供比一般领域聊天机器人更具定制化的体验。与这些华而不实的初创公司相比，Cohere、Hugging Face、Anthropic 等现有公司似乎非常简单。

监管机构承诺在创新与负责任的发展之间取得平衡，以避免另一个人工智能寒冬到来。但由于尚未有任何平台确立明确的主导地位，他们大多采取观望态度。