我测试了用于 SQL 查询生成的最佳语言模型。谷歌以绝对优势胜出

sql| 2025-04-07

今天，Meta 发布了 Llama 4，但这不是本文的重点。

因为就我的任务而言，这款机型糟透了。

不过，在评估这个模型时，我无意中发现了 Google Gemini Flash 2 的一些情况。虽然我主观上认为它是 SQL 查询生成的最佳模型之一，但我的评估结果却明确证明了这一点。下面是 Google Gemini Flash 2.0 与其他主要大型语言模型的比较。具体来说，我将对其进行测试：

DeepSeek V3（03/24 版本）
Llama 4 Maverick
And Claude 3.7 Sonnet

执行 SQL 查询分析

为了对每个模型进行分析，我使用了 EvaluateGPT。

EvaluateGPT 是一个开源的模型评估框架。它使用 LLM 来帮助分析不同语言模型的准确性和有效性。我们根据准确率、成功率和延迟来评估提示。

测试背后的秘诀

我究竟是如何测试这些模型的？我建立了一个定制的评估框架，用 40 个精心挑选的金融问题对每个模型进行测试。从 “哪些人工智能股票市值最高？”这样的基本问题，到 “寻找自由现金流高、市盈率低于 1、当前市盈率低于典型范围的大市值股票 ”这样的复杂问题，应有尽有。

每个模型都必须生成 SQL 查询，并实际运行于一个庞大的金融数据库，其中包含从股票基本面到行业分类的所有内容。我不仅要检查它们是否有效，还要得到完美的结果。评估是残酷的：执行错误意味着零分，意外的空值会影响评分，只有完全符合要求的完美响应才能获得满分。

不同模型的测试环境完全一致。相同的问题、相同的数据库、相同的评估标准。我甚至跟踪了执行时间，以衡量实际性能。这不是什么理论上的基准，而是真正的 SQL，当你尝试回答实际的财务问题时，它要么有效，要么无效。

通过使用 EvaluateGPT，我们可以客观地衡量每个模型在生成 SQL 查询时的表现。更具体地说，流程如下：

使用大语言模型(LLM)将 “上季度末标准普尔 500 指数的总市值是多少？”等普通英语句子生成 SQL 查询
针对数据库执行该 SQL 查询
评估结果。如果查询无法执行或不准确（由另一名大语言模型(LLM)判断），我们就给它打低分。如果准确，我们就给它打高分

利用这个工具，我可以快速评估哪种模型最适合一组 40 道财务分析题。如需了解这组问题的内容或更多关于脚本的信息，请查看开源软件仓库。

以下是我的结果。

哪个模型最适合 SQL 查询生成？

图 1：用于 SQL 查询生成的领先人工智能模型的性能比较。Gemini 2.0 Flash 的成功率最高（92.5%），执行速度最快，而 Claude 3.7 Sonnet 的满分率最高（57.5%）。

图 1（上图）显示了哪款车型在该系列中的整体性能最佳。

数据说明了一切。双子座 2.0 闪光灯以 92.5% 的成功率独占鳌头。这比价格更高的机型要好得多。

Claude 3.7 Sonnet 的满分率最高，为 57.5%，这意味着当它工作时，往往能生成真正高质量的查询。但它比 Gemini 更经常失败。

Llama 4 和 DeepSeek？它们都在挣扎。对不起，Meta，你的新版本并没有在这场竞赛中获胜。

成本和性能分析

图 2：成本分析： 2025 年领先人工智能模型的 SQL 查询生成定价。这一比较显示，Claude 3.7 Sonnet 的价格溢价是 Gemini 2.0 Flash 的 31.3 倍，凸显出尽管性能指标相当，但不同规模模型的数据库操作成本差异显著。

现在我们来谈谈钱的问题，因为成本差异是巨大的。

Claude 3.7 Sonnet 的成本是 Gemini 2.0 Flash 的 31.3 倍。这不是错别字。贵 31 倍。

双子座 2.0 闪存版很便宜。非常便宜而且在执行这项任务时，它的性能比那些昂贵的选择更好。

如果通过这些模型运行数千次 SQL 查询，成本差异就会变得非常大。我们说的是潜在的数千美元的节省。

图 3：SQL 查询生成效率：2025 模型比较。Gemini 2.0 Flash 的性价比是 Claude 3.7 Sonnet 的 40 倍，成功率最高（92.5%），成本最低。DeepSeek 在执行时间方面表现不佳，而 Llama 则提供了预算性能权衡”。

图 3 揭示了真实情况。如果将性能和成本结合起来，Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 的 40 倍：

Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 闪存的 40 倍。这太疯狂了。

DeepSeek 的速度很慢，这让它的成本优势荡然无存。

Llama 型号的性价比尚可，但无法与 Gemini 的效率相提并论。

为什么这很重要

听着，SQL 生成并不是什么小众功能。它基本上是任何需要与数据库对话的应用程序的核心。大多数企业级人工智能应用都需要这项功能。

最便宜的模型实际上是性能最好的模型，这一事实颠覆了传统观念。我们都被训练成认为 “越贵=越好”。但在这种情况下并非如此。

Gemini Flash 胜出一筹，它比最近占据新闻头条的所有闪亮新机型都要好。

一些限制

我应该提到一些注意事项：

我的测试主要针对金融数据查询
我使用了 40 个测试问题–如果问题集更大，可能会显示出不同的模式
这是一次生成，而不是来回改进
模型会不断更新，因此这些结果是截至 2025 年 4 月的

，但性能差距足够大，我坚持这些结论。

亲身体验

想用 Gemini Flash 2 向大语言模型(LLM) 提问？看看 NexusTrade！

NexusTrade 不仅仅能回答简单的金融问题。在引擎盖下有一个迭代评估管道，以确保结果尽可能准确。

图 4：显示从用户输入到 SQL 生成、执行、质量评估和结果交付的 LLM 申请和分级流程图。

因此，您甚至可以可靠地向 NexusTrade 提出一些棘手的金融问题，例如：”市值超过 1000 亿美元的股票中，哪些股票的 5 年净收入年复合增长率最高？

“哪些市值超过 1000 亿美元的股票 5 年净收入年复合增长率最高？
“哪些 AI 股票与其 100 天平均价格的标准差最多？
“从基本面评估我的股票观察清单”

NexusTrade 完全免费，甚至还有应用内教程指导你学习算法交易！

快来看看吧，告诉我你的想法！

总结：不要再把钱浪费在错误的模型上

底线是：在 SQL 查询生成方面，Google 的 Gemini Flash 2 不仅性能更好，而且价格也比竞争对手低得多。

这具有实际意义：

不要再为每项任务默认使用最昂贵的模型
考虑性价比，而不仅仅是原始性能
定期测试多种模型，因为它们都在不断改进

如果您正在构建需要大规模生成 SQL 的应用程序，如果您没有使用 Gemini Flash 2，那么您很可能在浪费钱。就是这么简单。

我很想知道这种模式是否适用于其他专业任务，或者 SQL 生成是否只是 Google 的甜蜜点。无论如何，自动选择最昂贵选项的时代已经过去了。

我测试了用于 SQL 查询生成的最佳语言模型。谷歌以绝对优势胜出

执行 SQL 查询分析

测试背后的秘诀

哪个模型最适合 SQL 查询生成？

成本和性能分析

为什么这很重要

一些限制

亲身体验

总结：不要再把钱浪费在错误的模型上

你也许感兴趣的：

发表回复取消回复

我测试了用于 SQL 查询生成的最佳语言模型。谷歌以绝对优势胜出

执行 SQL 查询分析

测试背后的秘诀

哪个模型最适合 SQL 查询生成？

成本和性能分析

为什么这很重要

一些限制

亲身体验

总结： 不要再把钱浪费在错误的模型上

你对本文的反应是：

看样子你已经点过这个了！

抱歉，你最多只能点三个！

你也许感兴趣的：

发表回复 取消回复

总结：不要再把钱浪费在错误的模型上

发表回复取消回复