我测试了用于 SQL 查询生成的最佳语言模型。谷歌以绝对优势胜出
今天,Meta 发布了 Llama 4,但这不是本文的重点。
因为就我的任务而言,这款机型糟透了。
不过,在评估这个模型时,我无意中发现了 Google Gemini Flash 2 的一些情况。虽然我主观上认为它是 SQL 查询生成的最佳模型之一,但我的评估结果却明确证明了这一点。下面是 Google Gemini Flash 2.0 与其他主要大型语言模型的比较。具体来说,我将对其进行测试:
- DeepSeek V3(03/24 版本)
- Llama 4 Maverick
- And Claude 3.7 Sonnet
执行 SQL 查询分析
为了对每个模型进行分析,我使用了 EvaluateGPT。
EvaluateGPT 是一个开源的模型评估框架。它使用 LLM 来帮助分析不同语言模型的准确性和有效性。我们根据准确率、成功率和延迟来评估提示。
测试背后的秘诀
我究竟是如何测试这些模型的?我建立了一个定制的评估框架,用 40 个精心挑选的金融问题对每个模型进行测试。从 “哪些人工智能股票市值最高?”这样的基本问题,到 “寻找自由现金流高、市盈率低于 1、当前市盈率低于典型范围的大市值股票 ”这样的复杂问题,应有尽有。
每个模型都必须生成 SQL 查询,并实际运行于一个庞大的金融数据库,其中包含从股票基本面到行业分类的所有内容。我不仅要检查它们是否有效,还要得到完美的结果。评估是残酷的:执行错误意味着零分,意外的空值会影响评分,只有完全符合要求的完美响应才能获得满分。
不同模型的测试环境完全一致。相同的问题、相同的数据库、相同的评估标准。我甚至跟踪了执行时间,以衡量实际性能。这不是什么理论上的基准,而是真正的 SQL,当你尝试回答实际的财务问题时,它要么有效,要么无效。
通过使用 EvaluateGPT,我们可以客观地衡量每个模型在生成 SQL 查询时的表现。更具体地说,流程如下:
- 使用大语言模型(LLM)将 “上季度末标准普尔 500 指数的总市值是多少?”等普通英语句子生成 SQL 查询
- 针对数据库执行该 SQL 查询
- 评估结果。如果查询无法执行或不准确(由另一名大语言模型(LLM)判断),我们就给它打低分。如果准确,我们就给它打高分
利用这个工具,我可以快速评估哪种模型最适合一组 40 道财务分析题。如需了解这组问题的内容或更多关于脚本的信息,请查看开源软件仓库。
以下是我的结果。
哪个模型最适合 SQL 查询生成?

图 1(上图)显示了哪款车型在该系列中的整体性能最佳。
数据说明了一切。双子座 2.0 闪光灯以 92.5% 的成功率独占鳌头。这比价格更高的机型要好得多。
Claude 3.7 Sonnet 的满分率最高,为 57.5%,这意味着当它工作时,往往能生成真正高质量的查询。但它比 Gemini 更经常失败。
Llama 4 和 DeepSeek?它们都在挣扎。对不起,Meta,你的新版本并没有在这场竞赛中获胜。
成本和性能分析

现在我们来谈谈钱的问题,因为成本差异是巨大的。
Claude 3.7 Sonnet 的成本是 Gemini 2.0 Flash 的 31.3 倍。这不是错别字。贵 31 倍。
双子座 2.0 闪存版很便宜。非常便宜 而且在执行这项任务时,它的性能比那些昂贵的选择更好。
如果通过这些模型运行数千次 SQL 查询,成本差异就会变得非常大。我们说的是潜在的数千美元的节省。

图 3 揭示了真实情况。如果将性能和成本结合起来,Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 的 40 倍:
Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 闪存的 40 倍。这太疯狂了。
DeepSeek 的速度很慢,这让它的成本优势荡然无存。
Llama 型号的性价比尚可,但无法与 Gemini 的效率相提并论。
为什么这很重要
听着,SQL 生成并不是什么小众功能。它基本上是任何需要与数据库对话的应用程序的核心。大多数企业级人工智能应用都需要这项功能。
最便宜的模型实际上是性能最好的模型,这一事实颠覆了传统观念。我们都被训练成认为 “越贵=越好”。但在这种情况下并非如此。
Gemini Flash 胜出一筹,它比最近占据新闻头条的所有闪亮新机型都要好。
一些限制
我应该提到一些注意事项:
- 我的测试主要针对金融数据查询
- 我使用了 40 个测试问题–如果问题集更大,可能会显示出不同的模式
- 这是一次生成,而不是来回改进
- 模型会不断更新,因此这些结果是截至 2025 年 4 月的
,但性能差距足够大,我坚持这些结论。
亲身体验
想用 Gemini Flash 2 向大语言模型(LLM) 提问?看看 NexusTrade!
NexusTrade 不仅仅能回答简单的金融问题。在引擎盖下有一个迭代评估管道,以确保结果尽可能准确。

因此,您甚至可以可靠地向 NexusTrade 提出一些棘手的金融问题,例如:”市值超过 1000 亿美元的股票中,哪些股票的 5 年净收入年复合增长率最高?
- “哪些市值超过 1000 亿美元的股票 5 年净收入年复合增长率最高?
- “哪些 AI 股票与其 100 天平均价格的标准差最多?
- “从基本面评估我的股票观察清单”
NexusTrade 完全免费,甚至还有应用内教程指导你学习算法交易!
快来看看吧,告诉我你的想法!
总结: 不要再把钱浪费在错误的模型上
底线是:在 SQL 查询生成方面,Google 的 Gemini Flash 2 不仅性能更好,而且价格也比竞争对手低得多。
这具有实际意义:
- 不要再为每项任务默认使用最昂贵的模型
- 考虑性价比,而不仅仅是原始性能
- 定期测试多种模型,因为它们都在不断改进
如果您正在构建需要大规模生成 SQL 的应用程序,如果您没有使用 Gemini Flash 2,那么您很可能在浪费钱。就是这么简单。
我很想知道这种模式是否适用于其他专业任务,或者 SQL 生成是否只是 Google 的甜蜜点。无论如何,自动选择最昂贵选项的时代已经过去了。
你也许感兴趣的:
- 谷歌内部推出 SQL 中的管道(Pipe)语法
- 译 | 如何更优雅的写出你的SQL语句
- 提高SQL执行效率的17个技巧
- 为什么说 LINQ 胜过 SQL
- SQL与NoSQL(MongoDB)数据库的对应关系图表
- 像写SQL一样编写Java数据应用
- 一次非常有意思的 SQL 优化经历
- 格式化 SQL 来提高效率
- MySQL编程中的6个重要的实用技巧
- SQL/NoSQL两大阵营激辩:谁更适合大数据
你对本文的反应是: