我测试了用于 SQL 查询生成的最佳语言模型。谷歌以绝对优势胜出

今天,Meta 发布了 Llama 4,但这不是本文的重点。

因为就我的任务而言,这款机型糟透了。

不过,在评估这个模型时,我无意中发现了 Google Gemini Flash 2 的一些情况。虽然我主观上认为它是 SQL 查询生成的最佳模型之一,但我的评估结果却明确证明了这一点。下面是 Google Gemini Flash 2.0 与其他主要大型语言模型的比较。具体来说,我将对其进行测试:

  • DeepSeek V3(03/24 版本)
  • Llama 4 Maverick
  • And Claude 3.7 Sonnet

执行 SQL 查询分析

为了对每个模型进行分析,我使用了 EvaluateGPT

EvaluateGPT 是一个开源的模型评估框架。它使用 LLM 来帮助分析不同语言模型的准确性和有效性。我们根据准确率、成功率和延迟来评估提示。

测试背后的秘诀

我究竟是如何测试这些模型的?我建立了一个定制的评估框架,用 40 个精心挑选的金融问题对每个模型进行测试。从 “哪些人工智能股票市值最高?”这样的基本问题,到 “寻找自由现金流高、市盈率低于 1、当前市盈率低于典型范围的大市值股票 ”这样的复杂问题,应有尽有。

每个模型都必须生成 SQL 查询,并实际运行于一个庞大的金融数据库,其中包含从股票基本面到行业分类的所有内容。我不仅要检查它们是否有效,还要得到完美的结果。评估是残酷的:执行错误意味着零分,意外的空值会影响评分,只有完全符合要求的完美响应才能获得满分。

不同模型的测试环境完全一致。相同的问题、相同的数据库、相同的评估标准。我甚至跟踪了执行时间,以衡量实际性能。这不是什么理论上的基准,而是真正的 SQL,当你尝试回答实际的财务问题时,它要么有效,要么无效。

通过使用 EvaluateGPT,我们可以客观地衡量每个模型在生成 SQL 查询时的表现。更具体地说,流程如下:

  1. 使用大语言模型(LLM)将 “上季度末标准普尔 500 指数的总市值是多少?”等普通英语句子生成 SQL 查询
  2. 针对数据库执行该 SQL 查询
  3. 评估结果。如果查询无法执行或不准确(由另一名大语言模型(LLM)判断),我们就给它打低分。如果准确,我们就给它打高分

利用这个工具,我可以快速评估哪种模型最适合一组 40 道财务分析题。如需了解这组问题的内容或更多关于脚本的信息,请查看开源软件仓库

以下是我的结果。

哪个模型最适合 SQL 查询生成?

图 1:用于 SQL 查询生成的领先人工智能模型的性能比较。Gemini 2.0 Flash 的成功率最高(92.5%),执行速度最快,而 Claude 3.7 Sonnet 的满分率最高(57.5%)。

图 1(上图)显示了哪款车型在该系列中的整体性能最佳。

数据说明了一切。双子座 2.0 闪光灯以 92.5% 的成功率独占鳌头。这比价格更高的机型要好得多。

Claude 3.7 Sonnet 的满分率最高,为 57.5%,这意味着当它工作时,往往能生成真正高质量的查询。但它比 Gemini 更经常失败。

Llama 4 和 DeepSeek?它们都在挣扎。对不起,Meta,你的新版本并没有在这场竞赛中获胜。

成本和性能分析

图 2:成本分析: 2025 年领先人工智能模型的 SQL 查询生成定价。这一比较显示,Claude 3.7 Sonnet 的价格溢价是 Gemini 2.0 Flash 的 31.3 倍,凸显出尽管性能指标相当,但不同规模模型的数据库操作成本差异显著。

现在我们来谈谈钱的问题,因为成本差异是巨大的。

Claude 3.7 Sonnet 的成本是 Gemini 2.0 Flash 的 31.3 倍。这不是错别字。贵 31 倍。

双子座 2.0 闪存版很便宜。非常便宜 而且在执行这项任务时,它的性能比那些昂贵的选择更好。

如果通过这些模型运行数千次 SQL 查询,成本差异就会变得非常大。我们说的是潜在的数千美元的节省。

图 3:SQL 查询生成效率:2025 模型比较。Gemini 2.0 Flash 的性价比是 Claude 3.7 Sonnet 的 40 倍,成功率最高(92.5%),成本最低。DeepSeek 在执行时间方面表现不佳,而 Llama 则提供了预算性能权衡”。

图 3 揭示了真实情况。如果将性能和成本结合起来,Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 的 40 倍:

Gemini 2.0 闪存的性价比是 Claude 3.7 Sonnet 闪存的 40 倍。这太疯狂了。

DeepSeek 的速度很慢,这让它的成本优势荡然无存。

Llama 型号的性价比尚可,但无法与 Gemini 的效率相提并论。

为什么这很重要

听着,SQL 生成并不是什么小众功能。它基本上是任何需要与数据库对话的应用程序的核心。大多数企业级人工智能应用都需要这项功能。

最便宜的模型实际上是性能最好的模型,这一事实颠覆了传统观念。我们都被训练成认为 “越贵=越好”。但在这种情况下并非如此。

Gemini Flash 胜出一筹,它比最近占据新闻头条的所有闪亮新机型都要好。

一些限制

我应该提到一些注意事项:

  • 我的测试主要针对金融数据查询
  • 我使用了 40 个测试问题–如果问题集更大,可能会显示出不同的模式
  • 这是一次生成,而不是来回改进
  • 模型会不断更新,因此这些结果是截至 2025 年 4 月的

,但性能差距足够大,我坚持这些结论。

亲身体验

想用 Gemini Flash 2 向大语言模型(LLM) 提问?看看 NexusTrade!

NexusTrade 不仅仅能回答简单的金融问题。在引擎盖下有一个迭代评估管道,以确保结果尽可能准确。

图 4:显示从用户输入到 SQL 生成、执行、质量评估和结果交付的 LLM 申请和分级流程图。

因此,您甚至可以可靠地向 NexusTrade 提出一些棘手的金融问题,例如:”市值超过 1000 亿美元的股票中,哪些股票的 5 年净收入年复合增长率最高?

  • “哪些市值超过 1000 亿美元的股票 5 年净收入年复合增长率最高?
  • “哪些 AI 股票与其 100 天平均价格的标准差最多?
  • “从基本面评估我的股票观察清单”

NexusTrade 完全免费,甚至还有应用内教程指导你学习算法交易!

快来看看吧,告诉我你的想法!

总结: 不要再把钱浪费在错误的模型上

底线是:在 SQL 查询生成方面,Google 的 Gemini Flash 2 不仅性能更好,而且价格也比竞争对手低得多。

这具有实际意义:

  1. 不要再为每项任务默认使用最昂贵的模型
  2. 考虑性价比,而不仅仅是原始性能
  3. 定期测试多种模型,因为它们都在不断改进

如果您正在构建需要大规模生成 SQL 的应用程序,如果您没有使用 Gemini Flash 2,那么您很可能在浪费钱。就是这么简单。

我很想知道这种模式是否适用于其他专业任务,或者 SQL 生成是否只是 Google 的甜蜜点。无论如何,自动选择最昂贵选项的时代已经过去了。

你也许感兴趣的:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注