DGrid AI 引入了新的质量证明框架,旨在评估 AI 输出并改善去中心化网络中的奖励分配。
- DGrid AI’s new PoQ research introduces reference-free scoring to reward AI nodes without needing correct answers.
- DGrid trained specialized AI judges to score output quality, improving decentralized AI reward systems at scale.
- DGrid AI’s new Proof of Quality models help decentralized AI networks evaluate responses accurately without ground truth data.
去中心化人工智能网络存在一个支付问题,研究人员多年来一直在悄悄解决这个问题,DGrid AI 最近的一篇论文将这个问题直接摆在桌面上。 The quality scoring systems powering node rewards have largely depended on having the correct answer on hand to compare against.在生产中,这个答案很少存在。
这篇论文是 DGrid 正在进行的质量证明 (PoQ) 研究系列的第四篇论文,提出了一种经过训练的替代方案,并公布了其背后的数字。 PoQ uses small evaluator models to score each output’s quality, and those scores drive the rewards.价格便宜,而且可以扩展。
DGrid 一砖一瓦地构建了这一点:一个将延迟纳入支付数学的成本感知版本,一个在计分者撒谎或懒惰时保持不变的对抗性稳健层,以及一个将“质量”分成您可以检查的部分的框架。扎实的工程。 And every layer kept slamming into the same wall.
评分问题是如何发展的
The basic structure of a decentralized inference network creates a measurement challenge. Independent nodes run language models and respond to user queries. Those responses need to be scored because scores determine pay.每个计算的密码验证在技术上都是无懈可击的,但大规模时成本高昂,因此实际路径是使用较小的模型进行自动质量评估。
DGrid 的早期工作逐步构建了这种方法,添加了延迟调整的支出、对操纵性评分者的防御,以及对评分环境中“质量”实际含义的更精细细分。 What it could not fully resolve was the evaluation signal itself.
团队收到的最强信号是语义相似性:将模型的输出与已知的正确答案进行比较,并测量它们在嵌入空间中的距离。这适用于存在参考答案的基准环境。它在实时网络中不起作用,因为用户会提出开放式问题,并且数据库中没有真正的事实等待。
现成替代品的测试结果更差。 NLI 交叉编码器是一个模型类,旨在评估句子之间的逻辑蕴涵,当用于在没有参考答案的情况下评估答案质量时,返回的皮尔逊相关性为 -0.363。负相关意味着该模型更有可能支持较差的响应而不是好的响应。这不是一个可用的评估工具。
论文的建议
研究人员没有采用现有模型,而是专门培训了三名评委,以进行无参考质量评分。每个都将一个问题和一个答案作为输入,并输出从 0 到 10 的分数,不提供正确答案。
这三种模型的主要区别在于尺寸和速度:
- TextCNN(约 10M 个参数)每次调用的运行时间大约为 1 毫秒,因此适合高吞吐量首轮过滤。
- MiniLM(22M 参数) 位于中间,大约 13 毫秒。
- DeBERTa(184M 参数)大约需要 15 毫秒,并针对准确性进行了优化。
培训分为两个阶段。这些模型首先在 UltraFeedback(GPT-4 分级响应的公共数据集)上进行预训练,然后对网络自身的任务分配进行微调。目的是让评委对质量有一个广泛的基线了解,然后再将注意力缩小到特定的评分环境。
核心结果
在包含 300 个示例的保留测试集上,DeBERTa 法官与真实代理的皮尔逊相关性达到 0.747,而无需访问任何参考答案。 先前框架中基于参考的评估器确实能够获得正确答案,最高达到了 0.647。
这个差距有一个简单的解释。较早的评估器是测量与参考嵌入的余弦距离的相似性度量。新评委针对评分任务本身进行了端到端优化。性能差异比任何架构突破更能体现这种区别。
作者提出的一个警告是:这里使用的基本事实本身就是一个代理——标记级的单词重叠,而不是人类的判断。评委们与这个指标有很好的相关性,但是单词重叠是否可靠地反映了人们对质量响应的看法是一个单独的、悬而未决的问题。
评委有两个面向部署的功能。级联管道首先通过轻量级模型路由查询,仅当分数不明确时才升级到较重的模型,在最激进的阈值设置下将评估成本降低高达 72.7%,尽管在该配置中相关性下降至 0.51 左右。在线校准机制无需手动调整即可运行,始终将语义质量识别为主要信号,并相应地调整权重,随着时间的推移将其分配为其起始权重的 4.7 倍。
系统仍然存在问题
法官在不同任务类型上的表现参差不齐。在回答问题时,相关性达到 0.830。总结起来,它下降到 0.199。论文将此归因于评委本身的失败,而是训练过程中使用的评估指标:原始单词重叠是概括质量的一个不好的衡量标准,因此针对它训练的模型学会了跟踪微弱的信号。作者将此描述为主要的开放问题,而不是悄悄管理的已知限制。
该框架与论文整体呈现其结果的方式一致——有条不紊,失败案例与改进之处都得到了清晰的阐述。该研究主题中有四篇论文,这项工作读起来不太像产品公告,而更像是一个团队在他们打算实际部署的东西中逐步缩小差距。
披露:此内容由第三方提供。 crypto.news 和本文作者均不认可本页提及的任何产品。用户在采取与公司相关的任何行动之前应进行自己的研究。
