您想知道API LLM是否超载?可以在最后审核隐藏的

日期:2025-06-19 13:30 浏览:

本文的作者来自马里兰州大学的实验室(合作,自动化,可扩展和高效)。主要参与者是博士生San Guohen和Wang Jiyao,讲师是Li An。研究背景:寻求业务保护与用户知识纸张纸张标题:无形发票:使用Opaqu ServicesArxiv链接审核隐藏操作的紧急审核:https://arxiv.org/pdf/pdf/2505.18471近年来,大型语言模型(LLM)已完成数字(LLM)和多重效应(LLM)。这些功能的改进通常基于模型中的一系列复杂的“思想”过程,或者基于代理系统中代理之间的频繁信息相互作用。展示ever,以保护中央知识产权(例如模型的蒸馏和代理的工作流)并提供柔和的用户体验,RVICE提供商通常隐藏这些中间步骤,并仅向用户提供最终输出。这是一种普遍的做法,可以保护创新并简化当前业务和技术环境中的互动。最近,案例实验室团队定义了隐藏内部工作流程并仅返回最终结果的服务,但总计宣布为“ Oark LLM(COLS)的商业服务”。如图1所示,如果用户是与LLM或多个系统(Agent LLMS)相关的服务,则将在API中显示。 LLM应用程序如图2所示。但是,该业务模型也意味着一种新的风险。一些不良的服务提供商可以使用基于BEN的近距离信息,例如用户可以看到,验证或质疑这些隐藏的操作。通过“错误的代币计数”或“被盗”模型,默默地增加了用户的成本或降低自己的成本。图3显示了使用LLM在Ference API作为一个例子。这意味着用户支付的大部分费用都是在不可见的地方花费的,无法确认可靠性。图3:根据Open-R1/OpenR1-MATH-220K数据集中的某些问题,API LLM推理令牌可以回答令牌。该团队指定了LLM和Agent LLM之间推断的关键风险的特定定义,提供了潜在的解决方案,例如:1。特别是在LLM的推论中,代币的增长可能是由冗余推理程序(例如重复的搜索和扩展效率提高)引起的。 Agent LLM可能意味着模型或呼叫的频率越来越大,甚至伪造了通信行为。 2。质量测量,即服务提供商默默地用低成本模型或工具代替计费标准。示例:使用LLM推理调用小型或量化的模型。而不是在Agent LLM中执行它,也没有替换装有低成本工具的昂贵工具,例如S用本地知识库,模拟工具的调用来代替Web搜索。此外,如图4所示,该团队提出了一个三级结构化审计计划,旨在促进为Cols行业建立标准化的可验证审计基础设施。第二层(安全承诺和注册层):将先前的操作作为摘要加密,哈希链,块链等中的可验证承诺发送。第三层(受众和反馈层):第三党用户或审核员可以独立验证服务的行为,并为用户提供有关发票合理性或服务一致性的评论报告。图4:三级审核框架。基于“经过验证但未过滤”的概念,该框架将用于确保未来的颜色服务提供商可以提供商业机会。我们建议您在保护同时实现透明且可靠的服务承诺机密信息。该系统不仅支持技术透明度,而且还为制定政策和合规性实施提供了一种方法。货币:无形的推理令牌计数在商业不透明LLM apisarxiv链接中:https://arxiv.org/pdf/2505.13778github链接:https://github.com/case-umd/case-umd/llm-auditing-coiniting-coinhugging链接: https://huggingface.co/collections/s1ghh/s1ghh/coin-llm-auditing-6842a46feea043d46c0d338e推理LLM求解API计费审核问题,以便为用户提供用户,从用户,为扩展的用户提供服务,向用户提供用户,为用户提供用户,为用户提供服务,为用户提供服务,为用户提供服务,为用户提供,提供用户,提供扩展的用户。我们在用户和科尔斯之间建立了一个“可信赖的桥梁”,同时尊重和保护科尔斯和英特尔的商业秘密主管财产权利。如算法1所示,该货币包含多个VAL.Adaptability评估。每个回合检查COLS收费的代币数量是否需要,如果隐藏的推理令牌确实参与得出答案,并且验证者最终确定。对于常规样品,货币已成功验证并提早结束,但是对于具有通货膨胀数量或恶意样本的样本,该货币将验证更多的回合以避免试用。算法1:硬币适应性的多圆验证。对货币的独特圆的验证包括两个主要模块:1。代币数量验证:如图5-(a)所示,该模块在加密中智能使用Merkle Tree Technology。 cols是,您必须使用所有隐藏令牌(例如叶子的叶子)的“数字足迹”(即矢量,嵌入式),建造一棵散布树并为审计师提供最终的哈希根(Merkl root)(这可以是用户Or -IndippertionalENT第三党平台)。在审核期间,审核员必须简单地请求并验证少数随机令牌和Hashtree路线(Merklproof)的“指纹”,有效地验证令牌是否与该声明的总数相吻合而无需访问所有令牌的原始内容。这种方法的一个核心优势是,它在过滤大多数推理步骤时允许定量精度。更重要的是,由于哈希的承诺的性质和用户怀疑的随机性,因此必须以完整的集合进行恶意伪造,并且在返回用户结果时必须完成伪造,并且不能专门设计。解决用户问题已大大增加了COLS伪造的成本。 2。语义验证的验证:仅验证不足以使DIT完全是用户的疑问。这是因为从理论上讲,科尔斯可以弹each隐藏的令牌和基因对与任务目标无关的大量“无效”芯片进行评分。如图5-(b)所示,货币设计了一个轻度的“重合头”,以分析隐藏令牌与验证与最终响应之间的语义连贯性和逻辑相关性,从而提供了相关得分。得分明显较低,可能表明这些隐藏的代币的贡献仅限于最终结果。该机制旨在确保用户支付费率,并与有效的推理过程相对应,从而真正有助于任务目标。图5:货币验证框架。该团队定义了COLS可以实施的几种自适应定量通货膨胀攻击,并基于此构建了来自许多不同领域的数据集,用于训练硬币框架中的许多不同领域和验证,并用于验证货币框架的性能。实验结果表明,货币框架具有以下字符Acteristics:有效地识别扩展的Kokun计数:图6显示了在几种模拟场景(检测成功率,DSR)中硬币检测的成功率。可以看出,扩张率的提高(通货膨胀率=伪造令牌的数量 /真实令牌数量)也可以增强相应识别货币的能力。在高膨胀率的情况下(即伪造的COLS代币代表超过50%),即使在“自适应令牌扩展”方案的情况下,如果它们是专门设计和语义上与原始内容的特殊设计和语义相似的情况,那么当很少的信息被暴露时,平均货币DSR可以达到94.7%。在COLS错误地仅告知10%令牌的情况下,平均硬币DSR也约为40%。可自定义:图6中的红色和蓝线代表基于神经网络的两种类型的验证剂,另一个基于规则。第一个有恶意的DSR高样品,但正常样品的错误试验率也相对较高。 COLS和用户可以协商后者,以建立参数,从而通过增加有效检测的数量来平衡正常样本中错误判断的参数。一般审计费用非常低:用户和服务提供商的整个审核过程都较低。在验证过程中,审核员必须访问少于4%的令牌信息(指纹)才能完成高精度验证。如图7所示,默克尔树的单个CPU的构造仅需大约1秒钟。对于具有强大的计算机资源的COL,额外的过载在很大程度上是微不足道的。图6:在不同的扩张速率(通货膨胀)下处理多卷膨胀攻击的货币的性能。图7:在不同数量的隐藏令牌和集成模型的隐藏尺寸下,哈希标记树的结构成本。通常,案件l马里兰州大学的原住民团队已系统地分析了“隐藏运营”透明度的大型模型的主要服务,并提出了解决令牌计数通货膨胀问题的第一种审计框架的货币。硬币的核心贡献是平衡服务提供商的知识产权的保护以及用户和服务提供商之间的交互作用。它是为了探索用户对服务透明度的理性需求之间的技术路线,该服务希望提供强大的技术支持以产生信心。到目前为止,常规推论模型尚未公开推理过程,但是本部分需要向用户付款。但是,已经有一些更改标志着LLM API主要供应商,试图平衡知识产权的保护与用户权利。例如,几乎所有服务提供商都提供返回的服务消化。 Claude 4.0可以提供已加密的推理令牌,以便用户可以验证信心并确保未操纵推理过程。案例实验室团队将诉诸于这个新兴领域的学者和行业,共同促进建立标准和实践,以挑战最透明,最公平,可靠的。未来的研究指南包括制定更完整的显示协议或审计框架,探索使用审计机制(例如行业标准和第三方认证标准)的可能性,以及促进技术标准和最佳相关实践的形成。最终目标是在整个大型模型生态系统中促进健康和可持续发展的发展,以便前卫 - garde人工智能技术可以基于获得持久的公众信心为社会服务。

0
首页
电话
短信
联系