
近年来,基于代理商的强化学习(代理 + RL)和代理优化(代理优化)吸引了学术界的普遍关注。但是,使用工具呼叫功能来实现末端到末端代理的训练时,主要的瓶颈是高质量任务数据的极端性。当前,诸如Gaia和BrowserCompe之类的常规数据集在很大程度上取决于施工过程中的手动注释,从而在规模的复杂性和任务中都产生了明显的限制。 BrowserComps仅涵盖约1,300个搜索任务,而Gaia仅提供约500个合作任务的样本。与指导数据相比,在大规模模型的基本培训中通常超过10,000级,差距非常重要。自我控制方法,例如自我持有的方法,可以借助大型语言模型(LLM)构建大型指令数据,从而有效提高能力of该模型的普遍性和概括,在代理情况下,很难将这些静态指令的这些数据调整为实际需求。原因是复杂的代理任务通常需要模型和环境之间的连续动态交互,包括对多个工具和多个步骤推断的协作操作。但是,传统指令数据缺乏这种相互作用和可操作性,导致运动训练的运动不足和有限的适用性。为了面对先前的挑战,Oppo研究所的研究人员提出了一个自动化代理任务的框架生成框架,目的是具有强度实例的代理任务,具有可扩展的困难,多层协作和可验证的执行路线。通过统一的过程结构机制,任务克消除了手动注释的依赖性,并系统地生成了涵盖Varie的复杂任务的场景工具(URL,PDF,HTML,图像等),该工具支持任务目标的自动验证,以保证数据的质量和执行的执行。根据该框架,研究团队创建并获取了包含大约41,000个代理任务的合成数据集,以及现有代理商的数据资源的规模和多样性大大扩展,并为后续培训和对代理的一般评估提供了强有力的支持。文档标题:任务工艺:自动代理任务地址自动代理的任务地址:https:// arxiv.org/abs/2506.1005555555github:https://github.com/oppo-personalai生成简单而可验证的原子质任务。第二部分通过不断扩大深度和宽度扩展,通过连续构建新的原子任务来逐渐提高复杂性。可以理解的原子任务的产生仅仅是为了提取原始数据的核心问题,并确保问题必须通过特定工具解决。整个过程涉及四个重要步骤:1。信息收集:系统从多个来源(网页,PDF,照片等)提取信息。例如,公司财务报告,统计表或新闻文章。 2。确定关键内容:使用LLM,苹果在2025年的总收入为38333亿美元。产生一个问题。例如,在2025年年度2025年报告中,2025年的总收入将是多少? ”(答案:383亿美元)4。验证任务:每个原子任务必须符合两个条件:您需要依靠答案(LLM不能直接猜测答案)。要落下任务运行,必须通过代理进行顺利进行验证。任务扩展任务扩展范围扩展旨在逐渐扩展到更分层的任务,以扩展到更加层次的任务,允许多个任务,允许多个任务,允许多个任务和多个任务。延伸r" of Nolan (Christopher Nolan), and the extended identifier is "interstellar." 2014? (Answer: "interstellar") Fusion problems, the researchers performed main fuses, including the validation of the superconjunct, the validation of relationships, the validation of information leaks, the replacement validation and more, using several rules, semantics of multiple tasks, a new natural task, soft and completely integrity. Width expansion shows通过快速学习的效率提高任务的效率。 54.9%至68.1%,平均生成时间降低ed几乎20%。在深层扩展任务中,扩展六个工作任务的成功率从41%增加到51.2%,更彻底地研究了生成数据以提高任务构建质量和效率的重要效果。 1摘要培训实验的结果SFT训练是针对基本代理模型进行的。其次,研究团队进一步评估了TaskCract生成的任务数据的实际影响,以提高大型模型的功能。基于QWEN2.5-3B系列,研究人员根据三个典型多个问题的训练集生成了大约32K的MultiHop任务和轨迹,该数据集已回答(HOTPOTQA,Musique和Bamboogle),并使用了这些生成的数据来进行模型的精细设置调整(SFT)。如表2所示,实验结果表明,经过精细调整后,基本模型的平均基础提高了14%,指示模型改善了6%。这个通过提高推论能力和大型工具调用的性能,任务生成的数据如何实现了重要的结果。此外,当将这些模型调整与搜索增强R1学习方法的搜索结合使用时,就可以实现模型性能。 Taskcraft生成的任务数据的性能不仅可以用于监视学习,而且还可以作为强化学习的高质量培训的起点。 2除了调整效果外,它可能感兴趣:是否有必要提出搜索代理?为此,研究人员设计了一个比较实验,以比较两种任务构建方法的效果。一种是根据使用GPT-4.1的特定结论生成任务,另一个是在搜索代理的帮助下根据GPT-4.1自动生成任务。结果显示在表3中,任务构建范式在多个IN中效果最好夹具。 3。比较,任务任务的批准率更高,验证时间很短,并且使用的工具数量与“原子任务”的定义一致(理论优化如下:1个目标工具呼叫输入索引 + 1)。此外,任务调用的数量更稳定,差异较低。这反映了任务在原子任务的难度中保持一致性具有更大的优势。根据Taskcraft的说法,研究人员构建了大量数据,其中包含大约41,000个代理商的任务,为AI代理的系统协调和评估提供了可靠的基础。该数据集涵盖了用于使用工具的多种方案,包括Web搜索,PDF阅读和图像理解。该任务的结构是层次结构,可控制的难度,并接纳了复杂的原子和多台任务。所有任务均带有理体的理,这不仅允许您进行精细的监视调整(SFT),但也为增强学习(RL)提供了高质量的起点。因此,该数据集广泛应用于基本代理模型的改进,代理的推理策略的评估以及Multitol Call中的广义功能测试。