iclr 2025 | pku-凯发备用网址

iclr 2025 | pku-dair实验室论文多项成果

被iclr 2025录用

今日，第十三届国际学习表征会议（international conference on learning representations，iclr 2025）正式公布录用论文名单，pku-dair实验室论文7篇论文被机器学习顶级会议iclr 2025录用。

iclr 2025将于2025年4月24日至28日在新加坡博览中心（singapore expo）举行，展示人工智能与深度学习领域的最新进展和突破性研究。

1. netmoe: accelerating moe training through dynamic sample placement

作者：xinyi liu, yujie wang, fangcheng fu, xupeng miao, shenhan zhu, xiaonan nie, bin cui

论文链接：

mixture of experts (moe) 是一种常用技术，用于在保持计算成本不变的情况下扩展模型规模以提高模型质量。moe 模型的每一层包含多个专家，并将训练数据仅路由到固定数量的专家，而不是全部。在分布式训练中，由于专家分布在不同的 gpu 上，因此需要进行 all-to-all 通信，以便在每次专家路由后在 gpu 之间交换训练数据。由于频繁且大量的数据交换，all-to-all 通信已成为训练效率的一个显著挑战。在本文中，我们从训练样本的角度加速 moe 模型中的 all-to-all 通信，这是一个尚未被探索的领域。具体而言，我们发现同一训练样本中的数据在专家路由中具有一定程度的局部性。受此启发，我们开发了 netmoe，它考虑到这种局部性并动态重新排列训练样本的放置，以最小化 all-to-all 通信成本。我们对样本放置进行了建模，并通过整数规划问题在多项式时间内推导出最佳放置方案。实验结果表明， netmoe 相较于现有 moe 训练框架实现了显著效率的提升。

2. sysbench: can large language models follow system messages?

作者：yanzhao qin, tao zhang, tao zhang， yanjun shen, wenjing luo, haoze sun, yan zhang, yujing qiao, weipeng chen, zenan zhou, wentao zhang, bin cui

论文链接：https://arxiv.org/pdf/2408.10943v1

代码链接：

合作单位：百川智能

大型语言模型（llms）在各种应用场景中发挥着重要作用，因此通过定制化模型以适应特定场景的需求变得愈加重要。system message（系统消息）是llms用于引导模型的行为以实现预期目标的一个关键组成部分，由精心设计的指令组成。尽管系统消息实际场景中被广泛应用，但目前仍然缺少一个全面的基准来评估不同llms对系统消息的实际遵循能力。为填补这一空白，我们提出了sysbench，一个分析模型对系统消息遵循能力的基准测试，重点分析了该场景中以下三个具有挑战性的问题：约束复杂性、指令对齐性和多轮交互稳定性。为了实现有效评估，sysbench覆盖了现实场景系统消息六种常见的约束类型，并包含各种指令对齐关系，组成多轮交互用户对话。具体而言，我们的数据集包含来自多个领域的500条系统消息，每条系统消息与5轮用户对话相关联，经过人工精心编写和审核以确保数据质量，在实验中表现出了良好的评估一致性。我们基于sysbench对多个llms进行了广泛评估，评估结果解释了现有模型在系统消息遵循方面的优势与不足，且为未来研究提供了关键见解和方向。

3. itercomp: iterative composition-aware feedback learning from model gallery for text-to-image generation

作者：xinchen zhang*, ling yang* (co-first), guohao li, yaqi cai, jiake xie, yong tang, yujiu yang, mengdi wang, bin cui

论文链接：https://arxiv.org/abs/2410.07171

代码链接：

合作单位：清华大学，牛津大学，普林斯顿大学

先进的扩散模型，如rpg、stable diffusion 3和flux，在组合文本到图像生成方面取得了显著进展。然而，这些方法通常在组合生成方面表现出不同的优势，有些在处理属性绑定方面表现出色，而另一些则在空间关系上更为突出。这种差异突显了需要一种方法，能够利用各种模型的互补优势，以全面提升组合能力。为此，我们提出了itercomp，这是一种新颖的框架，聚合来自多个模型的组合感知模型偏好，并采用迭代反馈学习方法来增强组合生成。具体而言，我们整理了六个强大的开源扩散模型的库，并评估它们的三个关键组合指标：属性绑定、空间关系和非空间关系。基于这些指标，我们开发了一个组合感知模型偏好数据集，包含大量图像排名对，以训练组合感知奖励模型。然后，我们提出了一种迭代反馈学习方法，以闭环方式增强组合性，使基础扩散模型和奖励模型在多个迭代中逐步自我优化。理论证明表明了其有效性，广泛的实验结果显示我们在多类别物体组合和复杂语义对齐方面相比之前的最先进方法（如omost和flux）具有显著优势。itercomp为扩散模型和组合生成的奖励反馈学习开辟了新的研究方向。

4. supercorrect: supervising and correcting language models with error-driven insights

作者：ling yang, zhaochen yu, tianjun zhang, minkai xu, joseph e. gonzalez, bin cui, shuicheng yan

论文链接：https://arxiv.org/abs/2410.09008

代码链接：

合作单位：斯坦福大学，伯克利大学

大型语言模型（llms），如gpt-4、palm和llama，在各种推理任务中表现出显著改善。然而，较小的模型如llama-3-8b和deepseekmath-base在复杂数学推理方面仍然存在困难，因为它们无法有效识别和纠正推理错误。最近的基于反思的方法旨在通过实现自我反思和自我纠正来解决这些问题，但在独立检测推理步骤中的错误方面仍面临挑战。为克服这些局限性，我们提出了supercorrect，这是一种新颖的两阶段框架，利用大型教师模型来监督和纠正较小学生模型的推理和反思过程。在第一阶段，我们从教师模型中提取层次化的高层和详细思维模板，以指导学生模型引出更细致的推理思维。在第二阶段，我们引入跨模型协作直接偏好优化（dpo），通过在训练过程中遵循教师的纠正轨迹来增强学生模型的自我纠正能力。这种跨模型dpo方法教会学生模型有效定位和解决错误思维，并借助教师模型的改错思路，打破其思维瓶颈，获取应对挑战性问题的新技能和知识。大量实验结果一致表明我们优于之前的方法。值得注意的是，我们的supercorrect-7b模型在math/gsm8k基准测试中分别比强大的deepseekmath-7b超出7.8%/5.3%和比qwen2.5-math-7b超出15.1%/6.3%，在所有7b模型中实现了新的最先进性能。

5. squeezeattention: 2d management of kv-cache in llm inference via layer-wise optimal budget

作者： zihao wang, bin cui, shaoduo gan

论文链接：

代码链接：

合作单位：明之几何

优化llm的kv-cache被广泛认为是降低推理成本的关键。大多数现有的kv-cache压缩算法依据句子中不同token的重要性的差异，在token sequence维度上进行稀疏化压缩。然而，这些方法大多对所有模型层一视同仁，即为每一层分配相同的kv cache budget。而我们发现，通过识别attention layer的重要性，可以从两个维度联合优化kv-cache。基于我们在推理过程中对各层重要性的观察分析，我们提出了一种名为 squeezeattention 的方法，能够动态调整各层kv-cache budget的分配，而后每层再根据所分配的cache budget进行sequence维度的压缩。通过从sequence和layer两个维度共同优化kv-cache，squeezeattention 在各种llm和基准测试中能够节省约30%至70%的推理内存，并将推理吞吐率提高了最多2.2倍。

6. facilitating multi-turn function calling for llms via compositional instruction tuning

作者：mingyang chen, haoze sun, tianpeng li, fan yang, hao liang, keer lu, bin cui, wentao zhang, zenan zhou, weipeng chen

论文链接：

代码链接：

合作单位：百川智能

大型语言模型 (llm) 在执行各种任务方面表现出巨大的潜力，包括调用函数或使用外部工具来增强其性能的能力。虽然目前对 llm 函数调用的研究主要集中在单轮交互上，但本文讨论了 llm 参与多轮函数调用的被忽视的必要性——这对于处理需要使用函数进行规划但不仅仅是使用函数的组合、现实世界查询至关重要。为了促进这一点，我们引入了一种方法，button，它通过自下而上的指令构造和自上而下的轨迹生成来生成合成组合指令调整数据。在自下而上的阶段，我们根据现实世界场景生成简单的原子任务，并使用基于原子任务的启发式策略构建组合任务。然后为这些组合任务开发相应的功能。自上而下的阶段以多智能体环境为特色，其中利用模拟人、助手和工具之间的交互来收集多轮函数调用轨迹。这种方法确保了任务的组合性，并通过检查组合任务中的原子任务来实现有效的功能和轨迹生成。我们生成了一个包含 8k 个数据点的数据集 buttoninstruct，并通过在各种 llm1 中进行的大量实验证明了其有效性。

7. glycanml: a multi-task and multi-structure benchmark for glycan machine learning

作者：minghao xu, yunteng geng, yihang zhang, ling yang, jian tang, wentao zhang

论文链接：

代码链接：

项目凯发备用网址主页：

合作单位：mila 魁北克人工智能

在这个项目中，我们推出了国际上第一个针对多糖化合物的机器学习基准glycanml。glycanml包含了各种类型的多糖功能理解任务，包括多糖分类学预测、多糖免疫原性预测、糖基化类型预测和蛋白质-多糖相互作用预测。在glycanml上我们评估了各种类型机器学习模型的综合表现，包括序列编码模型、图神经网络、小分子预训练编码器等，最终我们验证了基于多关系建模的异构图神经网络在各项任务上获得了普遍最优的性能，这为设计更强大的多糖模型提供了技术路线。此外，在8个不同尺度的多糖分类学任务上，我们建立了多任务学习基准glycanml-mtl，旨在评估各种多任务学习算法在多糖表征学习上的有效性。通过评估代表性的多任务学习算法，我们发现基于自适应温度放缩（temperature scaling）的算法能够最有效地进行多尺度多糖分类学预测。

北京大学数据与智能实验室（data and intelligence research lab at peking univeristy，pku-dair实验室）由北京大学计算机学院崔斌教授领导，长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究，在理论和技术创新以及系统研发上取得多项成果，已在国际顶级学术会议和期刊发表学术论文200余篇，发布多个开源项目。课题组同学曾数十次获得包括ccf优博、acm中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。pku-dair实验室持续与工业界展开卓有成效的合作，与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索，解决实际问题，进行科研成果的转化落地。

iclr 2025 | pku-凯发备用网址

iclr 2025 | pku-dair实验室论文多项成果

被iclr 2025录用

评论 0

近期热门新闻

下一篇