讲者简介:戴国浩,无问芯穹联合创始人兼首席科学家,上海交通大学副教授。主要研究方向为稀疏计算电路与系统,在相关领域的国际顶级会议和期刊上发表论文80余篇,谷歌学术施引四千余次。发表论文曾4次获最佳论文奖(fpga’25,asp-dac’25,date’24,asp-dac’19)和3次获最佳论文奖提名。担任领域内多个国际会议tpc成员和期刊审稿人、ph.d. forum at dac 2024联席主席等职务。曾参与指导学生获acm 2021 src 全球第三,micro 2020 src全球第一。个人荣获2024 mit tr35、2024算力中国·青年先锋人物(全国每年10人)、2022 waic 云帆奖、2021 neurips bigann竞赛全球冠军等荣誉。戴国浩作为联合创始人在2023年创立了无问芯穹。公司致力于大模型软硬件协同优化平台的建设,助力我国下一代人工智能产业的生态建设与快速发展。无问芯穹发布的大模型算力底座“无穹infini-ai”已支持20 模型在10 种计算卡上的一键式高效部署,实现行业最优计算效率与最低成本。报告题目:高效大模型推理优化研究报告摘要:ai agent时代的到来正在重塑数据中心的竞争逻辑,算力需求指数级增长,数据中心加速向token工厂演变,核心竞争力从单芯片性能转向单位token推理成本的持续降低。基于此,本报告从云、端、协同三个层次展开:首先在云侧,通过算子优化、计算通信重叠、预填充/解码半分离、moe投机加速等系统级技术协同,将单token推理成本压降超10倍。紧接着在端侧,利用大小模型的预测一致性实现token级智能路由,以平均5.6b激活参数超越14b模型性能。最后通过端云协同,创新"本地脱敏—云端推理—本地回填"三段式架构,在隐私数据不上云的前提下将云端api成本降低70%以上。通过跨算子、集群、端云的全栈软硬协同设计,有望构建下一代高效率、大规模agentic infra。
李清 研究员鹏城国家实验室
讲者简介:博士,鹏城国家实验室研究员、ieee高级会员、广东省青年拔尖人才/深圳市高层次人才,在下一代互联网领域累计发表高水平学术论文200余篇,含ccf-a类论文90余篇(一作及通讯70余篇)。先后获得清华大学计算机科学与技术系优秀博士毕业论文、acl 2024 outstanding paper award、iwqos 2018 best paper(唯一)、ieee lcn best paper candidate等,承担国家自然科学基金(面上及青年)、国家重点研发计划子课题等多项重大课题。报告题目:以智能为中心的下一代网络架构——智能分发网络idn报告摘要:人工智能技术的蓬勃发展正在重塑互联网的角色。在此背景下,用户对网络的需求正从传统的节点互联和内容访问,逐步转向获取由大模型驱动的智能服务。当前,ai服务主要采用以云端集中推理为主的部署模式,面临时延与抖动较高、广域网流量负担重、分布式算力资源利用不足,以及隐私保护和治理压力不断增加等问题。本报告提出智能分发网络(intelligence delivery network, idn),一种将ai能力视为可交付网络服务的新型互联网架构。其核心思想是,根据用户请求的地域分布、分布式算力资源的可用性,以及隐私、安全等策略约束,在云、区域、边缘和本地等多层分布式异构算力环境中,对智能能力进行分发、部署、选择、复用和验证。本报告将介绍idn的系统设定,定义其核心架构,并讨论智能能力抽象、算力资源整合、需求驱动部署、智能请求路由、状态感知缓存和信任管理等机制如何协同支撑分布式ai服务。idn为构建人工智能时代的互联网架构提供了一条可行路径,有望使ai能力以更加可获得、高效、可信和及时响应的方式服务于多样化应用需求。
评论 0