News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

苹果正在与英伟达合作，想让 AI 的响应速度更快

克日，苹果与英伟达发布配合，旨在减速跟优化年夜言语模子（LLM）的推感性能。为了改良传统自回归 LLM 推理效力低跟内存带宽小的成绩，往年早些时间，苹果呆板进修的研讨职员宣布并开源了一种名为「ReDrafter」（Recurrent Drafter，轮回草稿模子）的揣测解码技巧。▲图源：GitHub现在，ReDrafter 曾经整合到英伟达的可扩大推理计划「TensorRT-LLM」傍边，后者是基于「TensorRT」深度进修编译框架的专为优化 LLM 推理而计划的开源库，支撑包含「Medusa」等揣测解码方式。不外，因为 ReDrafter 所包括的算法应用了之前从未用过的运算符，因而英伟达方面增加了新的运算符，或许公然了现有的运算符，年夜年夜进步了 TensorRT-LLM 顺应庞杂模子跟解码方法的才能。▲图源：GitHub据悉，ReDrafter 揣测解码经由过程三个要害技巧来减速 LLM 的推理进程：RNN 草稿模子静态树留神力算法常识蒸馏练习RNN 草稿模子是 ReDrafter 的「中心」组件。它应用轮回神经收集（Recurrent Neural Network），基于 LLM 的「暗藏状况」来猜测接上去可能呈现的 tokens 序列，其可能捕获部分的时光依附性，从而进步猜测正确性。这个模子的任务道理是：LLM 在文本天生进程中起首天生一个初始 token，而后 RNN 草稿模子应用该 token 跟 LLM 的最后一层暗藏状况作为输入停止束搜寻（Beam Search），进而天生多个候选 tokens 序列。与传统自回归 LLM 每次只天生一个 token 差别，经由过程 RNN 草稿模子的猜测输出，ReDrafter 可能在每个解码步调天生多个 tokens，年夜年夜增加了须要挪用 LLM 验证的次数，从而进步了团体的推理速率。▲图源：arXiv静态树留神力算法（Dynamic Tree Attention）则是一种优化束搜寻成果的算法。咱们曾经晓得，在束搜寻进程中会发生多个候选序列，而这些序列每每存在共享的前缀。静态树留神力算法会辨认出这些共享前缀，并将它们从须要验证的 tokens 中去除，从而增加 LLM 须要处置的数据量。某些情形下，该算法能将须要验证的 tokens 数目增加 30% 到 60%。这象征着应用静态树留神力算法后，ReDrafter 可能更高效天时用盘算资本，进一步进步推理速率。▲图源：NVIDIA常识蒸馏是一种模子紧缩技巧，它可能将一个年夜型、庞杂的模子（老师模子）的常识「蒸馏」到一个更小、更简略的模子（先生模子）中。在 ReDrafter 中，RNN 草稿模子作为先生模子经由过程常识蒸馏从 LLM（老师模子）中进修。详细来讲，蒸馏练习进程中，LLM 会给出一系列下一个可能词的「概率散布」，开辟职员会基于这个概率散布数据练习 RNN 草稿模子，而后盘算两个模子概率散布之间的差别，并经由过程优化算法使这个差别最小化。在这个进程中，RNN 草稿模子一直进修 LLM 的概率猜测形式，从而在现实利用中可能天生与 LLM 类似的文本。经由过程常识蒸馏练习，RNN 草稿模子更好地捕获到言语的法则跟形式，从而更正确地猜测 LLM 的输出，而且由于其较小的范围跟较低的推理盘算本钱，明显进步了 ReDrafter 在无限硬件前提下的团体机能。▲图源：阿里云开辟者社区苹果的基准测试成果表现，在 NVIDIA H100 GPU 上对数十亿参数的出产模子应用集成了 ReDrafter 的 TensorRT-LLM 时，其贪婪解码（Greedy Decoding）每秒天生的 tokens 数目进步了 2.7 倍。别的，在苹果自家的 M2 Ultra Metal GPU 上，ReDrafter 也能实现 2.3 倍的推理速率晋升。苹果的研讨职员表现「LLM 越来越多地用于驱动出产利用顺序，进步推理效力既能够影响盘算本钱，也能够下降用户端耽误」。▲图源：Apple值得一提的是，在坚持输出品质的同时，ReDrafter 增加了对 GPU 资本的需要，这使得 LLM 在资本受限的情况中也能高效地运转，为 LLM 在种种硬件平台上的应用供给了新的可能性。苹果现在曾经在 GitHub 上开源了这项技巧，将来从中获益的公司将很可能不止英伟达一家。　　申明：新浪网独家稿件，未经受权制止转载。 -->

News

苹果正在与英伟达合作，想让 AI 的响应速度更快

Tel

Mail

Map

Share

Contact