苹果正在与英伟达合作,想让 AI 的响应速度更快
克日,苹果与英伟达发布配合,旨在减速跟优化年夜言语模子(LLM)的推感性能。为了改良传统自回归 LLM 推理效力低跟内存带宽小的成绩,往年早些时间,苹果呆板进修的研讨职员宣布并开源了一种名为「ReDrafter」(Recurrent Drafter,轮回草稿模子)的揣测解码技巧。▲图源:GitHub现在,ReDrafter 曾经整合到英伟达的可扩大推理计划「TensorRT-LLM」傍边,后者是基于「TensorRT」深度进修编译框架的专为优化 LLM 推理而计划的开源库,支撑包含「Medusa」等揣测解码方式。不外,因为 ReDrafter 所包括的算法应用了之前从未用过的运算符,因而英伟达方面增加了新的运算符,或许公然了现有的运算符,年夜年夜进步了 TensorRT-LLM 顺应庞杂模子跟解码方法的才能。▲图源:GitHub据悉,ReDrafter 揣测解码经由过程三个要害技巧来减速 LLM 的推理进程:RNN 草稿模子静态树留神力算法常识蒸馏练习RNN 草稿模子是 ReDrafter 的「中心」组件。它应用轮回神经收集(Recurrent Neural Network),基于 LLM 的「暗藏状况」来猜测接上去可能呈现的 tokens 序列,其可能捕获部分的时光依附性,从而进步猜测正确性。这个模子的任务道理是:LLM 在文本天生进程中起首天生一个初始 token,而后 RNN 草稿模子应用该 token 跟 LLM 的最后一层暗藏状况作为输入停止束搜寻(Beam Search),进而天生多个候选 tokens 序列。与传统自回归 LLM 每次只天生一个 token 差别,经由过程 RNN 草稿模子的猜测输出,ReDrafter 可能在每个解码步调天生多个 tokens,年夜年夜增加了须要挪用 LLM 验证的次数,从而进步了团体的推理速率。▲图源:arXiv静态树留神力算法(Dynamic Tree Attention)则是一种优化束搜寻成果的算法。咱们曾经晓得,在束搜寻进程中会发生多个候选序列,而这些序列每每存在共享的前缀。静态树留神力算法会辨认出这些共享前缀,并将它们从须要验证的 tokens 中去除,从而增加 LLM 须要处置的数据量。某些情形下,该算法能将须要验证的 tokens 数目增加 30% 到 60%。这象征着应用静态树留神力算法后,ReDrafter 可能更高效天时用盘算资本,进一步进步推理速率。▲图源:NVIDIA常识蒸馏是一种模子紧缩技巧,它可能将一个年夜型、庞杂的模子(老师模子)的常识「蒸馏」到一个更小、更简略的模子(先生模子)中。在 ReDrafter 中,RNN 草稿模子作为先生模子经由过程常识蒸馏从 LLM(老师模子)中进修。详细来讲,蒸馏练习进程中,LLM 会给出一系列下一个可能词的「概率散布」,开辟职员会基于这个概率散布数据练习 RNN 草稿模子,而后盘算两个模子概率散布之间的差别,并经由过程优化算法使这个差别最小化。在这个进程中,RNN 草稿模子一直进修 LLM 的概率猜测形式,从而在现实利用中可能天生与 LLM 类似的文本。经由过程常识蒸馏练习,RNN 草稿模子更好地捕获到言语的法则跟形式,从而更正确地猜测 LLM 的输出,而且由于其较小的范围跟较低的推理盘算本钱,明显进步了 ReDrafter 在无限硬件前提下的团体机能。▲图源:阿里云开辟者社区苹果的基准测试成果表现,在 NVIDIA H100 GPU 上对数十亿参数的出产模子应用集成了 ReDrafter 的 TensorRT-LLM 时,其贪婪解码(Greedy Decoding)每秒天生的 tokens 数目进步了 2.7 倍。别的,在苹果自家的 M2 Ultra Metal GPU 上,ReDrafter 也能实现 2.3 倍的推理速率晋升。苹果的研讨职员表现「LLM 越来越多地用于驱动出产利用顺序,进步推理效力既能够影响盘算本钱,也能够下降用户端耽误」。▲图源:Apple值得一提的是,在坚持输出品质的同时,ReDrafter 增加了对 GPU 资本的需要,这使得 LLM 在资本受限的情况中也能高效地运转,为 LLM 在种种硬件平台上的应用供给了新的可能性。苹果现在曾经在 GitHub 上开源了这项技巧,将来从中获益的公司将很可能不止英伟达一家。
申明:新浪网独家稿件,未经受权制止转载。 -->