LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

　　陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA(State-of-the-Art)水平的性能。

　　这一成果的基础是以羊驼LLaMA2.7B为起点，通过有针对性的结构化剪枝，得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中，这些剪枝后的模型表现出色，超越了之前的同等规模模型。

　　该研究的首席作者夏梦舟指出，与从头开始预训练相比，这种剪枝方法在成本和性能方面更为划算。

　　研究团队还在论文中提供了剪枝后模型的示例输出，表明即使规模只有1.3B和2.7B，这些模型仍然能够生成连贯且内容丰富的回复。此外，相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

　　这一研究的重要性在于，虽然目前仅使用Llama2.7B模型进行了剪枝实验，但这种方法可扩展到其他模型架构和规模。此外，剪枝后的模型还可以进一步预训练，从而在一定程度上恢复因剪枝而导致的性能损失。

　　研究团队还解决了一个关键问题，即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法，通过根据模型在不同领域数据上的损失下降速率，动态调整每个领域的数据比例，从而提高数据使用效率。

　　实验证明，虽然剪枝模型最初表现较差，但通过继续预训练，最终可以超越与之规模相同但从头开始预训练的模型。

　　总而言之，这项研究的关键在于提供了一种高效的方式，可以将庞大的预训练模型剪枝至较低成本，同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。