近日,在Yandex Research、IST Austria、Neural Magic和KAUST的共同努力下,两种创新的大型语言模型(LLM)压缩方法——加性量化语言模型(Additive Quantization for Language Models, AQLM)和PV-Tuning正式发布。
这两种方法可以将模型大小减少多达8倍,同时保留95%的响应质量。这项研究成果已经于正在维也纳举行的国际机器学习会议(International Conference on Machine Learning, ICML)上展示。