大模型正在改变深度机器学习，训练大模型的工程技术挑战在哪里？

2024-01-23 财商

在OpenAI将生成式大模型带入主流视野之后，几乎所有头部厂商都在研究和推出自己的大模型业务。今年9月腾讯对外推出自研的通用大模型“混元大模型”，成为国内头部科技企业中最后一个对外发布大模型业务的公司。

推动大模型应用落地是一项颇为复杂的工程，不仅要考虑如何降低训练和精调的成本，还要关注投产时的推理成本。因为当所有的应用场景都用千亿级模型去做训练和推理时，会形成长期的成本消耗，企业需要支撑每次服务调用带来的算力成本。

有些厂商也推出了小尺寸模型，试图在性能、成本和效果之间做均衡：在一些需要高度复杂推理的场景下用大模型能力，在一些不太复杂的场景使用小尺寸模型。

任何一家厂商，如果想推出领先于竞品的大模型服务，不仅要有最好的硬件集群，还要针对新型算力集群提供训练推理框架、软件框架，做软硬适配一体化。

对于这些话题，近日，腾讯的两位混元大模型技术专家与界面新闻等媒体进行了深度沟通，聊到了大模型对传统深度机器学习平台的改变，以及大模型底层技术支撑对头部厂商的挑战。

机器学习平台不再是从0到1

虽然都在人工智能范畴之下，但在各大公司纷纷介入大模型研发后，即便是不久之前的深度机器学习平台，也与大模型优化出来的新型训练推理范式有着本质区别。

从模型的精调、评测再到部署，这些环节就是现在专属模型定制的主要训练过程，与传统机器学习平台的区别也主要集中在这个过程中。

比如说，传统的机器学习平台只提供各种库和算法，训练都是从0到1的过程，不会提供一个带参数的模型。

今天由大厂提供的千亿规模基础模型，则包含了各种尺寸的模型矩阵，以及庞大的数据量。此时研发人员要做的就是精调专属模型，并进行应用构建。

其中，庞大的数据量决定着应用落地的天花板。十几年前的机器学习平台，数据科学家60%-80%的时间在做数据清理，只有20%左右时间在建模。