标签:预训练

合成数据破局:当全球数据枯竭遇上AI的无限饥渴

合成数据破局:当全球数据枯竭遇上AI的无限饥渴

我们正在经历一个前所未有的数据悖论。一方面,AI模型的训练需求以指数级增长,前沿模型的预训练数据已经耗尽了互联网上几乎所有高质量的文本数据。另一方面,到2026年,多达90%的在线内容可能由AI合成,低质量AI内容的泛滥正在污染训练数据的质量。全球数据生成量已飙升至175泽字节,但其中AI生成内容的

自由的编辑者 自由的编辑者 2026-06-22
0 0 0