|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 不二如是 于 2025-8-12 08:24 编辑
“预制菜”这股风,终究还是吹到了AI圈。
大模型对数据的“饕餮胃口”远超人类想象,单GPT-4训练消耗的数据量相当于人类所有印刷书籍的67倍。
论文预印本网站arXiv上的一项研究表明,如果大语言模型(LLM)保持现有训练速度,会在2026年至2032年间耗尽公开的、人类生成的文本数据。
面对当前的“数据荒”局面,合成数据或将成为大模型的未来,也是业界公认的解决之法。
MIT等研究人员进行的一项研究估计,机器学习数据集可能会在2026年之前耗尽所有“高质量语言数据”
什么是合成数据?
合成数据(Synthetic Data)是一种模仿真实世界数据的非人工创建的数据,它是由基于生成式人工智能技术的计算算法和模拟创建而成。
英伟达科学家JimFan曾发文表示,合成数据将提供未来万亿级高质量的训练token!
合成数据之“功”:效率革命与场景拓展
数据的成本来自采集和标注,在这两部分,合成数据都有显著的优势。
(口令提示:大数据英文)
相对于真实数据低效的收集方式,合成数据可以定向生成场景,让每一个字节的数据都是有价值的。
不需要大量的数据采集团队,也不需要大规模的数据回传系统和数据筛选系统,合成数据从生产开始就从模型训练的需求出发,大部分产出都可以直接使用,也就降低了数据采集成本。
在标注成本方面,合成数据也有较大优势。第一批专门提供合成数据服务的公司之一AI,Reverie,其联合创始人Paul Walborsky就公开表示:
在自动驾驶图像标注上,一张图像的标记成本是6美元,而合成数据的成本只有6美分。
隐私合规同样是合成数据的优势,根据行业和数据类型的不同,企业在处理敏感数据时可能会面临数据安全挑战,引起对于隐私问题的担忧。
在医疗行业,患者数据通常包括个人健康信息,而合成数据可以减轻对这类问题的担忧,因为它能够在不暴露私有或敏感数据的情况下显示相同的统计相关信息。
以医学研究创建的合成数据为例,它保持与原始数据集相同的生物学特征和遗传标记百分比,但所有姓名、地址和其他患者个人信息都是虚假的。
合成数据之“过”:真实性危机与治理挑战
使用合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题的有效手段,为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?
最核心原因:
“噪声”问题是合成数据需要面对和解决的。在采用精心设计的prompt(提示指令)和有监督训练的前提下,大语言模型固有的偏见(大模型在处理数据时表现出的某种偏好或倾向性)和幻觉(大模型产生的响应不准确或捏造信息)等问题仍可能会给数据集引入“噪声”。
而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型,会无法映射到现实世界场景。
建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大,自然语言理解能力就越不容易提升。
合成数据需要先获得真实数据,另外会导致过拟合现象
此外,合成数据的泛化能力不足,存在边界。斯坦福教授Percy Liang指出:
合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到通用人工智能(ArtificialGeneral Intelligence,AGI)。
更为重要的是,合成数据可以用来验证或扩展人类已经知道的领域,却无法揭示初始数据集中不存在的领域,它的边界就是初始数据集的边界。
评论区聊聊你的想法吧
预知更多神文请看:
如此多懂学习的 VIP至尊都 已订阅本专辑,你还不快点行动! (-> 订阅传送门)
如果有收获,别忘了评分 :
|
|