2025-01-11 17:07:15 科技 40156阅读
亿万富翁埃隆·马斯克在 9 月 9 日发表的采访中表示,“人类创造的所有数据和知识都在 AI 训练过程中得到了充分利用。这种情况从去年开始就一直在发生。”1
他认为,防止训练新模型时使用的源数据短缺的唯一方法是转向人工智能本身创建的合成数据。他说:“这个过程就像写一篇文章或论文,然后对自己进行评分和评估,从而构建新知识。”
Meta、微软、谷歌和 OpenAI 等领先科技公司都使用合成数据来完善他们的模型。
2023年的亿万富翁埃隆·马斯克。照片:路透社
不过,这位美国亿万富翁也警告说,人工智能模型仍然有能力制造“幻觉”——这个术语指的是不准确或无意义的输出结果,导致人工智能自我合成带来误导性信息的风险。 “幻觉给合成数据的使用过程带来了许多挑战,因为无法知道人工智能显示的是否是幻觉或问题的真正答案”,他说。
英国阿兰图灵研究所 AI 主任安德鲁·邓肯 (Andrew Duncan) 表示,马斯克的言论与最近的一篇学术文章有相似之处,该文章估计 AI 模型的公共数据可以运行到2026年。他认为,过度依赖聚合数据可能会面临“模型崩溃”的风险,即人工智能输出的质量会下降,偏差会增加
高质量的数据,以及对其的控制权,已经成为AI热潮中法律紧张的战线之一。
OpenAI去年也承认无法创建像ChatGPT这样的工具与此同时,创意产业和出版商要求为培训期间使用的材料付费。 AI.
Diep Anh (据Guardian)