2025-01-01 17:06:45 科技 47500阅读
上周中旬在浙江发布的 DeepSeek V3 被描述为能够通过“以最智能的方式”进行文本输入来处理大量工作和任务,例如编码、翻译以及根据提示撰写论文和电子邮件。该模型免费发布,可用于多种用途,包括商业用途。
DeepSeek 和 ChatGPT 的徽标。照片:云小册子
DeepSeek 表示,在内部测试中,V3“优于当今的可下载模型”,包括开源和闭源。在编程竞赛平台Codeforces上的演示中,V3超越了Meta的Llama 3.1 405B(4050亿参数)、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B(720亿参数)等其他模型。 Aider Polyglot 竞赛,这是一项旨在衡量模型能力的测试人工智能。该公司推出了在 14.8 万亿个代币数据集上进行训练的 V3。在数据科学中,令牌用于表示位原始数据,100 万个 token 相当于约 75 万个单词。
不仅训练数据集庞大,V3 的规模也很大,有 6710 亿个参数,大约是 Llama 3.1 405B 的 1.6 倍。不过,DeepSeek 表示,由于硬件使用效率较高,该模型不需要太多 GPU 即可运行。
然而,在
TechCrunch的测试和社交网络上的一些用户分享中,DeepSeek V3 将自己标识为 ChatGPT。当被要求解释时,V3 断言它是 GPT-4 的一个版本,由 OpenAI 于 2023 年发布。
查询显示DeepSeek将自己标识为ChatGPT。照片: X/Lucas Beyer
即使在询问与 DeepSeek 的 API 相关的问题时,该模型也展示了如何使用 OpenAI 的 API。它甚至讲了一些笑话,GPT-4风格的诙谐笑话。
DeepSeek没有提到V3训练数据源。不过,根据
TechCrunch的猜测,该模型可能会重用包含文本的公共数据集。由 GPT-4 通过 ChatGPT 创建的图像。该网站评论道:“如果 DeepSeek V3 接受过这些数据的训练,该模型就可以记住 GPT-4 的一些输出答案,并逐字重复。”类似的观点。库克说:“很明显,该模型在某个阶段收到了来自 ChatGPT 的原始反馈,但尚不清楚何时。” “可能是无意的,事实上利用一个模型的结果来训练另一个模型的情况并不少见。”库克指出,这种方法“非常糟糕”,因为它会导致“错觉”的现象“”,产生误导性答案。他解释说:“就像给复制品拍照片一样,模型会逐渐失去很多信息以及与现实的联系。”条款。例如,OpenAI 禁止其产品的用户使用其输出来开发竞争模型。OpenAI 和 DeepSeek 未能立即发表评论。然而,首席执行官据报道,OpenAI Sam Altman 嘲笑来自中国的人工智能。他上周末在 X 上写道:“复制你知道行之有效的东西很容易。当你不知道它是否行得通时,做一些新的、有风险和困难的事情是很困难的。”
Deepseek 于 2023 年 5 月由梁文峰,总部位于浙江杭州,隶属于中国领先的投资基金之一 High-Flyer。 Deepseek 由 High-Flyer 全额资助,没有筹集资金的计划。该公司专注于构建平台技术。
据
China Talk报道,与中国的人工智能公司不同,Deepseek宣称自己的使命是“用好奇心解密AGI的奥秘”。公司实验室目前专注于研究人工智能领域改变游戏规则的架构和算法创新。
Bao Lam中国AI芯片达到每秒450亿次计算
中西方人工智能的差异
美国完成对华人工智能投资限制规定国家