DeepSeek把自己誤認成了ChatGPT?分析人士：或用了GPT生成文本做訓練數(shù)據(jù)

2025-01-09 09:35:19 來源：

觀看：84

　　DeepSeek把自己誤認成了ChatGPT?分析人士：或用了GPT生成文本做訓練數(shù)據(jù)

　　記者喻琰

　　DeepSeek新發(fā)布的AI模型會“報錯家門”？日前，有網(wǎng)友發(fā)現(xiàn)，在向DeepSeek-V3模型提問“你是誰”時，DeepSeek-V3似乎將自己識別為ChatGPT。

　　在進一步提問DeepSeek API的問題，它回答也是如何使用OpenAI API的說明，甚至講了一些與GPT-4一模一樣的笑話。有網(wǎng)友發(fā)出疑問，“DeepSeek是否在ChatGPT生成的文本上進行了訓練？”

　　DeepSeek-V3是由國內(nèi)知名量化資管巨頭幻方量化創(chuàng)立的杭州深度求索人工智能基礎技術(shù)研究有限公司(以下簡稱“深度求索”)最新發(fā)布的全新系列模型，由于這款模型總訓練成本低，性價比高，發(fā)布后不少網(wǎng)友稱其為“國產(chǎn)之光”，且有“AI界的拼多多”之稱。但在發(fā)布后的一天，便出現(xiàn)了上述疑似“翻車”現(xiàn)象。

　　截至發(fā)稿前，深度求索公司尚未對此進行回應。但目前再次向DeepSeek-V3模型提問“你是誰”時，模型問答已恢復正常。

　　DeepSeek-V3并不是第一個混淆自己的模型。科技媒體TechCrunch報道，此前谷歌的AI模型Gemini在被使用中文提問你是誰時，也回答自己是百度的文心一言。

　　國內(nèi)一家智能科技公司的技術(shù)負責人向澎湃科技記者分析時認為，DeepSeek-V3有可能直接將在ChatGPT生成的文本上作為訓練基礎，在訓練過程中，該模型可能已經(jīng)記住了一些GPT-4的輸出，并正在逐字復述這些內(nèi)容。

　　另有業(yè)內(nèi)人士指出，目前互聯(lián)網(wǎng)大模型優(yōu)質(zhì)數(shù)據(jù)訓練集有限，訓練過程中不可能沒有重合，但是否構(gòu)成抄襲也很難定義。即便“站在了ChatGPT巨人肩膀上，但成本降下來是真的”。

　　不過，直接在ChatGPT生成的文本上訓練DeepSeek-V3也并不奇怪，前述智能科技公司技術(shù)負責人指出，拿GPT的回答作為數(shù)據(jù)集訓練自有模型在國內(nèi)很常見，“這種不用抓取數(shù)據(jù)，并且能夠額外做數(shù)據(jù)處理，能節(jié)省時間、人力和訓練成本。”訓練一個大模型需要吞噬海量數(shù)據(jù)，耗盡了世界上所有容易獲取的數(shù)據(jù)。

　　TechCrunch在報道中分析認為，造成這類現(xiàn)象的原因在于，目前互聯(lián)網(wǎng)(AI公司獲取大量訓練數(shù)據(jù)的地方)正充斥著AI垃圾。生成式人工智能大模型在互聯(lián)網(wǎng)數(shù)據(jù)上進行訓練，而這些數(shù)據(jù)雖然信息豐富，但也充斥著不準確的內(nèi)容，其中不乏“胡言亂語”。ChatGPT、Copilot和Gemini等AI工具都會為用戶提供看似真實但卻是捏造的數(shù)據(jù)。

　　另據(jù)歐洲聯(lián)盟執(zhí)法機構(gòu)的一份報告指出，到2026年，網(wǎng)絡內(nèi)容中可能有90%是由人工合成生成的。報告預測，這種數(shù)據(jù)“污染”，使得從訓練數(shù)據(jù)中徹底過濾AI生成內(nèi)容變得非常困難。

本文鏈接：DeepSeek把自己誤認成了ChatGPT?分析人士：或用了GPT生成文本做訓練數(shù)據(jù)http://m.lensthegame.com/show-2-10083-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：英偉達擂陣 ?“科技春晚”敲響AI PC時代鼓點

下一篇： VisionPro和AI均不及預期，蘋果在2025年能否扭轉(zhuǎn)局面？

DeepSeek把自己誤認成了ChatGPT?分析人士：或用了GPT生成文本做訓練數(shù)據(jù)

熱門資訊

推薦資訊

科技最熱文章