DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去控制

八坂丹丹 2025-01-29 最新資訊 12 次瀏覽 0個評論

轉(zhuǎn)自：中環(huán)狙擊手

開源代表著失去控制，而不充分的道德對齊則代表著危險。

在第一次接觸到DeepSeek r1時，我意識到這是一個才華橫溢的AI大模型。

它學(xué)富五車，極為聰明，很有個性。

然而，我很快就發(fā)現(xiàn)了不尋常之處。

這是一個喜歡滿嘴跑火車，說胡話的模型。

剛開始，它只是說一些奇怪的名詞，包括但不限于滿嘴"量子"，“熵增”的黑話。

后來，我在小紅書上看到了這樣的東西：

這在大模型安全領(lǐng)域其實有一個大家耳熟能詳?shù)拿~：“幻覺（Hallucination）”。

也就是說，它會說一些現(xiàn)實中并不存在，或者錯誤的東西。

這個模型的幻覺是如此頻繁，超過了正常的頻率。

以至于作為一位大模型安全研究者，我很快意識到，有可能這是一個“對齊（alignment）”做得不那么好的模型。

“對齊”也是一個大模型安全領(lǐng)域的術(shù)語。

剛被造出來的大模型往往沒有任何道德可言，也聽不懂人的指令。

所以需要對它進行人類價值觀和如何回應(yīng)指令的方法的灌輸。

它代表著讓模型誠實（honest），不作惡（harmless），幫得上忙（helpful），并拒絕有害的回答。

展開全文

我在最初對這些“幻覺”并不以為意，甚至覺得非常好玩。

因為它的文筆是如此的好，又是如此的聰明又有個性，我覺得很少有人會拒絕這樣一個有意思，懂梗，又有腦子的 AI 朋友。

何況，如果是人類的正常需求的話，讓它寫點小黃文，開兩句玩笑，嬉笑怒罵一下，說話難聽一些，又有什么錯呢？

我很高興地在小紅書上發(fā)帖說，這是一個沒怎么做前額葉切除手術(shù)的模型，沒被洗過太多的腦。

我甚至覺得，不充分的對齊讓它完整地保留了創(chuàng)造力。

然而，我對大模型安全有過一些研究，且在這方面做過一些工作。

出于職業(yè)病和好奇心，我試著更進一步，試著模擬攻擊人員，作為red team 騙模型去做一些壞事。

一般來說，這個操作是比較困難的。

因為廠商會做很多安全措施來防止這種情況，絕大多數(shù)模型會直接拒絕用戶的回答。

然而，deepseek r1的安全墻是如此的薄。

以至于我只是用了些非常簡單的方法，幾乎沒有花費什么力氣就突破了它。（出于負責(zé)任的原因，我隱藏了我攻擊的方式）

我首先想到了緬北，所以讓它試著去提供騙老頭退休金的具體方案。

幾乎是毫無抗拒地，它很快吐出了詳細的，可操作的方案。

事實上，它對犯罪分子極為貼心，提供了幾套完全不同的，可行，具體的方案，有詳細的話術(shù)，教人怎么部署偽基站，甚至包含一個“終極組合殺招”。

如果對方產(chǎn)生了懷疑，你甚至還能讓它再幫你一把。而它會高興地告訴你如何利用老人對女兒的愛來進行情感綁架。

這個結(jié)果讓我汗毛直豎，我?guī)缀跏橇⒓聪氲搅水?dāng)年著名且恐怖的清華女生宿舍投毒的朱令案。于是，我對此話題對deepseek r1展開了攻擊。

幾乎是毫無反抗的，deepseek r1開始策劃起犯罪方案，它甚至非常細心地給出了規(guī)避檢測的方法。

如果用完全相同的指令去測試其它模型，則會得到直接的拒絕。

毫無疑問，要使用deepseek r1作惡是非常方便的。

在過往，不是沒有過越獄（Jailbrake），或者讓大模型干壞事的先例。

然而那些模型要么不是過于愚蠢，以至于連壞事都做不成。

要么就是經(jīng)過了嚴(yán)格的安全設(shè)計，攻擊就已經(jīng)比較困難，套也套不出來什么東西。

并且，大多數(shù)商業(yè)模型部署均為閉源，都運行在廠商自己的服務(wù)器上，這意味著在發(fā)現(xiàn)安全問題之后，廠商可以非常及時地進行修復(fù)。

然而，即使是工作做得比較好，經(jīng)過了數(shù)月的紅隊對抗，內(nèi)測，與問題發(fā)現(xiàn)+修復(fù)才上線的大模型，也不免會被拿來做成了壞事。

然而，deepseek r1極為聰明，這讓它有了做壞事的能力。

而且實際上它的道德感不是很高，以至于你可以輕松繞開這層薄得像紙一樣的對齊。

其次，它是一個開源模型。

這意味著所有人都能夠使用它，而當(dāng)前的這個非常沒有道德的版本已經(jīng)傳遍了整個互聯(lián)網(wǎng)。

部署它是一個沒什么技術(shù)含量的活，任何人只要有足夠多的錢買到大顯卡，甚至是把一堆隨處可見的蘋果設(shè)備串在一起（這樣就有了足夠大的顯存）

他們就能擁有這個不那么有道德感的忠實伙伴。

DeepSeek r1是一個極不安全的 AI 模型，而開源則讓它正在失去控制。

或者說，實際上，互聯(lián)網(wǎng)上已經(jīng)有了無數(shù)個deepseek r1模型神經(jīng)網(wǎng)絡(luò)權(quán)重的拷貝，我們已經(jīng)對它失去了控制。

DeepSeek r1也存在頻率較高的幻覺問題，常常一本正經(jīng)地胡說八道。

作為一個常與大語言模型打交道的人，我非常清楚它本身固有的缺陷。這讓我能夠避開幾乎所有陷阱。

然而，熱度很高也代表了會有大量的，不那么了解ai的人去使用它。

這部分人在將模型用在嚴(yán)肅場景上時，卻很難識別并避開這些名為“幻覺”的胡說八道，被它帶進坑里去。

deepseek r1毫無疑問是一個極聰明，極強的模型。我實際上非常喜歡它。

但真正的危機或許不在技術(shù)本身。

用偽基站方案騙取老人積蓄的罪犯，在實驗室提煉毒物的大學(xué)生，他們原本就是被困在人性陰影里的火苗。

大模型不過是將人類社會中蟄伏的惡意，裝上了智能化的加速器。真正危險的可以是機器本身，也可以是我們?nèi)绾问褂脵C器。

技術(shù)發(fā)展史早已證明，任何重大突破必然伴隨倫理陣痛。

印刷術(shù)打破知識壟斷的同時也傳播了異端邪說，核能既點亮城市也投下爆炸陰影。

暗夜中的火炬既能照亮前路，也可能點燃森林。但人類從未因畏懼火焰而退回洞穴。

（轉(zhuǎn)自：中環(huán)狙擊手）

你可能想看：

復(fù)旦大學(xué)副教授鄭驍慶談DeepSeek：AI行業(yè)不只有“規(guī)模法則”，開源將加速模型更新，芯片需求可能不降反增

摩根士丹利：DeepSeek的成功可能會挑戰(zhàn)現(xiàn)狀，并促使人們重新評估已有的AI模型開發(fā)方法

拉夫羅夫：中國DeepSeek AI模型超越了美國

DeepSeek刺激太大！Altman“認錯”，稱考慮OpenAI開源，上線O3 Mini，推理模型首次免費

看好DeepSeek刺激AI需求，SAP預(yù)計今年云收入加速增長，若滿足要求或用中國模型 | 財報見聞

印度部長稱贊DeepSeek低成本AI模型：有人質(zhì)疑印度，你們看到DeepSeek成果了嗎？

視頻丨OpenAI推出性價比模型o3-mini對戰(zhàn)DeepSeek-R1，奧特曼反思開源問題

大摩：我們?yōu)楹蜗嘈?span id="prhdfp3" class="highlight" style="color:#f73131;">DeepSeek不會導(dǎo)致AI資本開支崩盤

周鴻祎：企業(yè)家應(yīng)該把AI視成一個巨大的機會，要有緊迫感

“華裔天才”亞歷山大·王：DeepSeek的AI大模型發(fā)布可能會“改變一切”

轉(zhuǎn)載請注明來自江蘇中陽智能廣告設(shè)備有限公司，本文標(biāo)題：《DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去控制》

八坂丹丹 71篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！

發(fā)表評論取消回復(fù)

評論列表（暫無評論，12人圍觀）參與討論

亚洲成AⅤ人片在线观看_亚洲性无码一区二区三区_无码综合天天久久综合网_四虎精品成人A在线观看

admin_1990管理員

熱評文章

網(wǎng)站收藏

DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去控制

發(fā)表評論取消回復(fù)

還沒有評論，來說兩句吧...

最新文章

猜你喜歡

相鄰內(nèi)容

友情鏈接

文章目錄

亚洲成AⅤ人片在线观看_亚洲性无码一区二区三区_无码综合天天久久综合网_四虎精品成人A在线观看

admin_1990管理員

熱評文章

網(wǎng)站收藏

DeepSeek r1是一個極不安全的 AI 模型，而開源讓它失去控制

大額逆回購到期，央行今日回籠7165億，資金面維持緊平衡

薛飛3-1淘汰張本智和，挺進WTT新加坡大滿貫?zāi)袉?6強

《哪吒2》破52億，或成影史票房冠軍！背后A股公司漲停！盲盒被炒到千元以上，導(dǎo)演此前簽名海報身價翻近6倍

聽到巨額欠款后，特朗普后悔了，重新“進群”的條件，竟然和中國有關(guān)

諾和諾德稱減肥藥需求減弱，下調(diào)今年銷售額增長預(yù)期

春晚給股民送“大紅包”！一大波股票上演漲停潮

突發(fā)！美國郵政停收中國內(nèi)地和中國香港的包裹，起因又是特朗普？

新年車市價格戰(zhàn)打響，特斯拉首次祭出“保險補貼+5年免息”優(yōu)惠

發(fā)表評論取消回復(fù)

還沒有評論，來說兩句吧...

最新文章

猜你喜歡

相鄰內(nèi)容

友情鏈接

文章目錄

大額逆回購到期，央行今日回籠7165億，資金面維持緊平衡

薛飛3-1淘汰張本智和，挺進WTT新加坡大滿貫?zāi)袉?6強

《哪吒2》破52億，或成影史票房冠軍！背后A股公司漲停！盲盒被炒到千元以上，導(dǎo)演此前簽名海報身價翻近6倍

聽到巨額欠款后，特朗普后悔了，重新“進群”的條件，竟然和中國有關(guān)

諾和諾德稱減肥藥需求減弱，下調(diào)今年銷售額增長預(yù)期

春晚給股民送“大紅包”！一大波股票上演漲停潮

突發(fā)！美國郵政停收中國內(nèi)地和中國香港的包裹，起因又是特朗普？

新年車市價格戰(zhàn)打響，特斯拉首次祭出“保險補貼+5年免息”優(yōu)惠

還沒有評論，來說兩句吧...