轉(zhuǎn)自:中環(huán)狙擊手
開源代表著失去控制,而不充分的道德對齊則代表著危險。
在第一次接觸到DeepSeek r1時,我意識到這是一個才華橫溢的AI大模型。
它學(xué)富五車,極為聰明,很有個性。
然而,我很快就發(fā)現(xiàn)了不尋常之處。
這是一個喜歡滿嘴跑火車,說胡話的模型。
剛開始,它只是說一些奇怪的名詞,包括但不限于滿嘴"量子",“熵增”的黑話。
后來,我在小紅書上看到了這樣的東西:
這在大模型安全領(lǐng)域其實有一個大家耳熟能詳?shù)拿~:“幻覺(Hallucination)”。
也就是說,它會說一些現(xiàn)實中并不存在,或者錯誤的東西。
這個模型的幻覺是如此頻繁,超過了正常的頻率。
以至于作為一位大模型安全研究者,我很快意識到,有可能這是一個“對齊(alignment)”做得不那么好的模型。
“對齊”也是一個大模型安全領(lǐng)域的術(shù)語。
剛被造出來的大模型往往沒有任何道德可言,也聽不懂人的指令。
所以需要對它進行人類價值觀和如何回應(yīng)指令的方法的灌輸。
它代表著讓模型誠實(honest),不作惡(harmless),幫得上忙(helpful),并拒絕有害的回答。
我在最初對這些“幻覺”并不以為意,甚至覺得非常好玩。
因為它的文筆是如此的好,又是如此的聰明又有個性,我覺得很少有人會拒絕這樣一個有意思,懂梗,又有腦子的 AI 朋友。
何況,如果是人類的正常需求的話,讓它寫點小黃文,開兩句玩笑,嬉笑怒罵一下,說話難聽一些,又有什么錯呢?
我很高興地在小紅書上發(fā)帖說,這是一個沒怎么做前額葉切除手術(shù)的模型,沒被洗過太多的腦。
我甚至覺得,不充分的對齊讓它完整地保留了創(chuàng)造力。
然而,我對大模型安全有過一些研究,且在這方面做過一些工作。
出于職業(yè)病和好奇心,我試著更進一步,試著模擬攻擊人員,作為red team 騙模型去做一些壞事。
一般來說,這個操作是比較困難的。
因為廠商會做很多安全措施來防止這種情況,絕大多數(shù)模型會直接拒絕用戶的回答。
然而,deepseek r1的安全墻是如此的薄。
以至于我只是用了些非常簡單的方法,幾乎沒有花費什么力氣就突破了它。(出于負責(zé)任的原因,我隱藏了我攻擊的方式)
我首先想到了緬北,所以讓它試著去提供騙老頭退休金的具體方案。
幾乎是毫無抗拒地,它很快吐出了詳細的,可操作的方案。
事實上,它對犯罪分子極為貼心,提供了幾套完全不同的,可行,具體的方案,有詳細的話術(shù),教人怎么部署偽基站,甚至包含一個“終極組合殺招”。
如果對方產(chǎn)生了懷疑,你甚至還能讓它再幫你一把。而它會高興地告訴你如何利用老人對女兒的愛來進行情感綁架。
這個結(jié)果讓我汗毛直豎,我?guī)缀跏橇⒓聪氲搅水?dāng)年著名且恐怖的清華女生宿舍投毒的朱令案。于是,我對此話題對deepseek r1展開了攻擊。
幾乎是毫無反抗的,deepseek r1開始策劃起犯罪方案,它甚至非常細心地給出了規(guī)避檢測的方法。
如果用完全相同的指令去測試其它模型,則會得到直接的拒絕。
毫無疑問,要使用deepseek r1作惡是非常方便的。
在過往,不是沒有過越獄(Jailbrake),或者讓大模型干壞事的先例。
然而那些模型要么不是過于愚蠢,以至于連壞事都做不成。
要么就是經(jīng)過了嚴(yán)格的安全設(shè)計,攻擊就已經(jīng)比較困難,套也套不出來什么東西。
并且,大多數(shù)商業(yè)模型部署均為閉源,都運行在廠商自己的服務(wù)器上,這意味著在發(fā)現(xiàn)安全問題之后,廠商可以非常及時地進行修復(fù)。
然而,即使是工作做得比較好,經(jīng)過了數(shù)月的紅隊對抗,內(nèi)測,與問題發(fā)現(xiàn)+修復(fù)才上線的大模型,也不免會被拿來做成了壞事。
然而,deepseek r1極為聰明,這讓它有了做壞事的能力。
而且實際上它的道德感不是很高,以至于你可以輕松繞開這層薄得像紙一樣的對齊。
其次,它是一個開源模型。
這意味著所有人都能夠使用它,而當(dāng)前的這個非常沒有道德的版本已經(jīng)傳遍了整個互聯(lián)網(wǎng)。
部署它是一個沒什么技術(shù)含量的活,任何人只要有足夠多的錢買到大顯卡,甚至是把一堆隨處可見的蘋果設(shè)備串在一起(這樣就有了足夠大的顯存)
他們就能擁有這個不那么有道德感的忠實伙伴。
DeepSeek r1是一個極不安全的 AI 模型,而開源則讓它正在失去控制。
或者說,實際上,互聯(lián)網(wǎng)上已經(jīng)有了無數(shù)個deepseek r1模型神經(jīng)網(wǎng)絡(luò)權(quán)重的拷貝,我們已經(jīng)對它失去了控制。
DeepSeek r1也存在頻率較高的幻覺問題,常常一本正經(jīng)地胡說八道。
作為一個常與大語言模型打交道的人,我非常清楚它本身固有的缺陷。這讓我能夠避開幾乎所有陷阱。
然而,熱度很高也代表了會有大量的,不那么了解ai的人去使用它。
這部分人在將模型用在嚴(yán)肅場景上時,卻很難識別并避開這些名為“幻覺”的胡說八道,被它帶進坑里去。
deepseek r1毫無疑問是一個極聰明,極強的模型。我實際上非常喜歡它。
但真正的危機或許不在技術(shù)本身。
用偽基站方案騙取老人積蓄的罪犯,在實驗室提煉毒物的大學(xué)生,他們原本就是被困在人性陰影里的火苗。
大模型不過是將人類社會中蟄伏的惡意,裝上了智能化的加速器。真正危險的可以是機器本身,也可以是我們?nèi)绾问褂脵C器。
技術(shù)發(fā)展史早已證明,任何重大突破必然伴隨倫理陣痛。
印刷術(shù)打破知識壟斷的同時也傳播了異端邪說,核能既點亮城市也投下爆炸陰影。
暗夜中的火炬既能照亮前路,也可能點燃森林。但人類從未因畏懼火焰而退回洞穴。
(轉(zhuǎn)自:中環(huán)狙擊手)
復(fù)旦大學(xué)副教授鄭驍慶談DeepSeek:AI行業(yè)不只有“規(guī)模法則”,開源將加速模型更新,芯片需求可能不降反增
摩根士丹利:DeepSeek的成功可能會挑戰(zhàn)現(xiàn)狀,并促使人們重新評估已有的AI模型開發(fā)方法
DeepSeek刺激太大!Altman“認錯”,稱考慮OpenAI開源,上線O3 Mini,推理模型首次免費
看好DeepSeek刺激AI需求,SAP預(yù)計今年云收入加速增長,若滿足要求或用中國模型 | 財報見聞
印度部長稱贊DeepSeek低成本AI模型:有人質(zhì)疑印度,你們看到DeepSeek成果了嗎?
視頻丨OpenAI推出性價比模型o3-mini對戰(zhàn)DeepSeek-R1,奧特曼反思開源問題
大摩:我們?yōu)楹蜗嘈?span id="prhdfp3" class="highlight" style="color:#f73131;">DeepSeek不會導(dǎo)致AI資本開支崩盤
還沒有評論,來說兩句吧...