DeepSeek多模態(tài)模型悄然登臨抱抱臉，美股繼續(xù)大跌

東京梓蓓 2025-01-28 技術(shù)資訊 8 次瀏覽 0個(gè)評(píng)論

專題：DeepSeek為何能震動(dòng)全球AI圈

　　來(lái)源：AIGC新知

　　就在剛剛，DeepSeek創(chuàng)始人梁文鋒發(fā)了新帖子，DeepSeek的三款最新多模態(tài)模型已經(jīng)發(fā)布到github和huggingface。

　　github：https：//github.com/deepseek-ai/Janus

　　huggingface：https：//huggingface.co/deepseek-ai/Janus

　　Janus-Pro是前代模型Janus的升級(jí)版本，其核心改進(jìn)包括：（1）優(yōu)化的訓(xùn)練策略；（2）擴(kuò)展的訓(xùn)練數(shù)據(jù)規(guī)模；（3）更大參數(shù)量的模型架構(gòu)。通過(guò)這些改進(jìn)，Janus-Pro在多模態(tài)理解、文本到圖像的指令跟隨能力上均取得顯著提升，同時(shí)增強(qiáng)了圖像生成的穩(wěn)定性。

　　Janus是一種創(chuàng)新的自回歸框架，通過(guò)將視覺編碼解耦為獨(dú)立路徑，統(tǒng)一多模態(tài)理解與生成任務(wù)。它在保持單一Transformer架構(gòu)的同時(shí)，緩解了視覺編碼器在理解與生成任務(wù)中的角色沖突，并提升了框架靈活性。Janus不僅超越此前統(tǒng)一模型，還可與專用模型性能匹敵甚至更優(yōu)，其簡(jiǎn)潔性、高靈活性和有效性使其成為下一代多模態(tài)統(tǒng)一模型的代表。

　　JanusFlow提出一種極簡(jiǎn)架構(gòu)，將自回歸語(yǔ)言模型與生成建模領(lǐng)域的先進(jìn)方法“校正流（Rectified Flow）”結(jié)合。研究發(fā)現(xiàn)，校正流可直接集成于大語(yǔ)言模型框架內(nèi)訓(xùn)練，無(wú)需復(fù)雜結(jié)構(gòu)調(diào)整。實(shí)驗(yàn)表明，JanusFlow在專業(yè)領(lǐng)域任務(wù)中性能與專用模型相當(dāng)或更優(yōu)，同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有統(tǒng)一方法，為高效通用的視覺語(yǔ)言模型提供了新思路。

　　模型已開源，支持學(xué)術(shù)與商業(yè)用途，具體使用需遵循許可條款。

　　此外，有知乎網(wǎng)友發(fā)表帖子稱，DeepSeek此舉會(huì)坐空英偉達(dá)，畢竟幻方量化不差錢??，英偉達(dá)現(xiàn)在芯片股已經(jīng)跌到15%了。

你可能想看：

印度部長(zhǎng)稱贊DeepSeek低成本AI模型：有人質(zhì)疑印度，你們看到DeepSeek成果了嗎？

受DeepSeek影響？OpenAI上線O3 Mini，推理模型首次免費(fèi)

摩根士丹利：DeepSeek的成功可能會(huì)挑戰(zhàn)現(xiàn)狀，并促使人們重新評(píng)估已有的AI模型開發(fā)方法

DeepSeek刺激太大！Altman“認(rèn)錯(cuò)”，稱考慮OpenAI開源，上線O3 Mini，推理模型首次免費(fèi)

OpenAI首席執(zhí)行官：DeepSeek-R1是一款令人印象深刻的模型，有這樣的新競(jìng)爭(zhēng)對(duì)手令人振奮

復(fù)旦大學(xué)副教授鄭驍慶談DeepSeek：AI行業(yè)不只有“規(guī)模法則”，開源將加速模型更新，芯片需求可能不降反增

看好DeepSeek刺激AI需求，SAP預(yù)計(jì)今年云收入加速增長(zhǎng)，若滿足要求或用中國(guó)模型 | 財(cái)報(bào)見聞

百度、騰訊、華為等云廠商宣布接入DeepSeek相關(guān)模型

DeepSeek成“上班搭子”！已有銀行展開大語(yǔ)言模型應(yīng)用，能否讓效率“狂飆”？