專題:DeepSeek為何能震動(dòng)全球AI圈
來(lái)源:AIGC新知
就在剛剛,DeepSeek創(chuàng)始人梁文鋒發(fā)了新帖子,DeepSeek的三款最新多模態(tài)模型已經(jīng)發(fā)布到github和huggingface。
github:https://github.com/deepseek-ai/Janus
huggingface:https://huggingface.co/deepseek-ai/Janus
Janus-Pro是前代模型Janus的升級(jí)版本,其核心改進(jìn)包括:(1)優(yōu)化的訓(xùn)練策略;(2)擴(kuò)展的訓(xùn)練數(shù)據(jù)規(guī)模;(3)更大參數(shù)量的模型架構(gòu)。通過(guò)這些改進(jìn),Janus-Pro在多模態(tài)理解、文本到圖像的指令跟隨能力上均取得顯著提升,同時(shí)增強(qiáng)了圖像生成的穩(wěn)定性。
Janus是一種創(chuàng)新的自回歸框架,通過(guò)將視覺編碼解耦為獨(dú)立路徑,統(tǒng)一多模態(tài)理解與生成任務(wù)。它在保持單一Transformer架構(gòu)的同時(shí),緩解了視覺編碼器在理解與生成任務(wù)中的角色沖突,并提升了框架靈活性。Janus不僅超越此前統(tǒng)一模型,還可與專用模型性能匹敵甚至更優(yōu),其簡(jiǎn)潔性、高靈活性和有效性使其成為下一代多模態(tài)統(tǒng)一模型的代表。
JanusFlow提出一種極簡(jiǎn)架構(gòu),將自回歸語(yǔ)言模型與生成建模領(lǐng)域的先進(jìn)方法“校正流(Rectified Flow)”結(jié)合。研究發(fā)現(xiàn),校正流可直接集成于大語(yǔ)言模型框架內(nèi)訓(xùn)練,無(wú)需復(fù)雜結(jié)構(gòu)調(diào)整。實(shí)驗(yàn)表明,JanusFlow在專業(yè)領(lǐng)域任務(wù)中性能與專用模型相當(dāng)或更優(yōu),同時(shí)在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有統(tǒng)一方法,為高效通用的視覺語(yǔ)言模型提供了新思路。
模型已開源,支持學(xué)術(shù)與商業(yè)用途,具體使用需遵循許可條款。
此外,有知乎網(wǎng)友發(fā)表帖子稱,DeepSeek此舉會(huì)坐空英偉達(dá),畢竟幻方量化不差錢??,英偉達(dá)現(xiàn)在芯片股已經(jīng)跌到15%了。
印度部長(zhǎng)稱贊DeepSeek低成本AI模型:有人質(zhì)疑印度,你們看到DeepSeek成果了嗎?
受DeepSeek影響?OpenAI上線O3 Mini,推理模型首次免費(fèi)
摩根士丹利:DeepSeek的成功可能會(huì)挑戰(zhàn)現(xiàn)狀,并促使人們重新評(píng)估已有的AI模型開發(fā)方法
DeepSeek刺激太大!Altman“認(rèn)錯(cuò)”,稱考慮OpenAI開源,上線O3 Mini,推理模型首次免費(fèi)
OpenAI首席執(zhí)行官:DeepSeek-R1是一款令人印象深刻的模型,有這樣的新競(jìng)爭(zhēng)對(duì)手令人振奮
復(fù)旦大學(xué)副教授鄭驍慶談DeepSeek:AI行業(yè)不只有“規(guī)模法則”,開源將加速模型更新,芯片需求可能不降反增
看好DeepSeek刺激AI需求,SAP預(yù)計(jì)今年云收入加速增長(zhǎng),若滿足要求或用中國(guó)模型 | 財(cái)報(bào)見聞
百度、騰訊、華為等云廠商宣布接入DeepSeek相關(guān)模型
還沒有評(píng)論,來(lái)說(shuō)兩句吧...