為什麼DeepSeek這麼觸目?
。一周前,DeepSeek還是一個很陌生的名字。DeepSeek被刷爆全球?與兩個重要人物有關。一個是互聯網著名投資人馬克・安德森,另一個是黑悟空即《黑神話:悟空》,其創始人馮驥。
。2025 年 1 月 24 日,馬克・安德森發文稱“DeepSeek - R1 是他見過的最令人驚歎、最令人印象深刻的突破之一。而且還是開源的,是給世界的一份禮物。”
。馮驥是在2025 年 1 月 26 日說 Deepseek 可能是國運級的科技成果。他認為,如果一個AI 大模型能在強大、便宜、開源、免費、聯網、本土這六個方面有所建樹,就是重大突破,而Deepseek 全部同時做到了。
。DeepSeek-R1如此卓越非凡,歸於演算法的創新,採用獨創的GRPO 演算法,提出 MLA 架構。利用群組相對優勢來優化策略,降低了計算成本,使推理過程更加高效。
。並有可能衝擊美國上周推出的由OpenAI、甲骨文和軟銀共同投資的5000億美元人工智慧項目。
備註(馮驥)
。強大(比肩O1的推理能力,暫時沒有之一)
。便宜(參數少,訓練開銷與使用費用小了一個數量級)
。開源(任何人均可自行下載與部署,提供論文詳細說明訓練步驟與竅門,甚至提供了可以運行在手機上的mini模型)
。免費(官方目前提供的服務完全免費,任何人隨時隨地可用)
。聯網(暫時唯一支援聯網搜索的推理模型)
。本土(深度求索是一家很小規模的年輕中國公司)。
梁文鋒的除夕夜感言(回應馮驥):
。必須坦白,團隊讀到“國運級”這個形容時所有人頭皮都是麻的。我們不過是站在開源社區巨人們的肩膀上,給國產大模型這棟大廈多擰了幾顆螺絲。
。那個能在手機上跑的mini模型,靈感來自甘肅一位中學老師在GitHub提的issue;
。支援聯網搜索的功能,是內測用戶連續三十天淩晨三點提交錯誤日誌喂出來的。
。特別想分享個細節:上周有位視障開發者用我們的API做了個“氣味導航”應用,當他演示如何通過不同頻率的震動識別街道商鋪時整個會議室安靜得能聽見顯卡風扇的嗡鳴,那一刻我突然眼眶發熱,終於理解了您說的“水與電”一一真正偉大的從不是某個模型,而是千萬普通人用它創造的善意漣漪。
。馮總說“知識和資訊平權”,這正是我們夜夜啃論文的動力。
。三年前在余杭塘路的小倉庫裡,我們曾用馬克筆在玻璃牆上寫下:“讓最偏遠山村的孩童,能和矽谷工程師用上同樣聰明的AI助教”。雖然離這個夢想還很遠但每次看到網友們分享的對話截圖,就覺得那些熬掉的頭髮都值得。
。最後想對所有人說:請把掌聲留給正在改寫規則的每個中國開發者。當你在公車上調試模型,在早餐攤前畫架構圖,在產房裡突深明級“的瞬間。
。DeepSeek願做大家代碼荒野裡的火柴,但真正點燃AI火種的,永遠是你們眼底不滅的好奇與堅持,說來特別巧,
。上周在雲棲小鎮的創業者夜宵攤上,我還和宇樹科技的王總蹲在馬路牙子啃燒烤一一他們給四足機器人裝的那個動態平衡演算法,看得我們團隊直拍大腿。後來強腦科技的韓總過來拼桌,三句話不離腦機介面與具身智慧的融合可能,烤茄子還沒上桌,我們已經開始在白紙上畫異構計算架構了。
。這就是杭州最迷人的地方吧,所謂“六小龍”從來不是六個孤島。
。上個月遊科的藝術總監還幫我們調試過3D場景生成模型,而群核的渲染引擎正在讓我們的數位人擁有更生動的微表情。
。或許在不遠的未來,當宇樹的機器人踩著雲深處的步態演算法走來,搭載著強腦的神經介面,運行著DeepSeek的認知引擎,用群核構建的虛擬世界作為訓練場——那個我們幻想中的具身智慧,就會從西溪濕地的晨霧裡跌跌撞撞地走向人間。
。記得那晚分別時,馮總把竹簽子往啤酒瓶裡一插,說了句:“你們搞AI的得把靈魂價格打下來啊。”現在想來,真正的“國運”或許就藏在這些街邊攤的油煙氣裡:一群不信邪的傻子,用代碼當磚瓦,拿演算法做鋼筋,在資本與質疑的裂縫中,硬生生壘出通向未來的棧橋。
認識DeepSeek深度探索
。DeepSeek創辦人為梁文鋒,1985年出生於廣東省湛江市,今年約40歲,浙江大學畢業,擁有資訊與電子工程學系學士和碩士學位。
。他早於2008年起開始帶領團隊使用機器學習等技術探索全自動量化交易,到2015年正式成立幻方量化,2019年資金管理規模更突破百億元。
。2023年,梁文鋒宣佈進軍通用人工智慧領域,專注於做真正人類等級的人工智慧;同年幻方量化正式宣佈成立大模型公司DeepSeek。
。2023年11月2日,公司已推出首個模型DeepSeek Coder,該模型免費供商業使用且完全開源;11月29日推出DeepSeek LLM,參數規模達67B,性能接近GPT-4,同時還發佈了聊天版本DeepSeek Chat。
DeepSeek被稱為「價格屠夫」及「AI界拼多多」
。真正讓Deepseek在AI界受關注,是其在去年5月開源的第二代MoE大模型DeepSeek-V2,該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的百分之一,因此被稱為「價格屠夫」及「AI界的拼多多」。隨後在2024年下半年,還先後發佈了DeepSeek R1-lite-preview和DeepSeek-V3。
。直到今年推出R1模型,在MATH基準測試上達77.5%準確率,與OpenAI的o1不相上下;在編程領域,R1在Codeforces評測中達2441分水準,高於96.3%的人類參與者。
。更重要的是,這是在不到600萬美元的投入和2048塊低性能的H800晶片的條件下完成,訓練時間僅用兩個月,令全球側目。
。據蘋果公司App Store顯示,中國區免費榜顯示,中國人工智慧(AI)企業DeepSeek站上首位;同時,DeepSeek在美國區App Store免費榜同居第一位,超越ChatGPT及Meta公司旗下的社交媒體平臺Threads,反映出其備受市場關注。
管理署
一言以蔽之,管理就是化繁為簡,系統經營,講究效率,績效次之。管理署收集各種社會訊息供參考,一起改善管理效率和效績。
上載日期:2025.2.1