日志

深度求索DeepSeek触目之处:冯骥和梁文锋的互动

深度求索DeepSeek触目之处:冯骥和梁文锋的互动

 

为什么DeepSeek这么触目?

。一周前,DeepSeek还是一个很陌生的名字。DeepSeek被刷爆全球?与两个重要人物有关。一个是互联网着名投资人马克・安德森,另一个是黑悟空即《黑神话:悟空》,其创始人冯骥。

 

。2025 年 1 月 24 日,马克・安德森发文称“DeepSeek - R1 是他见过的最令人惊歎、最令人印象深刻的突破之一。而且还是开源的,是给世界的一份礼物。”

 

。冯骥是在2025 年 1 月 26 日说 Deepseek 可能是国运级的科技成果。他认为,如果一个AI 大模型能在强大、便宜、开源、免费、联网、本土这六个方面有所建树,就是重大突破,而Deepseek 全部同时做到了。

 

。DeepSeek-R1如此卓越非凡,归于演算法的创新,采用独创的GRPO 演算法,提出 MLA 架构。利用群组相对优势来优化策略,降低了计算成本,使推理过程更加高效。

 

。並有可能冲击美国上周推出的由OpenAI、甲骨文和软银共同投资的5000亿美元人工智慧项目。

 

备註(冯骥)

强大(比肩O1的推理能力,暂时沒有之一)

。便宜(参数少,训练开销与使用费用小了一个数量级)

。开源(任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型)

。免费(官方目前提供的服务完全免费,任何人随时随地可用)

。联网(暂时唯一支援联网搜索的推理模型)

。本土(深度求索是一家很小规模的年轻中国公司)。

 

梁文锋的除夕夜感言(回应冯骥):

必须坦白,团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝。

 

。那个能在手机上跑的mini模型,灵感来自甘肃一位中学老师在GitHub提的issue

 

。支援联网搜索的功能,是内测用户连续三十天凌晨三点提交错误日志喂出来的。

 

。特別想分享个细节:上周有位视障开发者用我们的API做了个“气味导航”应用,当他演示如何通过不同频率的震动识別街道商铺时整个会议室安静得能听见显卡风扇的嗡鸣,那一刻我突然眼眶发热,终于理解了您说的“水与电”一一真正伟大的从不是某个模型,而是千万普通人用它创造的善意涟漪。

 

。冯总说“知识和资讯平权”,这正是我们夜夜啃论文的动力。

 

。三年前在馀杭塘路的小仓库里,我们曾用马克笔在玻璃墙上写下:“让最偏远山村的孩童,能和硅谷工程师用上同样聪明的AI助教”。虽然离这个梦想还很远但每次看到网友们分享的对话截图,就觉得那些熬掉的头髮都值得。

 

。最后想对所有人说:请把掌声留给正在改写规则的每个中国开发者。当你在公车上调试模型,在早餐摊前画架构图,在产房里突深明级“的瞬间。

 

。DeepSeek愿做大家代码荒野里的火柴,但真正点燃AI火种的,永远是你们眼底不灭的好奇与坚持,说来特別巧,

 

。上周在云栖小镇的创业者夜宵摊上,我还和宇树科技的王总蹲在马路牙子啃烧烤一一他们给四足机器人装的那个动态平衡演算法,看得我们团队直拍大腿。后来强脑科技的韩总过来拼桌,三句话不离脑机介面与具身智慧的融合可能,烤茄子还沒上桌,我们已经开始在白纸上画异构计算架构了。

 

。这就是杭州最迷人的地方吧,所谓“六小龙”从来不是六个孤岛。

 

。上个月游科的艺术总监还帮我们调试过3D场景生成模型,而群核的渲染引擎正在让我们的数位人拥有更生动的微表情。

 

。或许在不远的未来,当宇树的机器人踩着云深处的步态演算法走来,搭载着强脑的神经介面,运行着DeepSeek的认知引擎,用群核构建的虚拟世界作为训练场——那个我们幻想中的具身智慧,就会从西溪湿地的晨雾里跌跌撞撞地走向人间。

 

。记得那晚分別时,冯总把竹签子往啤酒瓶里一插,说了句:“你们搞AI的得把灵魂价格打下来啊。”现在想来,真正的“国运”或许就藏在这些街边摊的油烟气里:一群不信邪的傻子,用代码当砖瓦,拿演算法做钢筋,在资本与质疑的裂缝中,硬生生垒出通向未来的栈桥。

 

认识DeepSeek深度探索

。DeepSeek创办人为梁文锋,1985年出生于广东省湛江市,今年约40岁,浙江大学毕业,拥有资讯与电子工程学系学士和硕士学位。

 

。他早于2008年起开始带领团队使用机器学习等技术探索全自动量化交易,到2015年正式成立幻方量化,2019年资金管理规模更突破百亿元。

 

。2023年,梁文锋宣佈进军通用人工智慧领域,专注于做真正人类等级的人工智慧;同年幻方量化正式宣佈成立大模型公司DeepSeek。

 

。2023年11月2日,公司已推出首个模型DeepSeek Coder,该模型免费供商业使用且完全开源;11月29日推出DeepSeek LLM,参数规模达67B,性能接近GPT-4,同时还发佈了聊天版本DeepSeek Chat。

 

DeepSeek被称为「价格屠夫」及「AI界拼多多」

。真正让Deepseek在AI界受关注,是其在去年5月开源的第二代MoE大模型DeepSeek-V2,该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,因此被称为「价格屠夫」及「AI界的拼多多」。随后在2024年下半年,还先后发佈了DeepSeek R1-lite-preview和DeepSeek-V3。

 

。直到今年推出R1模型,在MATH基准测试上达77.5%准确率,与OpenAI的o1不相上下;在编程领域,R1在Codeforces评测中达2441分水准,高于96.3%的人类参与者。

 

。更重要的是,这是在不到600万美元的投入和2048块低性能的H800晶片的条件下完成,训练时间仅用两个月,令全球侧目

 

。据苹果公司App Store显示,中国区免费榜显示,中国人工智慧(AI)企业DeepSeek站上首位;同时,DeepSeek在美国区App Store免费榜同居第一位,超越ChatGPT及Meta公司旗下的社交媒体平臺Threads,反映出其备受市场关注。

 

 

管理署

一言以蔽之,管理就是化繁为简,系统经营,讲究效率,绩效次之。管理署收集各种社会讯息供参考,一起改善管理效率和效绩。

 

上载日期:2025.2.1