https://01.me/2026/01/intimate-relationships/
前几天纯 vibe 出来的文章。心理咨询师说,我在很多问题上不具备同一性,大概就是说,人成长过程有两个重要阶段,一是自我意识阶段,认识到自己的想法不等于母亲的想法;二是同一性阶段,能够把大脑里冲突的观点整合到一起,形成统一和自洽的选择。缺少同一性,会导致脑子里两个自己不断打架,不管选什么都会后悔,产生内耗。我的情况可能是同一性早闭,同一性未能得到发展。
感觉 Gemini 3 Pro 是第一个能对我有思想启发的模型。最近一个月,在等着 Cursor 和 Antigravity 干活的时候,我就经常跟 Gemini 3 Pro 聊一两个回合。
首先,它不会顺着我的观点说,而是有自己的想法。虽然它的想法不一定对,但都是 make sense 的,经常给我一些启发(我没想到的角度)。
其次,它经常能想到一些我认为是自己发明的“独门绝技”的东西,就是跟我想到一块了,把我吓一跳。
等基座模型再进步几轮,SOTA 模型把人类的智力甩在身后,几乎是定局了。现在唯一的变数就是 frontier lab 热议的 online learning 能不能做成。一些曾经是 ACM 高手的同学跟我吐槽,到了我们这个 level,写代码更快已经不是优势了。那当 AI 的智力和 online learning 能力显著超越人类的时候,人会思考、有行业知识积累,也不是优势了,会发生什么呢?
2025 年,Pine AI 平均每件事帮用户节约 368 美元,最大单笔节省 22,000 美元。平均每件事要打 2.3 个电话,发 5 个邮件,填 2.1 个在线表单,平均花 3 天时间,才能扯皮成功。
以下三个例子只是我们数以万计成功案例的冰山一角:
1. 酒店空调灰尘太多,导致严重过敏,联系酒店不理睬,Pine 在多次联系无果后,举报到了当地政府的卫生部门,结果政府上门把酒店查封了。
2. 拿退休金的夫妇遇到 $9,745 的手术账单,Pine 发现其中麻醉费收了两遍,在多次电话+邮件扯皮之后,省了 $3,898。
3. 掉到“斩杀线”以下,英语讲不利索的用户,同时遇到几个难事:电话账单多收了钱,车的租约到期了,保险拒绝理赔。Pine 只收了他 $3,帮他省了 $1500。
https://mp.weixin.qq.com/s/NXQcK-tz0rMlGLwU_MFfAw
发现 Notion 创始人这篇知名文章也被翻译成中文了 😂
很多人都想知道我是怎么 stay relevant 的,首先是去 X 上关注一些大佬和 LMSys Org,另外关注新智元、机器之心、量子位、Founder Park 几个公众号,看多了之后就越看越快了,不会浪费太多时间。
另外就是要多加愿意分享的 AI 圈内人,尽量做到大新闻总会出现在朋友圈里。比如 2022 年 ChatGPT 发布的那天,我朋友圈里一半在转发解封政策,一半在转发 ChatGPT,我当时还评论说这不就是增强版的小冰吗,朋友告诉我这次真的不一样,他们做 NLP 的都担心要失业了。
当然,做圈内人也有一个缺点,就是很容易像我一样,患上 imposter syndrome,感觉自己啥也改变不了,只能被浪推着走。其实这是一种速度的错觉,相对于岸边的人来说,被浪推着走已经很快了。
https://mp.weixin.qq.com/s/gtPTI2Cf2WwGUBcn_yc9uQ
国内foundation model startup top 3赶在年底集中交作业了 😂
Minimax的一个朋友说,智谱和Minimax的预期市值是Manus收购价的3倍,但他们的IPO新闻被Manus淹没了。朋友圈有不少技术同学看不起Manus,其实他们的运营能力非常值得学习,Monica上线一个月就达到100K DAU,Manus首发只花了不到20万美金就上了全球热搜。
不少大厂高P背景的技术大佬出来创业,很多想着先拿钱,组个豪华团队,再慢慢摸索商业模式。有些出来的动机其实是对大厂内斗厌烦了,想自己当老板,“烧大钱,办大事”。其实这样风险挺大的,容易陷入协和式飞机谬误,除非所做的事情技术壁垒极高、商业价值极大(比如foundation model)。
https://mp.weixin.qq.com/s/SBTaFv7Y5S2LBb2kB_g-8g
恭喜Peak和团队 👍 应该说整个2025年,AI圈的大新闻除了基座模型公司,就只有Manus了。在产品上,Manus开创了通用Agent人机交互方式的先河。在技术上,Manus是业界最早提出用file system做context engineering的。后面几个月,御三家的Agent也不能说没借鉴Manus的交互。从这个意义上讲,Manus已经完成了通用Agent行业先驱的历史使命,很多人普遍质疑的通用agent startup是否能在大厂竞争中胜出已经不重要。在烧钱大战中,被收购也是对Manus发展最好的一个选择。如果不背靠大树,跟大厂直接竞争的通用agent恐怕很难做到盈利。
我哥家小孩小学五年级,找我要一本签名版的《图解大模型》,说他自己那本被他们编程老师要去了,不还给他了 😂 他说他已经学了三年编程了,很喜欢写代码,每天放学之后都要在家写半个小时代码。现在的小孩都太强了!
感谢图灵图书赠阅《计算机程序设计艺术》卷4B(学计算机的不会有人不知道这是啥书吧?)发现我导师的工作Chaff被作为SAT部分很重要的算法C介绍了,是人名索引里为数不多的华人。感觉若干年后如果出一本AI的书,华人的比例应该会高不少。
这本500多页的厚书前260页是讲回溯编程和可满足性的,后面都是习题和答案。对有一定算法基础的读者来说,这本书其实读起来很有趣,有很多经典智力谜题,然后告诉你该如何用回溯法求解或者转化成SAT问题。书中的例题和习题都可以作为闲暇时的思维体操。要是读这本书不吃力的话,就像比尔盖茨所说,估计代码面试就不是问题了。
小喜讯!图灵来电,我翻译的这本《图解大模型》成为今年最受读者欢迎的大模型图书之一!感谢大家的喜欢和支持,为关注我的同学做个赠书,大家可以在我的知乎主页上的想法里( https://www.zhihu.com/pin/1987455739481067600 )(注意不是在长毛象,长毛象小编看不到),写写为何想获得这本书。本书的编辑会从留言中选出 5 位赠书,评论截止时间 12月30日12:00。
着急阅读的朋友,也可以京东自行购买。
关于这本书的特色:
1.【直观】300幅全彩插图,极致视觉化呈现
2.【全面】涵盖大模型原理、应用开发、优化
3.【实操】真实数据集,实用项目,典型场景
4.【热点】18幅图深度解读DeepSeek底层原理
5.【附赠】一键运行代码+大模型面试题200问
6.【视频】大量线上拓展资料,包括文章、视频
本书全程图解式讲解,通过大量全彩插图拆解概念,让读者真正告别学习大模型的枯燥和复杂。
全书分为三部分,依次介绍语言模型的原理、应用及优化。第一部分 理解语言模型(第1~3章),解析语言模型的核心概念,包括词元、嵌入向量及Transformer架构,帮助读者建立基础认知。第二部分 使用预训练语言模型(第4~9章),介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成及多模态扩展,提升模型的应用能力。第三部分 训练和微调语言模型(第10~12章),探讨大模型的训练与微调方法,包括嵌入模型的构建、分类任务的优化及生成式模型的微调,以适应特定需求。
本书适合对大模型感兴趣的开发者、研究人员和行业从业者。读者无须深度学习基础,只要会用Python,就可以通过本书深入理解大模型的原理并上手大模型应用开发。书中示例还可以一键在线运行,让学习过程更轻松。
最近好多人在share ChatGPT 2025 summary,我也把10月关于用户记忆的一个talk整理了下放出来。很遗憾的是ChatGPT,Claude和Gemini都只做了我这个三层次用户记忆需求里面最基础的层次(事实回忆),多会话推理和消岐、主动服务都没做。之前我们也联系过几家做user memory的公司,都说我们这个需求他们做不了,他们的客户只要做到ChatGPT的水平就够了。最后还是得自己做。
https://mp.weixin.qq.com/s/ChtlKOwQCeGcfxgV4NnqJQ
看到Science这篇paper,我上次坐飞机的时候恰好调研了我自己参加过的华罗庚金杯(小学数学竞赛)、NOI 2009(高中信息学竞赛)、Microsoft Research Asia PhD Fellowship三个非常有筛选性的获奖名单,发现:
21年前(2004)的第九届华杯赛(小学数学竞赛)金牌,现在大多数都搜不到了,当然可能这些人比较低调。
16年前(2009)的NOI金牌几乎全去了清华姚班,现在个个都是profile非常牛逼的大佬。银牌基本上也都是一搜profile都很强的大佬。一部分NOI大佬是从小开始编程,也有一部分是高中才开始但非常聪明一学就会的。
8年前(2017)的微软学者奖学金获得者跟NOI金牌虽然没有很大重合(因为NOI金牌大多出国了,而微软学者奖学金是在亚洲评选的),也个个都是profile亮瞎眼的大佬(我在里面算学术做的差的)。
为啥华杯赛这么有筛选性的数学竞赛,成才率没有NOI这么高?我有一个猜想,计算机是个实用学科,能力更容易转化成商业价值。
jyy老师的大作,太真实了!有太多句子想摘抄,不知道该抄哪句了 😂
jyy创立了南大《操作系统》这门经典课,实现了本科生自制CPU、操作系统、应用软件全栈,2024年被南大学生评为最喜爱的老师。非常有趣又geek。PhD期间是国内罕见的不在MSRA加持下能发软工顶会的。
从这篇文章里发现,竟然审稿人打电话的风气蔓延到了EuroSys,悲 😂
感觉很多像jyy和我这样的人,都希望人才密度高(不愿意跟傻子打交道,不愿意向上管理),做的事前沿、有意思,而且还有充分的学术和时间自由。但Gemini告诉我这个不可能三角基本上只有在垄断公司的research lab才有可能。jyy在的学校是2+3,我在的startup(以及各种frontier AI lab)是1+2。
问未来 5 年是 AGI 实现,还是像 .com bubble 一样破灭,其实没人能预测。2016 年 EVUS 系统设立的时候,美国 CBP 预测 2024 年将给中国公民签发 800 万张 B1/B2 签证(图 1 是当时的文件),但实际上只发了 60 万张。事实上,EVUS 政策执行的前一年(2015 年)是中美历史上发放签证最多的一年(见图2,我用我们自己的 computer use agent 查询官方公开的 excel 表,画出来的)!站在 2016 年,不管谁都很难预测到 COVID 和今天的中美关系。AGI 也是一样。所以不要想太多,干就是了!
虽然在往常的印象里加州是一个不下雨所以(看起来)干燥的地方,而西雅图,多伦多这些北方地区都临湖临海还老下雨。但每次在冬天从加州去这些地方,总会被干得脱皮,老难受了。这是因为湿度反直觉的一个特性:
很多人只知道相对湿度,就是常见的那个百分比,这个数字的意思是空气中的水分占当前温度下空气最大储水能力的多少。看起来是很合适的衡量湿度的数字。
然而空气的储水能力是和温度正相关的。热空气的储水能力远远大于冷的空气。也就是说,同样是80%湿度,热的空气会比冷的空气携带更多水分。
这就可以解释为什么冷的地方总是很干。即便刚下过雨或者空气中湿度达到了100%,可因为气温冷,空气很容易就达到了吸水能力的上限,它其实并没有携带多少水。把这样的一份空气加热,其相对湿度会迅速下降。通常在寒冷的地方开暖气后会觉得很干,这其实不是由于暖气导致的,而是空气本来就干。所以暖气要配合加湿器使用,只有空气热起来了才能携带让人舒适的水量。
有一个指标能衡量空气的绝对湿度,叫露点。露点越高,绝对湿度越高。它的单位也是温度,因为其定义为“当前空气在此温度时水分达到饱和”。露点不能超过气温。因为如果气温下降至与露点相同时,再继续下降就会“挤出”它携带的水分,也就是结露。此时露点也会跟着下降因为空气中的水分变少了。
加州沿海地区气候温和,由于海风的原因,即便不下雨,空气湿度也不低,露点远远高于那些北方城市,只要不被太阳暴晒就不会干。这也是为什么这里所谓“地中海气候”如此吸引人的原因之一。
https://mp.weixin.qq.com/s/bQKBNRojizxLK3MuBlfTdQ
非常启发性的工作!23年我们还讨论,要是哪天AI能独立开发文件系统就厉害了,我本科的时候三个同学结组开发一个实时文件系统(课程作业),搞了三个月,修bug修到吐。今天的SOTA模型独立开发文件系统,功能正确率也只有80%(这么多bug肯定是没法用的)。但用本文的方法,三个SOTA模型功能正确率都可以达到100%。
这篇paper的核心方法是先写spec(形式化规约),再写代码,然后再验证代码是否符合spec。这样就杜绝了代码越改越乱的问题。其实是文档驱动开发、测试驱动开发的升级版。我们用vibe coding的时候,也是建议先写文档和测试用例,再写代码,再跑测试、review代码。还可以review代码实现与公开的用户协议、隐私声明、开发者文档等是否一致。形式化spec相比自然语言的文档和测试用例表达力更强,但因为形式化spec学习和开发成本高,一直没有广泛使用。AI coding可以让这件事成为可能。
遇到了某“工业级”2TB SSD可能是预留空间太小,大量写入数百gb后掉速至不可使用的神奇情况。(一个io能卡死10秒)。
后来发现zfs不会主动trim,在要求zfs做trim后大概释放了一半的空间,然后问题就消失了。(所以zfs要定期trim)