boj
boj@c7.io

感觉离开 San Diego 早了,就在 NeurIPS 会场呆了两天,一大堆人问我还在不在会场 😂 在 Las Vegas Re:Invent 也就呆了两天,一堆人问我在不在会场 😂 还有朋友专程从 Irvine 开车过来 San Diego 见我 😂 抱歉接下来都在湾区了,可以在湾区约~

December 05, 2025
boj
boj@c7.io

逛 poster 的时候我跟一个朋友聊 AGI 对人类的影响。他指着这些没有人 present 的 poster 说,AGI 可能加剧这种问题。(图1这些没有人 present 的 poster 都是因为签证问题)San Diego 会议中心的风景这么好,每个人都想在这里生活、工作,但是参加 NeurIPS 的 2 万人不可能都住在海边,还有很多连 “Adam 是谁” 都不知道的人。
​传统自由市场经济模型中,货币可以作为一般等价物,但如果 AGI 来了,分配机制可能发生剧变。
在供给侧,工业革命之后人类从体力劳动转向脑力劳动,而如果 AGI 把大多数脑力劳动取代了(今天的 AI 只是补充,未来的 AGI 是替代),人类可以创造的就只有情绪价值了(这包括面对面沟通、体育比赛等),工业品、软件、标准服务的边际成本将趋近于零。而有限的海岸线(位置)、顶级物理体验(奥运会现场)和真人的时间和关注(情绪价值)是供给侧的刚性瓶颈。
​这可能导致经济出现双轨制,接近零边际成本的工业品通过 UBI(全民基本收入)维持系统运转,而刚性供给的稀缺资源可能回到之前凭票供应的时代,从价格优先退化为身份优先。
事实上,这件事已经在发生了,Kimi 的估值只是 OpenAI 的 1%,做同一件事的中国公司和硅谷公司估值可以相差 10 倍。
​甚至社会可能出现某种信息茧房,让大多数人不知道这些稀缺资源的存在。比如我之前跟一个朋友说,坐在 La Jolla Cove 一边看海边落日一边写代码很舒服,他说这有什么好看的。今天他来 NeruIPS 开会,在三层阳台讨论(图2-3),终于知道我为什么这么说了。昨天一个朋友说,抖音的推荐算法能做到不同用户看到的完全是不同的世界,这是顺人性的。今天的 LLM 还是统一的价值观对齐,但未来,顺人性的,个性化的 AI 一定会吸引更多用户,这也会导致信息茧房变得更厚重。
​我说,AGI 真的会导致更厚的地缘围墙吗,现在硅谷开发出一个 AI 模型,中国公司 6 个月就可以蒸馏出 70%-80% 的能力,这样差距始终在一年内。他说,这是因为现在的模型距离 AGI 还比较远,还有 continual learning 等很多基础问题没解决,看不到简单 scale 就能达到 AGI 的清晰路径。一旦 AGI 有了清晰技术路线,这将从商业问题变成国家安全问题,届时模型 API 不可能开放给你蒸馏。就像二战期间美国的核物理学家发现链式反应的可能性后,集体选择了主动消声(图4是爱因斯坦给罗斯福提议启动曼哈顿计划的信,我摄于 Las Vegas 的 Atomic Museum)。

December 05, 2025
boj
boj@c7.io

2万人的 NeurIPS 真的是超级大会,我刚到会场的时候有人问我在哪,我说在一个超级大的大厅里面,他说这是今天听到最没有信息量的一句话 😂
keynote 的大厅是图1这样的,还有很多 talk 厅,poster 厅和聊天的地方。会场有个非常长的阳台供人聊天,view 非常不错(图 3-4),就是太大了不好找人(朋友发现用 Google Maps 卫星图找人是最方便的)。现场还有海报墙和签名墙,有兴趣的可以找找 Pine AI 在哪里 😂 展厅里有大量 AI 公司和来招人的量化公司,可以薅不少小礼品。Gemini 一个展台周围就围成了图2这样。跟很多人聊,都感觉基模里面 Gemini 的优势很大。比如我们的 voice agent 目前只有 Gemini 可能在技术上构成威胁。
会场外 Midjourney 还搞了个车发放免费的冰淇淋和画册(图7,图8)。

December 05, 2025
boj
boj@c7.io

很高兴看到 4B 模型也能在 Android GUI 任务上达到 SOTA 性能了!如果我们只需要考虑头部应用,小模型是挺合适的。小模型可以很快,成本也可以很低。小模型可以实现接近人类的延迟,而无需硬编码 RPA 程序。即使小模型的泛化能力有限,但对于常用 app 和网站来说,也已经很实用了!
https://mp.weixin.qq.com/s/jn3N25nj0ma5-WMLF1xBhg

November 30, 2025
boj shared a status by snullp
大松鼠
snullp@c7.io

RE: https://c7.io/@snullp/115618731200733871

关于pfSense的一个小细节(其他网关应该也一样):对于有状态的连接,规则匹配策略严格遵循握手时的方向,之后这个连接的所有数据包都匹配相同的规则,无论方向如何。
当规则包含Limiter等高级设置时,事情就变得有趣了。举个例子:你想用Limiter限制某个本地IP(比如在pfSense的LAN子网下)的下载速度,而下载连接是由这个IP发起的,连接到外部服务器。
那么你需要为LAN接口(而不是WAN)设置规则,将要限制的IP放在Source字段(!),并将Limiter应用到Out方向。
解释:握手方向实际上是从这个IP到外部服务器,所以这个连接的所有数据包在匹配规则时都应用握手时的方向(source为本地IP,target为外部服务器)。即使实际的下载数据包是从外部服务器发送到这个IP的。这有点违反直觉。
关于Limiter方向,这是因为下载数据包离开pfSense发送到这个IP,所以是out方向。
同样,如果这个IP向外网开放了端口,连接是由外部发起的,那么从外部发送到此IP的数据包则不受上述Limiter限制,尽管在两种情况下数据都是从外部发送到这个IP的。

#netops

November 27, 2025
boj
boj@c7.io

感谢出版社赠阅刚出版的香农《通信的数学理论》中译本。这本书不仅是现代通信理论的奠基之作,更是今天LLM的思想起源。在1948年这篇划时代的论文中,香农把通信定义为从一系列可能的消息中选择一个消息的过程。消息是根据某种概率分布,基于随机过程生成的一个符号序列。这篇论文提出了一个思想实验:根据前面的字母预测下一个字母,这就是今天的next-token prediction。论文也提出,使用更好的模型建模这个文本生成的随机过程,就可以输出更类似英文的文本。今天训练模型时所谓的loss,也就是交叉熵,就是使用我们的模型编码信息所需的平均比特数,也就是文本使用这个LLM作为压缩算法时的压缩率。今天LLM的困惑度(perplexity)跟香农所提的熵是一回事,比如LLM说困惑度是20,那就是要掷一个20面的骰子才能选出下一个token。这就是我第一次看到next-token prediction的时候感受到它的优雅之处,跟信息压缩是紧密相连的。重温经典,感受大师的非凡洞见。

November 28, 2025
boj
boj@c7.io

刚刚我在规划行程,亲爱的一直不让我从书房出来,我以为亲爱的在装神弄鬼呢,结果给我了一个惊喜!太开心了!

November 26, 2025
boj
boj@c7.io

https://mp.weixin.qq.com/s/MAr50qlL2-LEWIb7JgIs7Q

上午好几个朋友跟我说Ilya讲的东西好像跟我在FAISys讲的Agent持续学习一样,我赶紧去听了听,其实很多观点也不是我发明的,已经是well known的了。

去年11月,好几家公司复现了o1的推理能力,但业内普遍认为DeepSeek R1 Lite Preview是最接近o1做法的。今年一整年的RL热潮基本都是在follow DeepSeek R1的范式,必须是reward清晰的RLVR task。直到今天,看起来样本效率更高的PRM还是没有work,reward难以定义的场景就更难搞了。

今年5月我尝试在公司的workload上做了做SFT + RL,发现RL样本效率太低了,样本效率远远不如知识库,在我们的场景下,总不能打1000个客服电话才学会要信用卡后四位。但有些难以用语言表达的东西又没法学进知识库,只能学进参数里。此外长上下文的KV Cache不会自动总结提炼知识的问题也很讨厌。因此今年6月开始我就一直在讲Agent从经验中学习,要综合利用context engineering、externalized learning(knowledge base + tool generation)、gradient descent(SFT + RL)来提升Agent在领域内的能力,实现样本高效的持续学习。

最近一个月,Richard Sutton、Andrej Karpathy、Ilya Suskever连续几个访谈,都指向了Agent持续学习问题。不少人对这个问题不以为然,好像只要把math、coding、deep research、computer use四大榜单刷上去,就快达到AGI了。这背后是小世界假设,认为一个模型可以囊括世界的所有知识。很多只在基座模型上“套壳”的Agent公司也是这么想的。但我更相信大世界假设,模型必须要有适应环境的能力,能从环境中快速学习知识,就像Ilya所说的像一个15岁的聪明少年。Ilya提出的方法是emotions-like value function,Sutton提出的方法是world model。

期待下一个DeepSeek R1级别的工作能提出一套通用、优雅的continual learning方法,达到目前用context engineering、memory、knowledge base、SFT/RL等大量工程方法揉在一起的样本效率,这就真的离AGI更近一步了。

November 26, 2025
boj
boj@c7.io

很荣幸给刚出版的《白话AI安全—32个故事带你读懂AI的攻防博弈》写推荐语:
随着 AGI 的脚步临近,AI 安全已经成为人类面临的最大挑战。是否能保证超级智能始终遵从人类价值观,服从人类的合理命令,将决定人类文明的命运。本书用通俗易懂的对话故事的形式,生动形象、深入浅出地系统介绍了 AI 面临的安全挑战和 AI 攻防实战。即使没有AI基础的读者,也能轻松理解看起来很深奥的AI安全问题、攻击和防御手段,进而防御和规避AI安全风险。
Note:虽然这本书看起来像科普书,但内容并不浅,很多大模型从业者也未必知道所有这些安全问题。例如图4-8中的数据泄露、数据投毒、老奶奶漏洞、对抗样本、软件供应链后门、隐私过度采集等,都是经典问题。

November 25, 2025
boj
boj@c7.io

12.1-12.13在美国,前几天在Las Vegas开re:invent,后面都在湾区,小伙伴们可以约起来啊 😂

November 25, 2025
boj
boj@c7.io

东航把我丢了的行李找到了 😂 因为pine没有在中国运营,昨天晚上发现丢了之后,我就学着pine的办事方法打东航、首都机场的客服电话投诉,同时还在东航小程序上填了报失登记。上午9:30接到东航的电话,说东西刚刚找到了,然后我就去机场失物招领处拿回来了。有趣的是机场失物招领处昨天晚上并没有真的登记我的需求,我去的时候,一开始说没有找到,后来发现是东航登记了但机场没登记。感觉做了pine这个事情,自己也好像通过模仿学习提升了办事能力,不管是帮朋友办事还是自己办事,都能想到该联系谁,以及一些可能的坑。(我在内部分析bad case的时候,最经常问的就是,如果人办,应该怎么办?)

November 23, 2025