感谢OpenAI的新user policy把降账单的市场给我们让出来啊!比如这种ICU抢救4小时19.5万美金账单,最后借助AI砍到3.3万美金的case,其实每天都在我们线上发生。看了这些case才知道小学课本上讲的资本主义的黑暗到底是怎么一回事。现在这种case发到ChatGPT,已经只给建议不给干了,因为10月29日更新的user policy明确了不做银行、保险、医疗、法律、移民等“高风险”领域。其实这些就是普通美国老百姓投诉无门的最黑的领域。
首届前沿人工智能系统研讨会(FAISys 2025)日程已经发布!网页版请见https://www.faisys.net/col.jsp?id=115
会议亮点抢先看:
🔸主题报告由文继荣教授带来关于自回归是否是唯一通往AGI的技术路线的思考;
🔸清华大学翟季冬教授、Pine AI联合创始人李博杰博士、港中深余旻晨教授、和蚂蚁金服Zhenyu Guo将分享各自领域内的重大挑战(grand challenges),神秘内容当场揭秘;
🔸arXiv严选session邀请到了Kimi-K2、MegaScale-Infer、Huawei CloudMatrix 384、StreamRL、ROLL等12个极具影响力的最近工作;
🔸会议还征集了9个原创学术报告,覆盖来自于字节、Kimi、华为、阿里、阶跃、微软等大厂以及北大、清华、上交、中科大、港大、港中文、港科大、NUS、KAUST、CMU等名校最前沿的研究进展。
FAISys’25费用仅港币550元,场地有限建议尽早注册。详情浏览FAISys’25注册网页https://www.faisys.net/col.jsp?id=113 。酒店以及交通信息请参考https://www.faisys.net/col.jsp?id=114 期待很快相聚在🇭🇰!
收到了朋友送的美版Plaud Note Pro,感觉录音质量比Limitless AI吊坠好多了,跟手机直接录的录音质量差不多,但苹果手机打电话不能录音,平时一直开录音也很麻烦。
Plaud Note Pro从产品设计上不是Always On的,是需要录音的时候开始,录完之后结束,结束之后等一会儿才能看到transcript和总结内容。transcript带有说话人识别。
相比Limitless AI吊坠,Plaud Note Pro的App明显更专业,UI更友好,而且支持多模态记录:录音过程中可以输入文字notes补充,也可以拍照。
下图是一个演示用ChatGPT Altas预定餐馆的例子,我一边演示,一边讲了几句话,过程中拍了4张照片,然后Plaud Note Pro生成了一个transcript和一篇总结。可以看到transcript里面专业名词有不少错误,估计是用传统ASR模型而非多模态模型生成的(hint:我自己现在已经不用whisper之类模型了,都是把录音放进Gemini 2.5 Pro去生成transcript)。生成的总结质量不错,综合考虑了多模态信息,只是准确性受到了ASR不准的影响。生成的思维导图里存在一些重复,质量不如飞书会议的AI总结。
要是Plaud / Limitless的实时性和总结质量能赶上飞书会议就好了。飞书会议的AI总结是实时的,会议进行过程中,会议内容的思维导图就实时更新出来了。会议结束后还能生成一篇可视化报告。
有些startup总说大厂喜欢抄,但也不看看自己的产品和大厂差距在哪。没有自己的模型,产品细节打磨也不行。就说前面演示的computer use,有几个startup做的效果比ChatGPT Altas好。这些都是模型和产品共同打磨的结果。
11月14-15日,首届前沿人工智能系统研讨会(FAISys’25)将会迎来两天精彩的program,覆盖来自于字节、Kimi、华为、阿里、阶跃、微软等大厂以及北大、清华、上交、中科大、港大、港中文、港科大、NUS、KAUST、CMU等名校最前沿的研究进展,包括了RL系统与基础设施、推理系统、超节点、云上服务化部署等大家普遍关注的方向。其中FAISys独特的arXiv严选session邀请到了Kimi-K2、MegaScale-Infer、CloudMatrix 384、StreamRL、ROLL等极具影响力的工作,期望能够为参会者带来一场深度与广度兼具的学术盛宴。
我也会在 FAISys'25 做一个 invited talk,分享一些 agent 系统领域的前沿挑战和方向探索。
还在犹豫是否参加FAISys’25吗?现在就可以注册,费用仅港币550元,场地有限因此建议尽早注册。
会议时间:11月14,15日
会议地点:香港中文大学郑裕彤楼209室
官网:https://www.faisys.net/
https://01.me/2025/10/agent-continual-learning/
1024程序员节,vibe writing(口述+整理)写了一篇随笔:《Agent持续学习的困境:为什么Reasoner不是真正的Agent?》
第一,小世界假设的迷思:我们是否真的相信,一个足够大的模型能够掌握世界上所有重要知识,从此不需要学习?还是说,现实世界符合大世界假设——无论模型多大,在具体场景中仍需要不断学习?
第二,持续学习的缺失:当前的 model-free RL 方法(PPO、GRPO 等)只从稀疏的 reward 学习,无法利用环境给出的丰富反馈。这导致 Agent 在现实世界任务中样本效率极低,难以快速适应。
第三,Reasoner 与 Agent 的鸿沟:OpenAI 将 AI 能力分为五级,从 Chatbot 到 Reasoner 再到 Agent。但很多人误以为,把单轮 Reasoner 变成多轮就是 Agent。真正的 Agent 与 Reasoner 的核心区别在于:持续学习能力。
Pine AI招聘实习和全职前端工程师,感兴趣的朋友欢迎给我(boj@19pine.ai)投递简历啊!(欢迎转发)
主要职责
1.参与 Web 应用的设计与开发,包括响应式布局、交互功能实现和性能优化。
2.协助项目文档编写、bug 修复,以及用户体验改进。
3.跟踪前端技术趋势,并应用到实际项目中。
任职要求
技术基础:熟悉 Web 开发的完整流程,具备专业的 HTML、JavaScript、CSS 和 Node.js 知识,并有计算机相关专业的基础(如数据结构、算法等)。
框架经验:熟练掌握至少一种前端框架和一种后端框架(不限语言)。
AI 工具应用:善于使用 AI 工具来提升工作效率,辅助编程、解决问题或学习新技能。
协作工具:了解 Git 等版本管理工具、前端包管理工具,以及敏捷开发的项目协作流程。
软技能:良好的沟通能力和团队合作精神,强烈的责任心和问题解决能力;英语阅读能力良好,能阅读技术文档。
加分项
个人项目:有自己持续维护的技术项目(不限领域),展示自己的实践能力和持续学习意愿。
进阶知识:了解服务端渲染(SSR)、SEO 优化、Web 性能调优等知识。
设计经验:有基础的平面设计经验及美感,能使用工具如 Figma 辅助 UI 设计。
AI 相关知识:熟悉 LLM 领域相关知识,有一定的 AI Agent 开发经验。
英语能力:英文沟通能力良好,能够和海外团队进行协作。
最近在玩AReaL,真是一个不错的框架。发现吴翼大神的一篇回答,吴翼是我们那届NOI的金牌大佬,写的很真实,让我很有共鸣呀!
https://mp.weixin.qq.com/s/_LlK7hK7vjKYxKJQPn6t8w
非常好的文章!上下文是模型和应用之间的边界和接口规约。Sub-Agent应该共享上下文还是传递参数,就像计算机里面经典的共享内存和消息传递两种范式,Go语言这个比喻很好。
关于要不要训练模型,如果你的公司找到了一个通用LLM目前还做不好,但用较小成本就能训出很好效果的领域,那真的是走运。我选voice agent这个领域就是这么思考的,另外一个类似的领域是世界模型和VLA。但大多数agent,特别是通用agent,是很难靠模型构建护城河的,连Cursor都已经放弃了apply diff等自研模型(只保留了tab补全模型)。
The Thinking Machine那么多大佬,也不敢说搞AGI,而是“屈尊”做了火山引擎的事情,帮客户做模型后训练。这种面向行业的后训练是有价值的,因为TSMC/ASML的关键信息肯定不会出现在通用LLM中。在Qwen 32B上加一点SFT数据,再RL一把,只要一万美金,小领域的能力蹭蹭就上去了,当然要同时学多个领域的任务是很难的,泛化也很难。
这意味着如果基础模型能力持续上升,甚至达到AGI,就芯片和模型厂商吃肉,应用厂商喝汤;如果基础模型能力进入平台期,模型溢价降低甚至开源,喝汤的就是模型厂商了。
谁给我寄了三本《图解大模型》啊,出版社说不是他们寄的 😂 出版社说这书已经卖出去一万本了 😂 前几天在《半导体行业观察》公众号发表的UB文章也上千转发了,据说引起了不小反响。其实那篇文章就是我口述了两个小时,把录音上传到Gemini 2.5 Pro多模态模型,让Gemini帮我整理成一篇文章,再在Cursor里根据协议文档的截图,让Claude 4.5 Sonnet补充了一些细节内容,最后手动修改其中的错误。全文3万字一共花了6个小时。
https://mp.weixin.qq.com/s/2u47eHAsFX5j5wC5boezjQ
节前写的《Unified Bus背后的思考》,现在终于发出来了。非常荣幸有机会参与构建这个世界top 3的网络互联生态系统(另外两个是NVIDIA和Google TPU),今天回看下来,这些设计仍然不过时,而且还挺领先的。UB是个通用设计,并不是仅仅为LLM训练推理定制的,因此其中有很多对通信协议乃至分布式并行计算系统应该如何设计的思考。
感谢图灵送的《判定过程—SAT与SMT求解算法》,这是SAT算法领域的一本经典教材,很高兴看到第二版中文版出版。
我导师张霖涛老师读博士期间的工作构成了第二章(命题逻辑的判定过程)的主要骨架。今天大多数SAT求解器背后都用了霖涛老师改进的CDCL算法。难怪他说,去普林斯顿访问的时候,看到图书馆里他的博士论文,就感觉很有成就感。我的博士研究水平差远了,霖涛老师的Chaff单篇引用量5000+,我的单篇只有300+。
形式化方法总是曲高和寡。我在华为内部讲Polyhedral Compilation的时候,有人说只能听懂第一页讲Presburger是个在犹太大屠杀中英年早逝的天才。到了F-M elimination那一页,就几乎没人能听懂了。AKG的论文发表了4年,主流深度学习编译器里用Polyhedral Compilation的似乎还只有华为一家(如果说错了,欢迎纠正)。其他家似乎更愿意折腾一些ad-hoc的循环变换技巧,殊不知这些技巧都是在isl的解空间里面的。
我问了问LLM,现在的SOTA LLM至少是可以回答出这些基本概念的,也能看懂isl代码。所以我对AGI的信仰更坚定了。能够成为AGI的引导程序(马斯克语),是我的荣幸。
昨天参加阶跃星辰Step Audio 2的活动,有很多收获!Step Audio 2挺厉害的,端到端语音理解能力很强 👍
Yibo大神SIGCOMM 2015的DCQCN获得Test-of-Time Award背后的故事,非常值得学习!Yibo大神也在我学LLM的过程中纠正过我好多错误,非常感谢指导。
说到实习,DeepSeek几个重要工作的背后实习生都做出了很多贡献。在优秀的地方实习或者研究,可以学会好的科研方法论(解决具体问题的效率更高),更重要的是形成好的研究品味(什么问题更重要、什么方法更有长远价值),近距离接触一批高手。没有在这种环境中训练过的人,一说要做SOTA水平,可能就会退缩,或者觉得这是在画饼,跟自己没什么关系。MSR之所以能做出很多DCQCN这种领先好几年的工作,除了人,还有一个关键是微软有这种业务需求,而其他地方基本上没这个需求。有足够挑战的业务需求,有一批经过系统训练又努力的高手,是能做出好成果的必要条件。
https://zhuanlan.zhihu.com/p/1949418760793482392?share_code=rnvhrU0BMqLd&utm_psn=1952815061082019822
帮少卿大佬发个招生广告 😄
少卿大佬最近刚入职中科大。现受学校指示,紧急启动招生。
任少卿,曾任Momenta联合创始人、蔚来汽车副总裁,07级中科大本硕博(微软亚洲研究院联合培养),ResNet 和Faster R-CNN作者。学术高被引超44万,是全球中国籍学者高被引第一。ResNet也是21世纪全球最高被引论文。获未来科学大奖-数学与计算机科学奖。
招生方向:AGI,世界模型,具身智能,AI4S等。
请感兴趣咨询报考任少卿老师硕士、博士的学生,以及有意向提前进组开展科研实验的学生,发送简历至任老师邮箱:sqren@ustc.edu.cn
⭐️Last call:请【具有推免资格】的学生,【参加22号周一,在东校区组织的 紧急面试】。
面试详情和问题咨询,请联系任老师邮箱,尽量问题高效精炼。