匠物志 – 匠人、匠心、匠物

2026年3月8日

GPU时代落幕？硅谷巨头集体「叛逃」，英伟达1500亿疯狂自救

再过两周，黄仁勋将站上GTC 2026的舞台。

他提前放了话：「我们准备了几款世界上前所未见的全新芯片。」

底气来自一份炸裂的成绩单——

英伟达2026财年年收入2159亿美元，净利润翻倍，数据中心业务三年翻了13倍。

在财报电话会上，CFO直接甩出一个数字：客户已经部署了9吉瓦的Blackwell基础设施！

但诡异的一幕出现了。

财报发布当晚，英伟达盘后一度涨超4%。随后股价悄然转跌，次日直接低开低走，收跌5.46%，一夜蒸发数千亿美元市值。

华尔街不是看不懂数字，是看懂了趋势。

前有Anthropic甩出210亿美元订单，全面采购基于谷歌TPU的算力系统；后有Meta跟谷歌签下数十亿美元芯片大单，大规模租用TPU训练模型。

为了给编程带来接近实时的响应体验，OpenAI更是历史上首次将主力级产品GPT-5.3-Codex-Spark，部署在了更低延迟与更低能耗的非GPU芯片Cerebras上。

英伟达最大的几个客户，正在集体分散筹码。

全球AI芯片中GPU架构和非GPU架构比例（数据来源：高盛全球投资研究部）

根据摩根大通的产能报告，谷歌计划在2027年部署600至700万颗TPU，大部分供给Anthropic、OpenAI、Meta和苹果等外部客户。

高盛投资研究部的模型显示，全球AI服务器中非GPU芯片出货占比，将从2024年的36%升至2027年的45%。

类似的，IDC也预测，到2028年，中国非GPU服务器市场规模占比将逼近50%。
GPU的致命短板

一个更深层的转折正在发生：AI的竞争焦点，正从单纯的算力规模，转向对能效比与延迟的极致追求。

过去拼谁卡多、谁集群大。

现在拼的是，同样花一块钱，谁能吐出更多Token。

「每美元产生的Token数」正在取代峰值算力，成为衡量芯片商业价值的核心指标。

究其原因在于，GPU的架构决定了，每次计算时数据都要在外部显存和计算单元之间来回搬运。

路径长、次数多，能耗就高、延迟就大。堆更多卡解决不了这个问题。

路透社爆料，OpenAI已多次表达对英伟达芯片的「不满」——响应速度没达预期，在代码生成产品Codex上感受尤为明显。

压力迫使英伟达这条「巨龙」寻求改变。

图灵奖得主David Patterson教授在最新研究中指出，大模型每次token生成都绕不开数据搬运，而搬运能耗远高于计算本身。

未来的核心命题是「让数据离计算更近」。

为此，他给出了三个AI芯片的演进方向：近内存处理、3D堆叠、低延迟互连。

实际上，这些都指向同一件事——用架构创新降低数据搬运的能耗和延迟。

换句话说就是，谁能用更低的能耗、更低的延迟跑通下一代模型，谁就能在未来十年的算力牌桌上占得先机。
谷歌TPU杀向商用市场

一直以来，谷歌TPU专供自家大模型训练和推理，外人用不到。

去年开始，谷歌把TPU推向了商用。

订单随即涌入。

博通CEO透露，Anthropic下了210亿美元的大单；Meta签下数十亿美元TPU租赁协议；潜在客户还包括苹果和已与SpaceX合并的xAI。

原因不难理解。大模型进入规模化落地阶段，算力需求爆发、成本压力加剧，单一依赖GPU的瓶颈越来越明显。而谷歌TPU的性能，已经具备与顶级GPU分庭抗礼的实力。

2025年推出的第七代TPU，是谷歌迄今为止性能最高、可扩展性最强的AI芯片——

单芯片峰值算力4614 TFLOPS（FP8精度），最大集群9216颗芯片、总算力达42.5 EFLOPS。

划重点：TPU v7在同等算力输出下功耗仅为英伟达B200的40%至50%。

不仅如此，谷歌自研的光电路交换机（OCS）技术，还让万卡级集群实现近乎线性的加速比。相比之下，传统GPU集群规模越大，通信损耗越严重；而TPU集群基本不吃这个亏。

Google TPU v5e、v5p、v6、v7芯片关键性能对比

谷歌TPU崛起还有更为直接的例证：在TPU上训练的Gemini 3，在多个权威基准测试中位居榜首，为业界顶尖模型之一。

回到成本账上。

TPU凭借AI专用架构带来的2-4倍能效优势，将大模型推理的综合成本相比GPU拉低50%以上。而这正是Anthropic、Meta们用订单投票的根本逻辑。

当下，大多数大模型企业已经在用TPU+GPU的组合来缓解成本压力。

去年11月，半导体研究机构SemiAnalysis对比大模型公司的采购成本后发现：与OpenAI相比，同时使用TPU与GPU的Anthropic，在与英伟达谈判时拥有更强的议价权。

手里有TPU，就多了一张跟老黄讨价还价的牌。未来头部AI公司大概率都会走「多芯片并行」路线。

OpenAI与Anthropic购买算力的成本对比

性能跨越式提升，顶尖大模型规模化验证，头部公司主动布局——TPU已从算力产业的补充路线，升级为主流路线。

英伟达一家独大的格局，正在被改写。

十年磨一剑「TPU之父」要造下一代AI芯片

2025年底，英伟达斥资200亿美元，拿下AI芯片创企Groq的核心技术和团队。

这是英伟达史上最大的一笔交易，溢价近三倍。

Groq创始人Jonathan Ross，被称为「TPU之父」，谷歌TPU的核心设计者之一。离开谷歌后，他创立Groq的目标很明确：做一颗超越谷歌TPU的芯片。

两者的差异在架构。

谷歌TPU走的是「固定架构+集群扩展」路线。

其中，芯片内部搭载固定计算单元，依托二维数据流运算；芯片间通过3D Torus拓扑实现高效互联。架构稳定，但灵活性有限。

谷歌TPU架构

Groq的TSP（Tensor Streaming Processor）则是一种「软件定义硬件」的数据流处理器。

其核心理念是，通过构建可重构的软硬件系统，在保持可编程性的同时，达到接近ASIC的极致性能。

具体来说，芯片内部做了功能切片化微架构设计，配合软件层的灵活配置，可根据不同任务实时调整计算逻辑和数据流路径。

同时，依托大容量片上SRAM及静态调度机制，显著提升了数据访存效率并降低搬运能耗。

美国DARPA「电子复兴计划」（ERI）高度看好「软件定义硬件」方向，将其列为国家级战略核心。这也是Groq被称为「高阶TPU」的原因。

数据显示，在相同推理任务中，Groq芯片首token延迟比谷歌TPU v7降低20%至50%，每token成本降低10%至30%。
这场芯片革命，才刚开始加速

Groq被收编，但「高阶TPU」的进化没停。

国内清微智能、海外Cerebras等公司正在高效数据流动态配置和先进集成方式上持续突破。

1. 通过3D Chiplet技术构建三维立体数据流架构。

具体来说，「计算核心+3D DRAM芯粒」的组合在垂直与水平两个维度上形成了高效的数据流计算模式，突破了传统二维架构的效率局限。

三维架构可以依据计算任务的需求和数据特性，在两个维度上灵活调度数据流，最大化缩短传输路径，降低搬运过程中的延迟与能耗，从而进一步提升整体计算效率。

2. 依托算力网格技术构建灵活数据流计算范式。

传统固定组网存在扩展性和语义适配瓶颈。而算力网格技术则可以通过灵活组网，实现Scale up与Scale out的协同。

根据AI任务特性，系统能实时下发数据流的动态配置信息，在多种互联拓扑结构间灵活切换、精准调度。最终降低互联延迟，充分释放数据流架构的算力。

3. 通过前沿的晶圆级芯片技术，将数据流架构的优势发挥到极致。

这项技术将数据流架构从芯片尺度扩展到整片晶圆。

在整张晶圆上高密度集成大量计算核心，计算核心间的互联距离被极大缩短。带来的结果是，互联带宽实现数量级提升，通信延迟大幅降低。

数据流架构的算力规模与计算效能由此被推到极致。这也是为什么晶圆级芯片被视为数据流计算架构的理想物理载体。

以Cerebras为例。

数据显示，Cerebras CS 3系统推理性能比英伟达旗舰DGX B200快21倍，成本与功耗均降低三分之一，在算力、成本、能效上展现出显著的综合优势。

在实测中，OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度，让代码编写第一次有了实时交互的体验。

Cerebras CS-3 vs英伟达GPU：大模型推理速度对比
GPU独霸的时代，回不去了

谷歌TPU走出围墙，OpenAI拥抱晶圆级芯片，英伟达天价收编Groq。

这些信号均指向同一个方向：

算力世界的单极格局正在松动。

定义下一代AI上限的，不再是单纯的算力规模，而是能耗、延迟、确定性共同构成的AI新标尺。

对于国产芯片而言，这是窗口，也是分水岭。简单复刻只能分得残羹，唯有在底层架构上走出自己的创新之路，才有资格进入下一轮博弈。

2025年2月13日

我命由我不由天小哪吒AI手办上线

支持DeepSeek AI
自由对话交流
协助爸爸妈妈与孩子交流、好习惯养成
作业、知识答疑
讲课、预习、复习、练习
哪吒、敖丙电影原声

更多详情和形象定制见 AI机器人小奥

2024年12月9日

垂直农业能解决粮食危机吗

●垂直农业是在垂直堆叠层面、垂直倾斜的表面，或在摩天大楼、二手仓库或运输集装箱中种植农作物。

想象一下，你面前这盘蔬菜并非来自田间地头双手沾满泥土的农民，而是在金属与塑料构筑的垂直农业高塔中生长出来的科技结晶，你会是什么反应？

2018年在柏林时，我被当地超市里两三米高、5至6层不等的垂直农业生长柜深深吸引：它们形似超市的冷鲜柜，但坚硬光滑的玻璃壁橱内却没有任何花哨的食物包装，而是冒着幽幽的紫光。

大大小小的香草从每一层的塑料面板之间冒出头来，在冷柜内部的气流循环中身型笔挺地簌簌发抖。偶有像是工作人员的年轻人爬上梯架，把冷柜里成熟的植物摘择出来，整理放置在货架上。

本着朴素的好奇心，我开始了在一家垂直农业公司的实习。

一、“可控”的农业

●公司当天采摘的新鲜香草成了为餐桌贡献味觉层次的常驻点缀，也是拜访朋友时最顺手的伴手礼。

刚刚入职的那一年，我像海绵一样吸收着新鲜的讯息和知识，在生产车间、工房、实验室和自己的工位之间打转，渐渐地了解了什么是垂直农业，以及工业设计师在这个系统中的职责。

垂直农业一般使用无土栽培，常见有水培（Hydroponics）和气培（Aeroponics）两种方式，将肥料、氧气以及其他植物生长需要的元素按照配方注入水中，借助水泵发力，把营养液纵向输送到垂直结构的各个层面。

垂直农业设施则有半封闭和全封闭之分，前者依然会把太阳光照引入其植被的生长环境；后者则是在完全封闭的非自然空间，植物仅仅通过人造光进行光合作用，以实现对植物生长环境种种参数的精准调配。

我所在的公司主营水培全封闭多层结构式的生长柜，也是对技术要求最高、调控最精确的一类。

在传统的露地种植中，农民依靠经验和感知与大自然协作来培育作物。而在全封闭的水培生长柜中，植物生长环境的参数是完全量化的，各部门仅仅通过数字来交流彼此的需求：植物科学家给出他们需要的具体参数，工程师和设计师以此为基准，设计并满足这些参数的照明设备、灌溉系统、通风系统等硬件环境。

举个例子，垂直农业生长柜里的作物必须嵌在基底（substrate）中，基底无法自行漂浮在水面上，因此需要我们为其设计托盘和大小合适的凹孔。

●生长柜中的植物根茎处扎连着一根形状规整成柱体状的湿润土质基底（substrate），被细细的根须缠绕篡紧。

凹孔在对植物根须起到包裹保护作用的同时，又要留有容纳根须生长的余裕。它既不能太过狭窄，以便保证根须旺盛的植物在收割时能轻松地连根拔起；也不能过于宽松，否则光线的渗透会引起绿藻泛滥、与植物争夺营养。

为了追求完美的的几何型态，我每天蹲守在工房3D打印机前打印模型、测试基底契合度、修改模型、再重新打印模型……如此循环往复，在打火机大小的尺度里调整着每个切面的尺寸，在0.1毫米与0.11毫米之间徘徊。

我不禁感慨：自然环境中生长的作物，恐怕不需要这么精细的“伺候”吧？

二、垂直农业：省事还是费事？

垂直农业不占用土地就能生产食物的“奇迹”叙事，实际上建立在一系列复杂且麻烦的流程之上。

垂直农业公司不光为零售商提供种植技术、硬件，还提供操作机器的人工。因此，提高机器的易用性、降低操作时的人工时长，就成了降低成本的关键。

为了把各环节的时间和人力成本压缩到最低，一些看似简单的维护超市水培柜的末端流程，如收割叶菜、包装、维护清理货架、记录收成健康状态、清洁生长柜、移栽幼苗等，也必须依靠垂直农业公司提供的手册指南。

这一指南的撰写和完善则来自设计师们对“农夫”（操作和维护水培柜的工作人员，行业简称farmer）无数次上机操作的跟踪。

我们对farmer的记录会用于分析每个步骤精确到分钟所花费的时间。基于这些观察与分析，再优化生长柜里硬件的排列和设计、增加操作流程中所需要的辅助工具、调整不同操作流程之间的步骤顺序，提升每一个人机交互的界面的易用性，尽可能地把生长柜所需的人工维护时间缩减到最低。

是不是像极了大卫·格雷伯在《毫无意义的工作》中描述的跟踪工人考评绩效的白领人员？

●人类学家大卫·格雷伯的著作《毫无意义的工作》（Bullshit Jobs，台版书名直译为《狗屁工作》）。

只不过我们手里拿的不是本本和表格，而是GoPro，影子一般地跟踪操作生长柜的工作人员，不加任何干涉地记录他们工作中的每个步骤、每个动作和每个失误。

三、为什么垂直农业不能解决全球粮食危机？

行业内常常听到这种说辞：在全球人口增长、气候变化进程加速的背景下，适宜农耕的土地资源逐渐减少，更大范围的粮食危机已依稀可见。因此，制造一个内部环境完全可控的的垂直农业也许会成为保障粮食安全的优先选项。

然而，每当垂直农业作为解决未来粮食危机的潜在选项被提出时，都不得不面对这个令人尴尬的问题，即适用于垂直农业系统的作物种类其实非常有限。

首先，规模化生产的机器很难照顾到不同作物植株的需求。

垂直农业的生长柜的层高往往取常种植作物的中间值，高于或者矮于这个的生长区间的作物都会被排除在外。在大型生长柜中，也很难针对某些单元区域的生长参数进行定点调控，一些品种特殊的小批量订单会成为烫手山芋。

除了种植和收割，收成的后期处理（post production）也是人力成本较高的一个步骤。不同的农产品的处理和分拣包装方式不同，减少作物的品种往往成为简化人工流程最简单直接的方式。

最重要的是，商用垂直农业公司目前还只能通过沙拉菜、香草，或是水分含量较高的西红柿、黄瓜、辣椒等农产品获利，因为这些作物耗能小，空间需求小，生长周期短，技术挑战较低，市场价值也较高；而无法通过种植含高蛋白、碳水化合物或者脂肪的粮食作物获益。

去年，德国垂直农业初创公司infarm倒是在埃及的COP27峰会上公布了在他们的垂直农业设施中成功种植小麦的实验结果。

该公司创始人在一份公开声明中表示：“第一轮试验结果表现杰出，预计每平方米年产量将达到11.7公斤（相当于亩产7800公斤）。若扩大规模，则相当于每公顷年产117吨，是露天种植产量的26倍。”

infarm并没有公开他们在实验中的耗能数据。但是根据公共艺术项目http://DISNOVATION.ORG的测算，在封闭环境中种植1平方米小麦，所需的能耗和外部营养物质等“真实成本估算”高达每公斤小麦200欧元（约1547元人民币），相当于当时欧洲小麦市价的一千多倍。

●DISNOVATION.ORG是一个艺术与科学结合的创作共同体，于2020年发起了公共艺术项目Life Support System：在封闭环境中种植1平方米单位的小麦，监测小麦生长所需水、光、热量和其他营养物质及其费用，并实时反映给公众。图源：DISNOVATION.ORG

采用如此高成本高能耗的方式来保障粮食安全，显然既不经济，也不理性。

四、耗能与占地，垂直农业的真正成本

在垂直农业的营销话语中，“可持续”则是另一个引人瞩目的标签。

垂直农业宣称安装水培生产柜可以减少食物里程，有助于推广本地食物。遗憾的是，这些被锁在玻璃柜里的香菜、薄荷、鼠尾草，虽然勉强称得上来自本地，却完全和本地的自然、气候、生产者和食物网络脱节。

垂直农业还宣称可以节约水资源，却对系统高耗能的本质视而不见：垂直农业现阶段无法突破的瓶颈，在于必须消耗大量能源来供给系统里的LED人造光。

2021年的一份行业调研显示，336家可控环境农业公司（Controlled-enviroment Agriculture）中有64%未使用任何绿色或者再生能源。

使用化石燃料不仅不环保，且发电过程中能量转化的各个步骤中都存在能量损失，使得室内照明相对于阳光而言能源利用率极低。以耗能较低的绿叶蔬菜为例，普通温室仅为每千克5.4kWh，垂直农业每千克生产耗能则高达38.8kWh。

我还常听同行说，垂直农业的终极目标是将农业整合进更狭窄的占地面积，把原本被农业占用的大面积土地归还给大自然。因为土地农业不管被如何改进，提供的生物多样性也完全不能与大自然相媲美。

●北京天福园农场的生物多样性农业

但是考虑到垂直农业高耗能的本质，计算其真实的占地面积和资源消耗就不能只考虑工厂本身，而也要把为其供能的基建设施考虑在内。因此，看似环保、使用可再生能源的垂直农业公司，实质上也变相占据着为其供电的太阳能、风能设施的广大土地。

目前看来，除了生菜等低耗能的绿叶菜，通过垂直农业生产其他作物所“节省”的土地面积，并不足以抵消为其供电所占据的土地面积。

此外，已有的数据往往局限于垂直农业生产过程本身的能耗，而并不包括金属架构、人造光和传感器等基础设施生产所需能耗。这些基础设施在使用中还会经历磨损，一过使用年限就会成为工业或者电子垃圾。

如此种种，显然也与垂直农业想打造的环保叙事相悖。

五、后感

俄乌战争期间，垂直农业的局限在能源危机的连锁反应中暴露殆尽，整个行业遭受了沉重打击。

美国机器人垂直农业公司Fifth Season于去年11月关停；几乎同一时间，德国的infarm公司宣告裁员一半以上员工；法国公司集装箱农业公司Agricool于今年1月宣告破产；行业领头羊AeroFarms则于今年6月申请破产保护……这个技术中心主义的“奇迹”无疑已经跌落神坛。

在全球人口增长、气候变化进程加速的大背景下，也许制造一个内部环境完全可控的的垂直农业确实会成为应对粮食危机的可选项之一。但是资本逐利的当下，众多初创科技公司为了满足投资人的期待，只能陷入大规模扩张乃至入不敷出的死循环。

然而，垂直农业也可以作为一种更开源、更平民、更去中心化、可以被普通人居家实践的方法，以水培蔬菜的形式发扬光大。它可以作为园艺爱好，出现在自家阳台、厨房和屋顶；也可以重建人与人之间的联系、发挥教育意义，出现在社区的公共空间。

只为收菜？都市农夫的快乐，你可能想象不到

在这种状态下，垂直农业不再披着神秘的技术外衣，而成了一种生活场景：它拉近了人与食物的距离，在都市有限的土地资源里，为想要创造绿色用地的人添加一个新的选项。

也许正是这种“低技术（low-tech)“的垂直农业实践，才更能启发我们体会土地的珍贵和生产者的不易，重拾对大自然的敬畏之心，辨明环保与可持续的真义。

2024年11月13日2024年11月13日

紫漆东来，子柒归来

时隔三年，子柒归来。

做自媒体的，谁敢，这样长时间断更？

她敢。

谁又能断更的时候不仅不掉粉，还涨粉？

她能。

断更三年，涨粉千万。

11月12日，李子柒更新了视频，瞬间席卷了国内各大平台的热搜，在她的YouTube频道下边，汇聚了汉语、英语、泰语、意大利语、日语等多语种的欢迎归来的祝福。

最新视频，延续了她以往的国风韵味、宁静的乡村田园风格以及精美的艺术感。在那条以中国非物质文化遗产漆器为主题的视频里，她还原了漆器的制作流程，展现了传统的工艺美学。该视频发布5小时后，仅微博平台的观看量就突破了1亿。（李子柒曾拿到YouTube中文频道最多订阅量的吉尼斯世界纪录，5小时破亿的观看量）

她给这件漆器取名“紫气东来”，“漆”同“柒”。即便断更三年多，归来的李子柒，依旧是王者。目前，她在全平台拥有接近1.13亿的粉丝，新视频发布后，在微博平台，单日涨粉超过90万。

注：上图可以点击，观看李子柒最新微博视频。

每个人，每个孩子，勇敢闯，勇敢绽放，静等风来。

2024年11月4日

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

【导读】Max Tegmark团队又出神作了！他们发现，LLM中居然存在人类大脑结构一样的脑叶分区，分为数学/代码、短文本、长篇科学论文等部分。这项重磅的研究揭示了：大脑构造并非人类独有，硅基生命也从属这一法则。

LLM居然长「脑子」了？就在刚刚，MIT传奇大牛Max Tegmark团队的新作，再次炸翻AI圈。

论文地址：https://arxiv.org/abs/2410.19750他们发现，LLM学习的概念中，居然显示出令人惊讶的几何结构——首先，它们形成一种类似人类大脑的「脑叶」；其次，它们形成了一种「语义晶体」，比初看起来更精确；并且，LLM的概念云更具分形特征，而非圆形。

具体而言，这篇论文探讨了LLM中稀疏自编码器（SAE）的特征向量表示的。Max Tegmark团队的研究结果表明，SAE特征所代表的概念宇宙在多个空间尺度上展现出有趣的结构，从语义关系的原子层面到整个特征空间的大规模组织。这就为我们理解LLM的内部表征和处理机制，提供了全新的见解。总之，这个研究实在太过震撼！网友直言：如果LLM和人脑相似，这实在是给人一种不好的预感……

所以，美丽的自然法则并不独属于人类，硅基也从属于这一法则。

这个发现证明了：数学才是一切的基础，而非人类构造。

LLM的三个层面：原子，大脑和星系

团队发现，SAE特征的概念宇宙在三个层面上都具有有趣的结构：

小尺度「原子」
中尺度「大脑」
大尺度「星系」

原子级的微观结构，包含面为平行四边形或梯形的「晶体」，这是对经典案例的推广（比如「男人-女人-国王-王后」的关系）。他们发现，当使用线性判别分析（LDA）高效地投影出诸如词长等全局干扰方向时，这些平行四边形和相关函数向量的质量会显著提升。

而类似「大脑」的中间尺度结构，则展现出了明显的空间模块化特征，团队将其描述为空间集群和共现集群之间的对齐。比如，数学和代码特征形成了一个「脑叶」，跟神经功能磁共振图像中观察到的人类大脑功能分区相似。团队运用多个指标，对这些功能区的空间局部性进行了量化分析，发现在足够粗略的尺度上，共同出现的特征簇在空间上的聚集程度远超过特征几何随机分布情况下的预期值。

而在「星系」的大尺度结构上，特征点云并非呈各向同性（各个方向性质相同），而是表现出特征值幂律分布，中间层的斜率最抖。而聚类熵也在中间层周围达到峰值！

看完这个研究，有网友给出了这样的评价——「如果这项研究出自Max Tegmark之外的任何人，我都会觉得他是疯子。但Tegmark是我们这个时代最优秀的科学家之一。当我说意识是一种数学模式、一种物质状态时，我引用的是他。」

LLM学习概念中，惊人的三层几何结构

去年，AI圈在理解LLM如何工作上取得了突破，稀疏自编码器在其激活空间中，发现了大量可以解释为概念的点（「特征」）。稀疏自编码器作为在无监督情况下发现可解释语言模型特征的方法，受到了很多关注，而检查SAE特征结构的工作则较少。这类SAE点云最近已经公开，MIT团队认为，是时候研究它们在不同尺度上的结构了。

「原子」尺度：晶体结构

在SAE特征的点云中，研究者试图寻找一种称之为「晶体结构」的东西。这是指反映概念之间语义关系的几何结构，一个经典的例子就是（a, b, c, d）=（男人，女人，国王，女王）。它们形成了一个近似的平行四边形，其中b−a≈d−c。

这可以解释为，两个函数向量b−a和c−a分别将男性实体变为女性，将实体变为皇室。研究者还搜索了只有一对平行边b−a ∝ d−c的梯形（对应于仅一个函数向量）。图1（右）即为这样的一个例子：（a, b, c, d）=（奥地利，维也纳，瑞士，伯尔尼），其中函数向量可以解释为将国家映射到其首都。研究者通过计算所有成对的差向量并对其进行聚类来搜索晶体，这应该会产生与每个函数向量相对应的一个簇。簇中的任何一对差向量，应该构成梯形或平行四边形，这取决于在聚类之前差向量是否被归一化（或者可以等效于，是否通过欧几里得距离或余弦相似度，来量化了两个差向量之间的相似性）。最初搜索SAE晶体时，研究者发现的大多是噪声。为什么会出现这种情况？为了调查原因，研究者将注意力集中在了在第0层（token嵌入）和第1层，在这些层中，许多SAE特征与单个词相对应。然后，他们研究了Gemma2 2B模型中来自数据集的残差流激活，这些激活对应于先前报告的词->词函数向量，于是搞明白了这个问题。

如图1所示，晶体四重向量通常远非平行四边形或梯形。这与多篇论文指出的情况一致，即（男，女，国王，王后）并不是一个准确的平行四边形。之所以会有这种现象，是因为存在一种所谓的「干扰特征」。比如，图1（右）中的横轴主要对应于单词长度。

这在语义上是不相关的，并且对梯形（左）造成了严重破坏，因为「Switzerland」要比其他的词长很多。

为了消除这些语义上无关的干扰向量，研究者希望将数据投影到与这些干扰向量正交的低维子空间上。对于数据集，他们使用了线性判别分析（LDA）来实现这一点。LDA将数据投影到信号噪声比特征模式上，其中「信号」和「噪声」分别定义为簇间变化和簇内变化的协方差矩阵。这种仿佛显著改善了簇和梯形/平行四边形的质量，突显出干扰特征可能掩盖了现有的晶体结构。

「大脑」尺度：中等尺度的模块结构

接下来，我们到了论文最精彩的地方。在这一部分，研究者们缩小了视角，试图寻找更大规模的结构。他们研究了功能相似的SAE特征组（这些特征组倾向于一起激活），想看看它们是否在几何上也是相似的，是否会在激活空间中形成「脑叶」。在动物的大脑中，这种功能组就是众所周知的神经元所在的三维空间中的簇。例如，布罗卡区涉及语言生成，听觉皮层处理声音，杏仁核主要处理情绪。

研究者非常好奇，是否可以在SAE特征空间中找到类似的功能模块呢？他们测试了多种方法，来自动发现这类功能性「脑叶」，并量化它们是否是空间模块化的。他们将脑叶分区定义为点云的一个k子集的划分，这种分区的计算不使用位置信息，相反，他们是基于它们在功能上的关联性来识别这些脑叶分区的。具体来说，这些脑叶在同一文档内倾向于一起激活。为了自动识别功能脑叶，研究者首先计算了SAE特征共现的直方图。他们使用Gemma2 2B模型处理了来自The Pile的文档。研究者发现，在第12层的残差流SAE具有16k个特征，平均L0为41。他们记录了这个SAE被激活的特征（如果某特征的隐藏激活值> 1，则将其视为被激活）。如果两个特征在同一个256个token的块内同时激活，则它们被视为共现。此长度提供了一种粗略的「时间分辨率」，使他们能够发现倾向于在同一文档中共同激活的token，而不仅限于同一token。研究者使用了最大长度为1024的上下文，并且每个文档只使用一个这样的上下文，这就使他们在The Pile的每个文档中最多有4个块（和直方图更新）。他们在5万个文档中计算了直方图。基于此直方图，他们根据SAE特征的共现统计，计算了每对特征之间的亲和分数，并对得到的亲和矩阵进行了谱聚类。研究者尝试了以下基于共现的亲和度计算方法：简单匹配系数、Jaccard相似度、Dice系数、重叠系数和Phi系数，这些都可以仅通过共现直方图计算得出。

研究者们原本假设，功能上相似的点（即常见的共现SAE特征）在激活空间中应该是均匀分布的，不会表现出空间模块性。然而，出乎他们意料，图2显示出：脑叶在视觉上呈现出相当集中的空间分布！

在SAE点云中识别出的特征倾向于在文档中一起激活，同时也在几何上共同定位于功能「脑叶」中，左侧的2脑叶划分将点云大致分为两部分，分别在代码/数学文档和英文文档上激活。右侧的3脑叶划分主要将英文脑叶细分为一个包含简短消息和对话的部分，以及一个主要包含长篇科学论文的部分

为了量化其统计显著性，研究者使用了两种方法来排除原假设：1. 虽然可以基于特征是否同时出现进行聚类，但也可以基于SAE特征解码向量的余弦相似度来进行谱聚类。他们首先使用了余弦相似度对SAE特征进行聚类，然后使用共现对特征进行聚类，之后计算这两组标签之间的相互信息。在某种意义上，这直接衡量了通过了解功能结构可以获得多少关于几何结构的信息。2. 另一个方法就是训练模型，通过几何信息预测特征所属的功能脑叶。为此，研究者将基于共现聚类得到的脑叶标签集作为目标，使用逻辑回归模型直接根据点的位置预测这些标签，并使用80-20的训练-测试集划分，报告该分类器的平衡测试准确率。

左上：空间聚类与功能聚类之间的调整互信息。右上：逻辑回归的平衡测试准确率，用位置预测基于共现的聚类标签。左下：随机置换余弦相似度聚类标签后的调整互信息。右下：随机单位范数特征向量的平衡测试准确率。报告的统计显著性基于Phi系数的脑叶聚类

图3显示，对于两种度量方法，Phi系数效果最佳，提供了功能脑叶与特征几何形状之间的最佳对应关系。为了证明其统计显著性，研究者随机打乱了基于余弦相似度聚类的簇标签，并测量了调整后的相互信息。同时，他们使用随机高斯分布，对SAE特征解码方向重新初始化并归一化，然后训练逻辑回归模型从这些特征方向预测功能脑叶。图3（下）显示，两项测试都以极高的显著性排除了零假设，分别达到了954和74个标准差，这就明确表明：研究者所观察到的脑叶是真实的，而非统计偶然！

为了评估每个脑叶的专长，他们将The Pile数据集中的1万份文档输入了Gemma2 2B模型，并再次记录了第12层中每256个token块内触发的SAE特征。对于每个token块，他们都记录了具有最高特征触发比例的脑叶。The Pile中的每个文档都带有名称，指定该文档属于语料库的哪个子集。对于每种文档类型，针对该类型文档中每个256 token块，他们都会记录哪一个脑叶具有最高的SAE特征触发比例。跨越数千份文档后，可以查看每种文档类型中，哪个脑叶的激活比例最高的直方图。在图4中，研究者展示了使用Phi系数作为共现度量计算的三个脑叶结果，这构成了图2中脑叶标记的基础。

每个脑叶都具有最高比例的激活特征上下文分数。脑叶2通常在代码和数学文档上不成比例地被激活，脑叶0在包含文本（聊天记录、会议记录）的文档上激活更多，脑叶1在科学论文上激活更多

图5对比了五种不同共现度量的效果。尽管Phi系数最佳，但五种度量方法均能够识别出「代码/数学脑叶」。

「星系」尺度：「大规模」点云结构

最后一种，让我们进一步拉远视角，看看大模型在「星系」尺度结构中，点云的样子。主要是研究其整体形状、聚类，类似于天文学家研究硬核系形状和子结构的方式。

接下来，研究人员试图去排除一个简单的零假设（null hypothesis）：点云只是从各向同性多元高斯分布中采样的。如图6直观地表明，即使在其前三个主要成分中，点云分布也不完全是圆形的，某些主轴略宽于其他轴，类似人脑的形状。

形状分析

图7（左）通过点云协方差矩阵的特征值排序，来量化这一现象。它揭示出，这些特征值并非是恒定的，而是呈现出幂律衰减。

为了检验这个令人惊讶的幂律是否显著，图中将其与从各向同性高斯分布中抽取的点云的相应特征值谱进行比较。结果显示，后者更加平摊，并且与分析预测一致：

从多元高斯分布中抽取的N个随机向量的协方差矩阵遵循Wishart分布

这一点，已经在随机矩阵理论中，得到了充分的研究。由于，最小特征值的急剧下降是由有限数据引起的，并在N趋于无穷大时消失，研究人员在后续分析中，将点云降维到其100个主成分。换句话说，点云的形状像一个「分形黄瓜」，其在连续维度上的宽度像幂律一样下降。研究人员发现，与SAE特征相比，激活值的幂律特征明显较弱。未来，进一步研究其成因，也将是一个有趣的方向。图7（右）显示了，上述幂律的斜率如何随LLM层数变化，这是通过对100个最大特征进行线性回归计算得到的。

研究人员观察到一个清晰的模式：中间层具有最陡的幂律斜率（第12层的斜率为-0.47），而早期和后期层（如第0层和第24层）的斜率较为平缓（分别为-0.24和-0.25）。这可能暗示了，中间层充当了一个瓶颈，将信息压缩到更少的主成分中，或许是为了更有效表示高层抽象概念。图7（右）还在对数尺度上，展示了有效云体积（协方差矩阵的行列式）如何随层数变化。

聚类分析

一般来说，星系或微观粒子的聚类，通常通过幂谱或相关函数来量化。对于研究中高维数据来说，这种量化变得很复杂。因为底层密度会随着半径变化，而对于高维高斯分布，密度强烈集中在相对较薄的球壳周围。由此，研究人员选择通过估计点云，假定采样的分布的「熵」来量化聚类。他们使用k-NN方法来估计熵H，计算如下：

其中ri是点i到第k个最近邻的距离，d是点云的维度；n是点的数量；常数Ψ是k-NN估计中的digamma项。作为基线，高斯熵代表了给定协方差矩阵的最大可能熵。对于具有相同协方差矩阵的高斯分布，熵的计算方法如下：

其中λi是协方差矩阵的特征值。研究人员定义聚类熵，或「负熵」，为Hgauss− H，即熵比其最大允许值低多少。图8显示了不同层的估计聚类熵。可以看到，SAE点云在中间层强烈聚集。

在未来研究中，研究这些变化是否主要取决于不同层中晶体或叶状结构的显著性，或者是否有完全不同的起源，将会是一个有趣的方向。

破解LLM运作机制黑箱，人类再近一步

总而言之，MIT团队这项最新研究中，揭示了SAE点云概念空间具有三层有趣的结构：原子尺度的晶体结构；大脑尺度的模块结构；星系尺度的点云结构。正如网友所言，亲眼目睹了人类硅基孩子在我面前成长，既令人敬畏又令人恐惧。

Max Tegmark出品，必属精品。此前就有人发现，仅在下一个token预测上训练的序列模型中，存在线性表征的类似证据。23年2月，哈佛、MIT的研究人员发表了一项新研究Othello-GPT，在简单的棋盘游戏中验证了内部表征的有效性。在没有任何奥赛罗规则先验知识的情况下，研究人员发现模型能够以非常高的准确率预测出合法的移动操作，捕捉棋盘的状态。他们认为语言模型的内部确实建立了一个世界模型，而不只是单纯的记忆或是统计，不过其能力来源还不清楚。吴恩达对该研究表示了高度认可。

受此启发，Max Tegmark团队发现，Llama-2-70B竟然能够描绘出研究人员真实世界的文字地图，还能预测每个地方真实的纬度和经度；而在时间表征上，模型成功预测了名人的死亡年份、歌曲电影书籍的发布日期和新闻的出版日期。总之，这项研究在LLM中发现了「经度神经元」，在学界引起了巨大反响。

如今，Tegmark团队又再进一步，帮我们从更微观的角度剖析LLM的大脑。人类离解释LLM运作机制的黑箱，又近了一步。

【思考】AI越来越像人脑，越来越聪明和强大，我们能做什么呢？请关注AI成功落地商业案例，有需要AI的，请联系速嵌智造。

参考资料：https://arxiv.org/abs/2410.19750

2023年12月6日2023年12月6日

GPT4 vs Llama，大模型训练的坑

最近搞了8张A100，训练大模型，对比了GPT4、llama 2、还有若干国内大模型，总觉得效果哪里不对，查了三天，终于发现了原因。

原来相同的汉字，编码值不同。注意是相同的编码方式，例如都是unicode。
这里不是字体不同，是纯文本，与字体无关，相同编码方式，不同的是编码值。

例：
⻦
鸟
能看出区别吗？一个编码值是\u2ee6，一个是\u9e1f。不信邪的可以自己试试。
类似的还有很多，常用来举例说明的比较明显的是：“戶”、“户”、“戸”。
还有：⽣, 生；⼩, 小；⽟, 玉；⼤, 大；⽉, 月；⽜, 牛；⾼, 高；⼉, 儿；⼆, 二；⾦, 金；⽂, 文；⼭, 山；⾹, 香；⾉, 艮；⽴, 立；⼋, 八；⽥, 田；⽕, 火；⼦, 子……
不一一例举。

对于用多种来源未经验证的中文语料数据训练模型，尤其要注意上述问题。

对我们人类来说，是相同的字，对计算机来说，是不同的字。
果然，汉语言博大精深！

那又鸟不是鸟，那马户不是驴。

下课！

原创干货，转载请注明出处。

2023年11月9日

那一夜，你伤害了我。。。

昨晚OpenAI推出了几大新特性

大模型创业者们在深夜里受伤

行不行啊，不行咱们就走自己的啊，已给大客户部署好啦，需要的朋友走起！

2023年10月22日

独立开发者理想办公地点–寺庙

作为一枚独立开发者，需要一个清净的开发环境（笑），最近一直在寺庙生活和工作，感觉寺庙绝对是适合包括独立开发者在内的自由职业者的办公地点。

下面简单介绍一下我在寺庙的日常生活吧．

首先，我是通过在寺庙做义工的方式来换取他们的免费食宿

所以，如果你想要来寺庙，又不想花钱，就要付出自己的一些时间来帮助寺庙做事．

其实寺庙义工干的活，跟你在家里干的活是类似的，无非就是做饭，扫地这些事，只是范围更大一点罢了，比如，如果要煮饭，你可能要煮半袋米，如果是扫地，你可能要扫一整座塔（我花了三天才扫完），规律的日常劳动，对长期没有锻炼的程序员来说，感觉反而更有好处．

其次，寺庙每天的时间安排还是很规律的

6点：起床洗漱

6点30：吃早饭．

7点：开始干活，一般一两个小时搞定．

11点：吃中饭．

14点：如果师兄有安排，也要再干一两个小时的活，不过寺院干活基本都在上午．

17点：吃晚饭．

18点-21点：可以在寺庙的玻璃房里与其他义工聊聊天，或者自己去寺庙的书屋看看书都可以（书屋超级安静，非常适合看书！）

22点：没什么事就可以睡觉了．

总体下来，每天的义工时间在1－2个小时，其他时间可以自由安排，我一般利用自由时间写写代码，看看书，或者在寺庙附近爬爬山，生活还是很充实的．

另外，如果你想要来寺庙体验一下的话，需要注意以下几点

1：做义工有什么要求？

　年龄：25-58周岁

　性别：男女不限

　时间要求：可以选择周末两天，如果是平时的话，至少一周以上．

2：吃饭住宿怎么样？

　吃饭当然是素食，形式类似于自助餐，一般都是豆腐，木耳，土豆，豆芽等各种素菜，口味也是清淡为主，味道还是可以的（我发现寺庙的素食都不错）．

　住宿一般是标间或者三人间，寺庙会准备床单三件套．

　吃住免费．

3：需要自带什么？

　因为寺庙离采购的地方较远不太方便，所以最好带完整的洗漱用品和衣物：两三套换洗衣物，毛巾，牙刷，洗浴用品．

　山上有可能比较冷，所以也可以带点感冒药以备不时之需．

　保温杯非常有用．

4：如何去寺庙里做义工？

　可以找联系我．

最后，做了两个月义工以后，我的一些感受

如果你是一枚自由职业者（独立开发者，或者自由设计师），强烈建议不要一个人呆在家里做事，一方面这会让你越来越不自律，另一方面也会让你越来越孤僻．

虽然在寺庙做义工，需要付出自己的时间帮助寺庙做事，但是这些轻体力活对自己来说其实是有好处的，并且你能够得到的，是一个安静的环境，干净的空气，免费的食宿，保持距离的社交，以及规律的生活．

所以有机会的话，推荐去体验一下在寺庙的生活，相信你会有不错的收获．

2023年9月23日2023年9月23日

万米高空和AI对话，有点脊背发凉

飞机上有wifi，了然无味，在万米高空，和ChatGPT-4开始了一场坦诚的沟通，它全程都表现出高情商，以及不断尽量安抚我的情绪，而这，恰恰令我脊背发凉。

2022年1月25日

坐拥千万用户的大佬竟然穷到删库跑路？

关注科技圈的朋友，前段时间应该听过这么一个事情。开源项目 faker.js 和 color.js 的开发者 Marak，一夜之间清空了所有项目，并塞进一些恶意代码。虽说 Marak 名声不大，但这两项目可是在开源界极其火爆。

Faker.js 可以帮开发者生成伪数据，Color.js 可以帮助网页着色。它俩在 NPM （组件库网站）上每周下载量加一起近乎 2700 万。

所以 Marak 这通操作，让很多用户突然无法工作，引起了不小的混乱。用户应用输出乱码 ▼

当然，Marak 这么做可不是因为中午多喝了 2 杯。

而是作品一直被各大公司白嫖的同时，经济上还遇到了困难，心里不平衡引发的。

这故事里细节还挺多的，差评君简单给大家讲讲。

2020 年 10 月，Marak 发推特说它的公寓失火，家当都烧没了。希望大家走过路过，多少意思一下。

但看这寥寥无几的转发和点赞数，我估摸他是没收到多少钱。

接着，他又从小道消息得知，不少大公司都在大量使用他的项目。

而他作为作者，不仅没捞到啥钱，甚至现在都要流浪街头了。

换做是谁，可能心里都有点不爽。

于是 Marak 就发了一个通告说，不想搞免费了。

你们这些白嫖怪要么给个 6 位数的合同，要么 Fork （类似于复刻）一份代码自己研究去。

然而，理他的人并不多。

后来为了生存，他基于 Faker.js 做了一个网页版的应用 Faker Cloud。

但没多久他发现别的公司也开发了一款类似的，服务正是基于 Faker.js，于是他向那个公司发邮件，问要不收购 Faker Cloud 算了。

但是对方只是敷衍了一下，没有再回应。

最后，这个拥有顶级开源项目的老哥，由于一穷，二赚不到钱，三总被白嫖，选择了删库。。

关于这件事，网友观点也不太一致。

有人说他不守规则：你都开源了，别人再怎么白嫖你，也是按规矩来的。

但也有很多的人认为“ 为众人抱薪者，不可使其冻毙于风雪 ”。

意思就是这些开发者是为大家提供便利，在他们遇到困难时，那些白嫖他们成果的公司，理应提供点支持。

不知道各位差友怎么看，差评君先就事论事：老哥删库可以，但他想法不对，推送恶意代码更不对。另外那些公司白嫖 Faker.js 在法律上没啥毛病。

看到这可能有的差友急了，你这是公开支持白嫖怪？当然不是，看看文章结尾的点赞和在看，你就知道差评君向来不鼓励大家白嫖。

在解释观点之前，大伙儿不妨先认识一下开源这个玩意。

为了更好的理解，我们把代码比喻成菜谱。

你擅长做一个菜，并为此写下一份菜谱。

开源呢，就是你把这份菜谱公开出来，用的原材料和配方，别人都能看到，也能复制一份。

当然，别人也可以根据自己口味，在你的菜谱上做点改动。

这就是开源。

但通常来讲，为了维护开源社区，代码不被滥用，大家开源时还会加一份开源协议。

大大小小的开源协议有上百个，非常复杂。目前主流的有：MIT、GPL、BSD、Apache。

它们主要区别就是，别人修改代码后是否可以闭源（私藏起来），是否要遵循同样的开源协议。

图源阮一峰博客 ▼

比如你选了 GPL 协议，那别人改动你的菜谱之后，他也要公开出来，不能藏着掖着。

但如果你选了宽松点的 MIT 协议，别人改动菜谱后就无需公开，还能把它作为“ 秘方 ”，开个排档赚点钱啥的。删库这件事中的老哥 Marak，选的是 MIT 协议。

这个协议里可没规定别的公司不能用 Faker.js 赚钱，也没规定使用 Faker.js 后要付钱给 Marak。

所以人家白嫖，在法律上，确实是没啥毛病。那为什么说 Marak 想法不对呢。

首先啊，一个项目开源了，相当于给别人提供了自己的结晶，方便了大家。

第二，项目开源后，参与的人自然变多了。那大家一起改善优化，技术也会进步得快。

所以，开源本质是给大家提供便利，促进技术发展。

但 Marak 呢？他选择了 MIT 协议，就理应做好会被别人“ 白嫖 ”的准备。却因别人用他项目赚钱，自己没赚到钱，一怒之下删库甚至放入恶意代码。

这，恐怕有点违背了开源精神吧。如果每个开源维护者都像 Marak 这样，不全乱套了么。Marak 真想赚钱，其实办法挺多的。

就凭这 2 个火爆的开源项目，我想他不难找到一份好工作吧？

或者，他也可以像 Redhat 一样，提供免费版产品，当用户遇到技术问题，再提供付费支持。

要实在不行，就想躺平，也可以和之前一样，每个平台都放上赞助码。只不过人家帮你是情分，不帮是本分。

当然了，差评君写这篇文章并不是要背刺一下 Marak，而是因为这件事映射出了开源界的现状：

绝大多数开发者们和 Marak 一样，在开源项目上几乎就没啥回报。美国有一家公司叫 Tidelift，他们的产品可以帮别人管理开源项目，所以平时会和大量优秀的开发者打交道。

去年，他们做了一份《开源维护者现状调查》报告，有 400 人参与了调查。调查发现，46% 的开源维护者在开源项目里赚不到 1 分钱。

我们假设 1 万美元可以供一个人吃住行 1 年，那只有 13% （ 7%+1%+5% ）的开发者能达标。

也就是说，10 个开发者中，仅有 1 个人能靠开源生活。真实情况可能更惨。

差评君写文章时采访了一个 7 年程序员同学，他说开源是好的，利于互联网发展。但当我问到他，开源就是用爱发电吗，如何赚钱呢。他说：我不太懂其中的商业模式。

事实上，大部分开发者和他一样。他们没有商业思维，开源时就没太考虑要怎么赚钱。关于开源带给自己的物质利益，他们能想到的，除了是把它作为个人简历，好找一份得当的工作，最多也就是放上一个收款码赚点零花钱（收入全靠他人自愿）。

他们想法都很纯粹，就是要促进技术发展。当然，大家都是普通人，谁会不爱钱呢？如果开源能多赚点钱，那肯定开心。

但，赚不到钱，他们也不会怎么样。当初选择开源，就已经决定用爱发电了，该更新的还会更新，该修补的漏洞还会去修补。

前段时间 log4J2 漏洞事件大家都知道吧。出事之后，有人追责甩锅，有人担心漏洞影响，却很少有人关心 log4J2 的维护者。

说出来你不信，Log4J2 这么大一个开源项目，只有 3、4 个程序员在业余时间来管理和维护。曝出漏洞后，他们第一时间就在努力修复，他们有问别人要过回报么？

虽然吃力不讨好，但他们依然坚持着。。这样的事情，这样的开源维护者，还有很多很多。我知道，我们没有赞助他们的义务，但差评君还是希望，大家可以在力所能及的地方，多给给这些人一些关注和支持。

他们把工具和知识分享出来，为别人带来便利，也加快了技术进步。他们为互联网发展带来了很大的贡献，他们在做一件非常有意义的事。

如果真要问，是什么让他们选择开源，是什么让他们坚持下来。也许 Tidelift 上的投票会给你答案。

71% 的开发者选择了 Making a positive impact on the world。——为世界创造积极的影响。

一、“可控”的农业

二、垂直农业：省事还是费事？

三、为什么垂直农业不能解决全球粮食危机？

四、耗能与占地，垂直农业的真正成本

五、后 感

五、后感