THK-A3 — Generation:为什么「造可能」必须和「批判」刻意分离

本质与导读

专家养成 · 模块四(思维能力)· A 阶第 3 讲。上一讲 THK-A2 讲透了Representation——换Representation = 换解空间,它先决定答案在不在空间里、再决定搜它多贵。但Representation只是划定了空间,空间一开始是空的。这一讲讲第二操作 Generation:在空间里造出候选(假设、方案、解释)。核心是一条反直觉的铁律——Generation必须和Evaluation刻意分离,以及跨域类比 / Munger 格架 / 列 20 解 / 孵化这些手段背后同一个概念重组机制。底座是思维能力深版第 3 节。

开篇:硬约束——Generation与Evaluation对候选集的作用方向相反

把Generation和Evaluation放进搜索框架,会立刻看到它们的根本矛盾:两者对候选集的作用方向正好相反。Generation的职责是扩张——往空间里塞进更多候选,把有效宽度 $b$ 撑大;Evaluation的职责是收缩——把候选筛到只剩最优的一两个。一个往外推,一个往里收。

人「想方案」时最自然的动作,恰恰是把这两个反向操作同时开着:每冒出一个念头,立刻在心里掂量「这靠谱吗/可行吗/会不会被笑」,不行就掐掉,再想下一个。问题在于——当扩张和收缩同时作用在同一个候选集上,收缩永远赢。因为Evaluation是个过滤器,任何候选要活下来都得当场通过它;于是你的候选集永远停留在「第一个能通过自我批判的念头」那里,搜索半径被锁死在起点附近。这一讲要论证的就是:这种锁死不是「效率低一点」,而是系统性地把最有价值的候选挡在门外——而且挡得最狠的恰好是你最需要的那一类。

中段一:第一性原理——胚胎期的候选无法被公平Evaluation

为什么「边造边批」锁死的不是随机一批候选,而是偏向性地杀掉好的?根因有两层,第二层是真正的杀手。

第一层(数量): Evaluation当场否决,等于你一遇到第一个「过得去」的方案就停手,有效候选数 $N$ 坍缩到约等于 1。而候选质量本质是一次次抽样:设第 $i$ 个候选的质量为随机变量 $q_{i}$ ,你最终用上的是其中最好的一个 $Q_{N} = max (q_{1}, \dots, q_{N})$ 。抽得越多,上限越高——这条下一节定量。

第二层(偏向,致命): 更要命的是,边造边批不只是把 $N$ 砍到 1,它砍的方式有系统性偏向。关键事实是:一个半成形的候选,无法被公平Evaluation。一个方案的价值是潜在的——要等它被展开、补全、接上配套条件之后才显形;而在它刚冒头、还是个胚胎的时候去评判,你评的是它的雏形,不是它的潜力。偏偏越是新颖、离惯例越远的候选,雏形越「看着不对」(因为它不符合你当前Representation下的判据)。于是当场Evaluation这个动作,对新颖度有结构性的歧视:它优先放行那些一眼就「顺眼」的——也就是最常规、离起点最近的候选;而把远处的、高方差的、需要养一养才看得出价值的候选,在它们证明自己之前就杀掉了。

这就接上了开篇:边造边批不是中性的剪枝,而是与「离惯例的距离」正相关的偏向性剪枝。突破恰恰是分布的上尾事件(罕见、起初离经叛道),而这套机制专门切上尾。所以它的危害不是「少搜了几个」,而是「把你最想要的那一类从样本里系统性抹掉」。分离的全部意义,就是给胚胎候选一个不被当场处决、长到能被公平Evaluation的窗口。

中段二:定量——best-of-N 为什么单调,premature Evaluation为什么坍缩上限

把上面的直觉写成序统计量,就能精确看到分离值多少钱。设候选质量 $q_{i}$ 独立同分布、累积分布为 $F$ ,你最终采用的是 best-of- $N$ :

Q_{N} = max (q_{1}, \dots, q_{N}), P (Q_{N} \leq x) = F (x)^{N}

$N$ 越大, $F (x)^{N}$ 越小(对每个 $x$ ),即 $Q_{N}$ 的分布整体右移(随机占优),于是

E [Q_{N}] 随 N 严格单调递增

含义直白:多造一个候选,期望上限只会升不会降。边造边批把 $N_{eff}$ 压到约 1,等于主动放弃这条单调曲线上几乎全部的增益——分离的回报就是 $E [Q_{N}] - E [Q_{1}]$ 这道随 $N$ 张开的口子。

但真实损失比「 $N$ 坍缩到 1」还重,这正是中段一第二层的定量版:premature Evaluation不是从原分布 $F$ 里抽 1 个,而是从一个砍掉了上尾的截断分布 $F_{trunc}$ 里抽——它把 $x > τ$ (那些起初看着不对、却恰是高价值)的部分压没了。而 $max$ 这个统计量的价值几乎全部来自上尾:你要的从来不是平均的候选,是最好的那个。砍掉上尾,等于把 best-of-N 这件事的命根子拿掉。所以「先Generation后Evaluation」不是风格偏好,是为了不把要采的尾巴提前剪掉。(诚实标注:把候选质量当 i.i.d. 抽样是个解释性模型,真实Generation里候选彼此相关、分布也未知;它不是字面机制,但 $E [Q_{N}]$ 单调、价值集中在上尾这两条结论很稳,足以支撑「分离」这条实践规则。)

中段三:四种Generation手段,背后是同一个概念重组机制

知道了「要扩 $N$ 、且别砍上尾」,问题变成怎么造出又多又远的候选。市面上的Generation技巧看着五花八门,但拆到底是同一个机制:Generation的底层动作是概念重组——把已有元素以新方式连接;所以一切Generation手段,要么是喂进更多可重组的原料,要么是逼搜索离开惯性的近邻。四种主力按这两条归位:

跨域类比 / Munger 格架(喂原料): 把另一个领域的成熟结构整个搬来当候选。Munger 的格架是一台Generation器——从物理、生物、数学、历史各取最重要的几个模型编成网,遇问题逐个去「套」,每个模型Generation一批不同维度的候选。这不是比喻游戏:结构同构(「护城河」对应物理「能量势垒」、生物「生态位隔离」)能把一个领域的成熟解法迁移成另一个领域的候选。模型库越宽,可重组的原料越多,盲区越小。

列 20 解(逼离惯性): 一题强制列 20 个方案、全程不批判。前几个一定是惯性答案,真正值钱的候选往往在第 10 个之后——因为近邻被耗尽后,大脑被迫往更远处搜。这一招几乎是中段二「扩 $N$ 且别砍上尾」的纯手工实现:用「不许批判」强行关掉那个偏向性过滤器,用「凑满 20」强行把 $N$ 撑大。

孵化(后台重组): 难题卡死时搁置留孵化——离开它,让概念在后台自由重组,顿悟常在此时来。机制仍是重组,只是换到了不受当前Representation束缚的后台进程。(诚实标注:「发散与批判是两套互斥的神经状态」这种强机制说法证据较弱、别当定论;但「过早批判压制 ideation 产出」有 Osborn 头脑风暴及后续延迟评判实验支撑,把「先造后评」当可靠实践规则即可——理由不靠神经学也成立:候选还没成形就被批判,搜索半径就被锁死。)

落到读者本域,这条铁律最值钱的一幕在安全机制的Generation:做 HARA 后要为一个危害头脑风暴「能怎么探测/缓解它」,此时若每冒一个想法就立刻用「这太贵/这没人这么做/量产过不了」当场枪毙,最先死的永远是那个不落俗套的冗余架构——而它可能正是唯一能兑现 ASIL D 的解。正确动作是把「Generation安全机制候选」和「Evaluation可行性/成本」两步切开:先穷举一切可能的探测/反应/容错路径(接 FS-A4 安全机制分类学的三类),再到下一步用 FMEDA / 成本去筛。Generation阶段的「不批判」,买的就是那个不落俗套架构活到被公平Evaluation的机会。

落地:把「分离」装成一个有边界的开关

分离不是「永远不Evaluation」——那是空想。它是一个有明确边界的两段式开关:第一段只开Generation(产量优先、严禁批判、不求质量),第二段才开Evaluation(质量优先、专职筛选)。关键是两段别同时开。这也精确划出了它和上一讲的接力:Representation定好空间(THK-A2)→ Generation把空间填满候选(本讲)→ Evaluation再来收缩(下一讲)。三步各管一段,混在一起就互相绞杀。

一个反直觉但极值钱的经验:人最常误判自己「想不出方案」,其实多半是开篇那个过滤器一直没关。所以「想不出」时,默认动作不是「更用力地憋」,而是「先把批判开关关掉,逼自己凑满 20 个、允许烂」。

可操作练法(本讲落地动作)

本讲的练法围绕一件事:把「关掉批判开关」练成可随时调用的动作,而不是道理上知道。

列 20 解 · 全程不批判(卡住时必做): 任一卡住的问题,强制写满 20 个候选,写时不许评价任何一个(哪怕明显很烂也照写)。重点训练的是「忍住当场否决」这个动作——越到后面越难,而第 10 个之后才是上尾。
格架轮询(每周深入 1 个 Munger 模型): 每周吃透一个跨域模型(物理/生物/经济/历史各取),拿当周一个真实问题用它Generation一批候选,记一行「这个模型把解往哪个方向引」。日积月累就是在拓宽可重组的原料库。
两段式计时(重要决策必做): 给Generation和Evaluation各设一个独立时段,中间留缝。Generation段只产、不评;到点切到Evaluation段才开始筛。物理隔开两个反向操作,逼自己不混着来。
孵化登记(难题卡死时): 把卡死的难题显式「挂起」并记下,转去做别的,给后台重组留时间;隔天回看常有新候选冒出来。练的是「主动搁置」而非「死磕」。
诚实标注模型边界: 对「best-of-N」「概念重组」这套框架本身也用它的标准——它对你手头问题是字面机制还是只是个有解释力的视角?承认是后者,失效时才不会硬套。

承上启下:候选造够了,该筛了——而筛的天敌是系统 1

这一讲把第二操作Generation讲透了:Generation(扩张)与Evaluation(收缩)对候选集方向相反,同开则收缩必胜、且偏向性地杀掉新颖候选——因为胚胎期的候选无法被公平Evaluation;定量看, $E [Q_{N}]$ 随 $N$ 单调、价值集中在上尾,而过早Evaluation既坍缩 $N$ 又砍掉上尾;四种Generation手段(跨域类比 / 格架 / 列 20 解 / 孵化)背后是同一个概念重组机制,差别只在「喂原料」还是「逼离惯性」。记住那个开关:想不出时先关批判、逼自己凑满 20。

但Generation只负责造,不负责判对错。候选堆到一起后,必须有人来筛出真正对的——这就是第三操作 Evaluation。下一讲 THK-A4 专讲Evaluation的上半:它的头号敌人是系统 1 的偏误——快思考会用「感觉对」冒充「真的对」,造成系统性误Evaluation;六类高频偏误(确认 / 锚定 / 沉没成本……)各配一个「反问触发词」与钢铁侠论证,把Evaluation从直觉升级成可防御的工事。

THK-A3 — Generation:为什么「造可能」必须和「批判」刻意分离

本质与导读

1. 开篇:硬约束——Generation与Evaluation对候选集的作用方向相反

2. 中段一:第一性原理——胚胎期的候选无法被公平Evaluation

3. 中段二:定量——best-of-N 为什么单调,premature Evaluation为什么坍缩上限

4. 中段三:四种Generation手段,背后是同一个概念重组机制

5. 落地:把「分离」装成一个有边界的开关

6. 可操作练法(本讲落地动作)

7. 承上启下:候选造够了,该筛了——而筛的天敌是系统 1

7.1. 延伸阅读