概率与统计基础 — 投资决策的数学语言

L1别名 概率与统计 · Statistics · 正态分布 · 胖尾 · 贝叶斯 · 蒙特卡洛 · Fat Tails · 黑天鹅

本质:投资是在不确定性下做决策。没有概率 / 统计的语言,你谈不了期望回报、风险、相关性、贝叶斯更新、样本外验证——这些都是基础词汇。这一页不求你成为量化师,但求你在读研报、建组合、做 Kelly 仓位时,知道"样本" / "分布" / "置信区间" / "胖尾" 分别是什么意思。

学习目标

读完本页后,你应该能够:

  • 区分 离散 vs 连续 分布,默写 3 个最常用分布
  • 理解 大数定律中心极限定理 及其投资意义
  • 贝叶斯公式 做信念更新
  • 解释 正态分布 + 胖尾 + 幂律 的差异与金融市场选择
  • 识别相关性 vs 因果 + 幸存者偏差 + 小样本陷阱
  • 理解 VaR / Expected Shortfall 的概率基础
  • 读懂回归分析 输出(R² / t 值 / p 值 / 置信区间)
  • 知道何时用蒙特卡洛模拟

Summary

投资的概率语言核心:(1) 期望值 E[X] = Σ x·p(x) 是"平均"结果;(2) 方差 Var[X] = E[(X − μ)²] 是"波动";(3) 标准差 σ = √Var可加性风险度量大数定律:样本多了平均向真值收敛——Kelly 赌本 + 长期复利的理论基础中心极限定理:独立变量和近似正态分布——但前提是独立 + 有限方差,金融数据常违反。贝叶斯公式 P(H|E) = P(E|H)·P(H) / P(E) 是更新信念的唯一合法方法;散户常犯错误:只用基础率(忽略先验)或只用新信息(忽略先验)。正态分布的"3σ 事件概率 0.3%"在金融市场被严重低估——实际胖尾分布下6σ 事件也常见(Taleb 反复强调)。幂律分布(Pareto / Mandelbrot)更符合金融数据:20% 的交易日贡献 80% 的回报。相关性不是因果,也不代表同频共振——两个 β 相同的资产组合后分散化效果可能为 0。回归分析 R² 高不等于预测力强;R² 低可能因变量只是噪音多。蒙特卡洛 用于复杂组合的情景模拟,核心是"给定输入分布 → 采样 10000 次"。投资应用:(a) 仓位用 Kelly × 0.5(考虑估计误差);(b) 回测看样本外而非样本内;(c) 尾部风险不用正态模型;(d) 新信息必须贝叶斯更新而非"替换";(e) 看胖尾 / 偏度 / 峰度而非仅均值 / 标准差。

1. 离散 vs 连续分布

1.1 离散分布

代表:伯努利(Bernoulli)/ 二项(Binomial)/ 泊松(Poisson)

伯努利

  • 二元结果(成功 / 失败)
  • 投资例:IPO 是否首日上涨
  • 概率 p

二项

  • n 次独立伯努利试验
  • 投资例:10 次投资中成功几次
  • E[X] = np

泊松

  • 低概率事件次数
  • 投资例:黑天鹅事件 / 违约次数
  • P(X=k) = e^(−λ)·λ^k / k!

1.2 连续分布

代表:正态(Normal)/ 对数正态(Lognormal)/ t-分布

正态分布 N(μ, σ²):

  • 钟形曲线
  • 68/95/99.7 法则
  • 高斯分布
  • 金融学中被滥用

对数正态

  • ln(X) 服从正态
  • 股价通常假设对数正态
  • 只能 ≥ 0
  • 偏右

t-分布

  • 与正态相似但更胖尾
  • 自由度越小越胖
  • 金融实务常用 t-分布(4–6 自由度)

1.3 投资选哪个

目的建议分布
理论建模(教科书)正态
股价建模对数正态
实际收益率t-分布 或 混合
极端尾部幂律
违约 / 破产泊松

2. 期望值 + 方差 + 标准差

2.1 期望值

E[X] = Σ x·P(x)(离散) E[X] = ∫ x·f(x) dx(连续)

投资含义:

  • 期望回报 = 每种情景回报 × 概率
  • 长期复利的锚

2.2 方差

Var[X] = E[(X − μ)²] = E[X²] − (E[X])²

含义:

  • 偏离均值的平方和期望
  • 单位是"原单位的平方"(不直观)

2.3 标准差

σ = √Var

含义:

  • 单位同原变量
  • "典型偏离程度"
  • 可加性(对独立变量):Var(X+Y) = Var(X) + Var(Y)

2.4 投资中的关键公式

  • 组合期望:E[] = Σ · E[]
  • 组合方差:Var[] = Σ w_i² · σ_i² + ΣΣ ··Cov(, )
  • 两资产方差:σ_p² = w²σ_1² + (1−w)²σ_2² + 2w(1−w)ρσ_1σ_2

2.5 偏度 + 峰度

偏度(Skewness)

  • 对称分布 = 0
  • 右偏(正偏):长右尾(罕见大正收益)
  • 左偏(负偏):长左尾(罕见大亏损)
  • 多数资产左偏(崩盘 > 爆涨)

峰度(Kurtosis)

  • 正态 = 3(超额峰度 = 0)
  • 3 = 尖峰胖尾

  • 金融数据超额峰度常 3–10

投资意义

  • 只看 σ 忽略偏度 / 峰度 = 严重低估尾部风险
  • 卖 OTM Put 策略:高 Sharpe + 极负偏 + 高峰度 = 表面漂亮实际危险

3. 大数定律 + 中心极限定理

3.1 大数定律(LLN)

独立同分布样本均值 → 真实均值(n → ∞)

投资意义:

  • 多期投资 → 期望回报实现
  • 多样化组合 → 平均风险接近"平均系统性风险"
  • Kelly 仓位需要长期才能实现期望增长

3.2 中心极限定理(CLT)

独立变量和的分布 → 正态分布(n 足够大)

前提:

  • 独立(金融不总成立,危机时相关性 → 1)
  • 有限方差(幂律可能不满足)
  • 同分布(不严格必要)

3.3 对投资的启示

  • 足够多的交易 / 周期 → 收益近似正态(粗略)
  • 月度 / 年度收益不是 正态(样本太少 + 市场非随机)
  • 长期复利:假设独立同分布,但实际有自相关(动量 + 均值回归)

4. 贝叶斯定理

4.1 公式

P(H | E) = P(E | H) × P(H) / P(E)

  • P(H):先验(prior,原有信念)
  • P(E|H):似然(likelihood,看到证据的概率)
  • P(H|E):后验(posterior,更新后信念)
  • P(E):证据的边缘概率

4.2 经典例子:疾病检测

  • 疾病发生率 1%(P(H) = 0.01)
  • 检测灵敏度 95%(P(E|H) = 0.95)
  • 假阳性率 5%(P(E|¬H) = 0.05)
  • 检测阳性 → 真得病概率 ?

P(E) = 0.95 × 0.01 + 0.05 × 0.99 = 0.0590 P(H|E) = 0.95 × 0.01 / 0.0590 = 16.1%

错误直觉:多数人估 >80%,低估先验的重要性

4.3 投资中的贝叶斯

例:新 CEO 是否能扭转公司

  • 先验:新 CEO 扭转成功率 30%(P(H) = 0.3)
  • 他刚做了并购,成功 CEO 做并购概率 20%(P(E|H) = 0.2)
  • 失败 CEO 做并购概率 40%(P(E|¬H) = 0.4)

P(E) = 0.2 × 0.3 + 0.4 × 0.7 = 0.34 P(H|E) = 0.2 × 0.3 / 0.34 = 17.6%

新信息(并购)使成功概率下降(从 30% → 17.6%)。

4.4 常见错误

  • 基础率忽略:只看新证据,忘记先验
  • 过度更新:把新证据看得太重
  • 不更新:新证据出现,信念不变

4.5 投资者的贝叶斯心态

  • 每个新数据 → 更新,不替换
  • 先验越弱(对标的不熟),新数据越有用
  • 先验越强(长期跟踪),新数据权重小
  • "强观点,松握" 不是矛盾,是贝叶斯

5. 正态分布被高估 — 胖尾与幂律

5.1 正态分布的 6σ 概率

  • 3σ 事件:0.27%(约每 370 个样本 1 个)
  • 4σ:0.006%
  • 5σ:0.00006%
  • 6σ:0.0000002%(50 亿个样本 1 个)

5.2 金融市场的实际

  • 1987 "黑色星期一":-22.6%(约 23σ)
  • 2020-03 美股单日 -12%(约 8σ)
  • 2008-10 VIX 80+(历史均值 20 的 4σ)
  • 正态模型预测 每 10 亿年一次的事件10 年内发生多次

5.3 Taleb 的核心论点

  • 正态假设低估尾部
  • "Extremistan":金融 / 收入 / 城市人口 服从幂律
  • "Mediocristan":身高 / 体重服从正态
  • 混淆两者 = 最危险的思维错误

5.4 幂律分布(Power Law)

P(X > x) ∝ x^(−α)

  • 特点:没有特征尺度
  • Pareto 80/20:20% 贡献 80%
  • 投资回报分布常幂律
  • LTCM 1998 假设正态模型 → 爆仓

5.5 实务含义

  • 不要卖裸 Put / 裸 Short 期权(正态模型低估损失)
  • 保留现金 以应对黑天鹅
  • 避免"高 Sharpe 但高偏度"策略
  • 保险结构的组合 >> "最优化"组合(Taleb)

6. 相关性 vs 因果

6.1 相关系数 ρ

ρ = Cov(X, Y) / (σ_X · σ_Y)

范围:-1 到 +1

  • +1:完美正相关
  • 0:不相关
  • -1:完美负相关

6.2 相关不等于因果

经典搞笑例子:

  • 冰淇淋销量 + 溺水死亡 ρ ≈ 0.9
  • 共同原因:夏天
  • 停卖冰淇淋不会减少溺水

6.3 投资中的陷阱

  • 小盘股 + 高波动 ρ ≈ 0.8 → 买小盘 = 波动增加?实际是同因(都是风险定价)
  • P/E + 低回报 ρ ≈ -0.3 → 买低 P/E 必胜?不是那么简单(陷阱 + 机会并存)

6.4 滚动相关性

危机时相关性急升

  • 平时 ρ ≈ 0.3
  • 危机(2008 / 2020)ρ ≈ 0.9
  • "分散化在你最需要时失效"

6.5 虚假相关

Tyler Vigen "spurious correlations"

  • 人造黄油消费 + 美国离婚率
  • 溺水死亡 + Nicholas Cage 电影数

投资启示:数据挖掘过度 → 必然找到相关但无意义的模式。

7. 样本偏差

7.1 幸存者偏差(Survivorship Bias)

  • 只看"活下来"的
  • 失败公司 / 基金已退市
  • "过去 50 年最佳 100 只股票" = 完全 misleading

经典:

  • 1985–2000 基金业绩看似很强
  • 若加入已关闭基金 → 大盘平均 -2%

7.2 选择偏差

  • 自愿参与 / 回应的样本不代表整体
  • 问卷调查结果常偏差

7.3 看涨偏差(Publication Bias)

  • 学术文献 + 研报偏向"发现了什么"
  • "没发现" 不发表
  • → 公开研究结果系统性高估 α

7.4 数据挖掘偏差

  • 测试 1000 个策略 → 总有 50 个假阳性(5% 水平)
  • 样本外验证必不可少
  • 避免"过拟合"

8. 置信区间 + 假设检验

8.1 置信区间

"95% 置信区间":重复实验 100 次,其中 ~95 个区间覆盖真值。

投资中:

  • 策略回报 10% ± 5%(95% CI [5%, 15%])
  • 0 是否在区间内→ 是否"统计显著"

8.2 假设检验(Hypothesis Testing)

  • (零假设):策略 α = 0
  • (备择):α > 0
  • 数据支持 的程度 → p 值

8.3 p 值陷阱

  • p = 0.04 不代表" 正确的概率 = 0.96"
  • 只代表"若 为真,看到数据或更极端的概率 0.04"
  • 多次测试 降低真实显著性
  • p < 0.05 仅是起点,不是终点

8.4 投资回测的 p 值问题

  • 1000 次测试,50 个 p < 0.05 → 几乎必然有假阳性
  • Bonferroni 校正:p ÷ 测试次数
  • 或 False Discovery Rate(FDR)

8.5 效应大小 vs 统计显著

  • p 值显示是否显著,但大小也要看
  • α = 0.5% 的"显著"策略 → 扣手续费后无意义
  • 关注 Sharpe / IR / α 大小

9. 回归分析

9.1 简单线性回归

Y = α + β·X + ε

  • α:截距(超额回报)
  • β:斜率(敏感度)
  • ε:残差(噪音)

9.2 多元回归

Y = α + β_1· + β_2· + ... + ε

例:Fama-French 三因子回归 = α + β_MKT·MKT + β_SMB·SMB + β_HML·HML + ε

9.3 R²(解释力)

  • 0 ≤ R² ≤ 1
  • 越高越好(解释变量方差的比例)
  • 投资回归中 R² 0.6–0.9 常见
  • 但 R² 高 ≠ 预测力强(样本内 vs 样本外)

9.4 t 值 / p 值

  • 每个系数的统计显著性
  • |t| > 2 通常认为显著
  • 经济重要性比统计显著更重要

9.5 回归的陷阱

  • 多重共线性:解释变量间相关度高 → β 不稳
  • 过拟合:参数太多 → 样本内强、样本外弱
  • 异方差:残差非恒定方差
  • 自相关:残差有序列性(时间序列常见)

9.6 投资应用

  • β 估算
  • 因子暴露测量
  • Pairs trading 协整
  • 预测信号测试

10. 蒙特卡洛模拟

10.1 核心思想

  • 给定输入分布 → 随机采样 10,000–100,000 次
  • 计算输出分布
  • 适合非解析问题

10.2 投资中用法

退休金充足性

  • 输入:初始资产 + 支出 + 投资回报分布
  • 输出:30 年后破产概率

期权定价(替代 Black-Scholes):

  • 输入:标的路径分布
  • 输出:期望 payoff

组合尾部风险

  • 输入:各资产回报分布 + 相关结构
  • 输出:95% / 99% VaR

10.3 实操工具

  • Excel(内置随机数)
  • Python numpy.random
  • R quantmod
  • 专业软件:@Risk / Crystal Ball

10.4 注意事项

  • 输入分布错了 → 输出垃圾
  • 相关结构要真实
  • 尾部建模不能用正态
  • 小心"假精度"(输出 1000 个数字≠ 靠谱)

11. Kelly 公式 — 概率的仓位应用

11.1 完整版 Kelly

f = (p·b − q) / b*

  • p:胜率
  • b:赔率(赢时 payoff ratio)
  • q = 1 − p

11.2 投资版 Kelly

f = (μ − ) / σ²*

  • μ:期望回报
  • :无风险利率
  • σ:波动率

11.3 实际用 Half-Kelly

  • 估计误差 → 全 Kelly 过激进
  • Half-Kelly f/2 = 大部分回报 + 60% 波动降低
  • Kelly 仓位 sizing

11.4 Kelly 的数学根基

  • 最大化几何均值回报
  • 长期复利最优
  • 大数定律保证

12. 风险度量的概率基础

12.1 VaR(Value at Risk)

  • 给定置信水平下的最大损失
  • 例:95% 1 日 VaR = $1M \to 20 天中 1 天损失超$1M

12.2 CVaR / Expected Shortfall

  • 超过 VaR 时的平均损失
  • 对胖尾更敏感
  • 2016 年 Basel III 要求替代 VaR

12.3 Drawdown

12.4 详见

13. 投资者必掌握的统计陷阱

13.1 "回测完美"幻觉

  • 样本内 vs 样本外
  • 过拟合
  • 最近市场 ≠ 未来市场
  • 走势差异 + 交易成本 杀掉多数策略

13.2 "均值回归必然"

  • 均值回归是条件的
  • 小盘股均值回归明显
  • 大盘个股可能长期偏离(Apple / Amazon)

13.3 "波动率 ≠ 风险"

  • 对长期投资者,短期波动不是风险
  • 真正风险 = 永久损失 / 不能实现目标
  • Buffett:波动率 ≠ 风险

13.4 "预测方向就够"

  • 方向对但大小不对 → 仓位错
  • 胜率 60% 但赢 1 输 3 → 长期亏损

13.5 "历史数据 = 未来"

  • 结构性变化 → 历史不代表
  • 2008 + 2020 + 2022 每次都创造新"histoy"

14. 对应读物

  • 入门:Silver The Signal and the Noise
  • Taleb 三部曲Fooled by Randomness / Black Swan / Antifragile
  • Bernstein Against the Gods(概率思想史)
  • 数学:Hull Options 附录 + Wasserman All of Statistics
  • 实务:Grinold & Kahn Active Portfolio Management

15. 对应 wiki 页面


最后更新 2026-04-19。此页是 L1 数学根基。建议配合 numpy / pandas / matplotlib 做 1–2 个 Python 练习(例:蒙特卡洛退休模拟 + Fama-French 回归)。


核心要点

  • TODO: 通读全文后填入 5–10 条核心要点(每条 ≤80 字,含数字 / 名称 / 时间锚点)

Cross-references