概率与统计基础 — 投资决策的数学语言

L1别名概率与统计 · Statistics · 正态分布 · 胖尾 · 贝叶斯 · 蒙特卡洛 · Fat Tails · 黑天鹅

本质：投资是在不确定性下做决策。没有概率 / 统计的语言，你谈不了期望回报、风险、相关性、贝叶斯更新、样本外验证——这些都是基础词汇。这一页不求你成为量化师，但求你在读研报、建组合、做 Kelly 仓位时，知道"样本" / "分布" / "置信区间" / "胖尾" 分别是什么意思。

学习目标

读完本页后，你应该能够：

区分 离散 vs 连续 分布，默写 3 个最常用分布
理解 大数定律 与中心极限定理 及其投资意义
用 贝叶斯公式 做信念更新
解释 正态分布 + 胖尾 + 幂律 的差异与金融市场选择
识别相关性 vs 因果 + 幸存者偏差 + 小样本陷阱
理解 VaR / Expected Shortfall 的概率基础
读懂回归分析 输出（R² / t 值 / p 值 / 置信区间）
知道何时用蒙特卡洛模拟

Summary

投资的概率语言核心：(1) 期望值 E[X] = Σ x·p(x) 是"平均"结果；(2) 方差 Var[X] = E[(X − μ)²] 是"波动"；(3) 标准差 σ = √Var 是可加性风险度量。大数定律：样本多了平均向真值收敛——Kelly 赌本 + 长期复利的理论基础；中心极限定理：独立变量和近似正态分布——但前提是独立 + 有限方差，金融数据常违反。贝叶斯公式 P(H|E) = P(E|H)·P(H) / P(E) 是更新信念的唯一合法方法；散户常犯错误：只用基础率（忽略先验）或只用新信息（忽略先验）。正态分布的"3σ 事件概率 0.3%"在金融市场被严重低估——实际胖尾分布下6σ 事件也常见（Taleb 反复强调）。幂律分布（Pareto / Mandelbrot）更符合金融数据：20% 的交易日贡献 80% 的回报。相关性不是因果，也不代表同频共振——两个 β 相同的资产组合后分散化效果可能为 0。回归分析 R² 高不等于预测力强；R² 低可能因变量只是噪音多。蒙特卡洛 用于复杂组合的情景模拟，核心是"给定输入分布 → 采样 10000 次"。投资应用：(a) 仓位用 Kelly × 0.5（考虑估计误差）；(b) 回测看样本外而非样本内；(c) 尾部风险不用正态模型；(d) 新信息必须贝叶斯更新而非"替换"；(e) 看胖尾 / 偏度 / 峰度而非仅均值 / 标准差。

1. 离散 vs 连续分布

1.1 离散分布

代表：伯努利（Bernoulli）/ 二项（Binomial）/ 泊松（Poisson）

伯努利：

二元结果（成功 / 失败）
投资例：IPO 是否首日上涨
概率 p

二项：

n 次独立伯努利试验
投资例：10 次投资中成功几次
E[X] = np

泊松：

低概率事件次数
投资例：黑天鹅事件 / 违约次数
P(X=k) = e^(−λ)·λ^k / k!

1.2 连续分布

代表：正态（Normal）/ 对数正态（Lognormal）/ t-分布

正态分布 N(μ, σ²)：

钟形曲线
68/95/99.7 法则
高斯分布
金融学中被滥用

对数正态：

ln(X) 服从正态
股价通常假设对数正态
只能 ≥ 0
偏右

t-分布：

与正态相似但更胖尾
自由度越小越胖
金融实务常用 t-分布（4–6 自由度）

1.3 投资选哪个

目的	建议分布
理论建模（教科书）	正态
股价建模	对数正态
实际收益率	t-分布或混合
极端尾部	幂律
违约 / 破产	泊松

2. 期望值 + 方差 + 标准差

2.1 期望值

E[X] = Σ x·P(x)（离散） E[X] = ∫ x·f(x) dx（连续）

投资含义：

期望回报 = 每种情景回报 × 概率
长期复利的锚

2.2 方差

Var[X] = E[(X − μ)²] = E[X²] − (E[X])²

含义：

偏离均值的平方和期望
单位是"原单位的平方"（不直观）

2.3 标准差

σ = √Var

含义：

单位同原变量
"典型偏离程度"
可加性（对独立变量）：Var(X+Y) = Var(X) + Var(Y)

2.4 投资中的关键公式

组合期望：E[ $R_{p}$ ] = Σ $w_{i}$ · E[ $R_{i}$ ]
组合方差：Var[ $R_{p}$ ] = Σ w_i² · σ_i² + ΣΣ $w_{i}$ · $w_{j}$ ·Cov( $R_{i}$ , $R_{j}$ )
两资产方差：σ_p² = w²σ_1² + (1−w)²σ_2² + 2w(1−w)ρσ_1σ_2

2.5 偏度 + 峰度

偏度（Skewness）：

对称分布 = 0
右偏（正偏）：长右尾（罕见大正收益）
左偏（负偏）：长左尾（罕见大亏损）
多数资产左偏（崩盘 > 爆涨）

峰度（Kurtosis）：

正态 = 3（超额峰度 = 0）
3 = 尖峰胖尾
金融数据超额峰度常 3–10

投资意义：

只看 σ 忽略偏度 / 峰度 = 严重低估尾部风险
卖 OTM Put 策略：高 Sharpe + 极负偏 + 高峰度 = 表面漂亮实际危险

3. 大数定律 + 中心极限定理

3.1 大数定律（LLN）

独立同分布样本均值 → 真实均值（n → ∞）

投资意义：

多期投资 → 期望回报实现
多样化组合 → 平均风险接近"平均系统性风险"
Kelly 仓位需要长期才能实现期望增长

3.2 中心极限定理（CLT）

独立变量和的分布 → 正态分布（n 足够大）

前提：

独立（金融不总成立，危机时相关性 → 1）
有限方差（幂律可能不满足）
同分布（不严格必要）

3.3 对投资的启示

足够多的交易 / 周期 → 收益近似正态（粗略）
但月度 / 年度收益不是 正态（样本太少 + 市场非随机）
长期复利：假设独立同分布，但实际有自相关（动量 + 均值回归）

4. 贝叶斯定理

4.1 公式

P(H | E) = P(E | H) × P(H) / P(E)

P(H)：先验（prior，原有信念）
P(E|H)：似然（likelihood，看到证据的概率）
P(H|E)：后验（posterior，更新后信念）
P(E)：证据的边缘概率

4.2 经典例子：疾病检测

疾病发生率 1%（P(H) = 0.01）
检测灵敏度 95%（P(E|H) = 0.95）
假阳性率 5%（P(E|¬H) = 0.05）
检测阳性 → 真得病概率？

P(E) = 0.95 × 0.01 + 0.05 × 0.99 = 0.0590 P(H|E) = 0.95 × 0.01 / 0.0590 = 16.1%

错误直觉：多数人估 >80%，低估先验的重要性。

4.3 投资中的贝叶斯

例：新 CEO 是否能扭转公司

先验：新 CEO 扭转成功率 30%（P(H) = 0.3）
他刚做了并购，成功 CEO 做并购概率 20%（P(E|H) = 0.2）
失败 CEO 做并购概率 40%（P(E|¬H) = 0.4）

P(E) = 0.2 × 0.3 + 0.4 × 0.7 = 0.34 P(H|E) = 0.2 × 0.3 / 0.34 = 17.6%

新信息（并购）使成功概率下降（从 30% → 17.6%）。

4.4 常见错误

基础率忽略：只看新证据，忘记先验
过度更新：把新证据看得太重
不更新：新证据出现，信念不变

4.5 投资者的贝叶斯心态

每个新数据 → 更新，不替换
先验越弱（对标的不熟），新数据越有用
先验越强（长期跟踪），新数据权重小
"强观点，松握" 不是矛盾，是贝叶斯

5. 正态分布被高估 — 胖尾与幂律

5.1 正态分布的 6σ 概率

3σ 事件：0.27%（约每 370 个样本 1 个）
4σ：0.006%
5σ：0.00006%
6σ：0.0000002%（50 亿个样本 1 个）

5.2 金融市场的实际

1987 "黑色星期一"：-22.6%（约 23σ）
2020-03 美股单日 -12%（约 8σ）
2008-10 VIX 80+（历史均值 20 的 4σ）
正态模型预测 每 10 亿年一次的事件10 年内发生多次

5.3 Taleb 的核心论点

正态假设低估尾部
"Extremistan"：金融 / 收入 / 城市人口服从幂律
"Mediocristan"：身高 / 体重服从正态
混淆两者 = 最危险的思维错误

5.4 幂律分布（Power Law）

P(X > x) ∝ x^(−α)

特点：没有特征尺度
Pareto 80/20：20% 贡献 80%
投资回报分布常幂律
LTCM 1998 假设正态模型 → 爆仓

5.5 实务含义

不要卖裸 Put / 裸 Short 期权（正态模型低估损失）
保留现金 以应对黑天鹅
避免"高 Sharpe 但高偏度"策略
保险结构的组合 >> "最优化"组合（Taleb）

6. 相关性 vs 因果

6.1 相关系数 ρ

ρ = Cov(X, Y) / (σ_X · σ_Y)

范围：-1 到 +1

+1：完美正相关
0：不相关
-1：完美负相关

6.2 相关不等于因果

经典搞笑例子：

冰淇淋销量 + 溺水死亡 ρ ≈ 0.9
共同原因：夏天
停卖冰淇淋不会减少溺水

6.3 投资中的陷阱

小盘股 + 高波动 ρ ≈ 0.8 → 买小盘 = 波动增加？实际是同因（都是风险定价）
高 P/E + 低回报 ρ ≈ -0.3 → 买低 P/E 必胜？不是那么简单（陷阱 + 机会并存）

6.4 滚动相关性

危机时相关性急升：

平时 ρ ≈ 0.3
危机（2008 / 2020）ρ ≈ 0.9
"分散化在你最需要时失效"

6.5 虚假相关

Tyler Vigen "spurious correlations"：

人造黄油消费 + 美国离婚率
溺水死亡 + Nicholas Cage 电影数

投资启示：数据挖掘过度 → 必然找到相关但无意义的模式。

7. 样本偏差

7.1 幸存者偏差（Survivorship Bias）

只看"活下来"的
失败公司 / 基金已退市
"过去 50 年最佳 100 只股票" = 完全 misleading

经典：

1985–2000 基金业绩看似很强
若加入已关闭基金 → 大盘平均 -2%

7.2 选择偏差

自愿参与 / 回应的样本不代表整体
问卷调查结果常偏差

7.3 看涨偏差（Publication Bias）

学术文献 + 研报偏向"发现了什么"
"没发现" 不发表
→ 公开研究结果系统性高估 α

7.4 数据挖掘偏差

测试 1000 个策略 → 总有 50 个假阳性（5% 水平）
样本外验证必不可少
避免"过拟合"

8. 置信区间 + 假设检验

8.1 置信区间

"95% 置信区间"：重复实验 100 次，其中 ~95 个区间覆盖真值。

投资中：

策略回报 10% ± 5%（95% CI [5%, 15%]）
0 是否在区间内→ 是否"统计显著"

8.2 假设检验（Hypothesis Testing）

$H_{0}$ （零假设）：策略 α = 0
$H_{1}$ （备择）：α > 0
数据支持 $H_{1}$ 的程度 → p 值

8.3 p 值陷阱

p = 0.04 不代表" $H_{1}$ 正确的概率 = 0.96"
只代表"若 $H_{0}$ 为真，看到数据或更极端的概率 0.04"
多次测试 降低真实显著性
p < 0.05 仅是起点，不是终点

8.4 投资回测的 p 值问题

1000 次测试，50 个 p < 0.05 → 几乎必然有假阳性
Bonferroni 校正：p ÷ 测试次数
或 False Discovery Rate（FDR）

8.5 效应大小 vs 统计显著

p 值显示是否显著，但大小也要看
α = 0.5% 的"显著"策略 → 扣手续费后无意义
关注 Sharpe / IR / α 大小

9. 回归分析

9.1 简单线性回归

Y = α + β·X + ε

α：截距（超额回报）
β：斜率（敏感度）
ε：残差（噪音）

9.2 多元回归

Y = α + β_1· $X_{1}$ + β_2· $X_{2}$ + ... + ε

例：Fama-French 三因子回归 $R_{i}$ − $R_{f}$ = α + β_MKT·MKT + β_SMB·SMB + β_HML·HML + ε

9.3 R²（解释力）

0 ≤ R² ≤ 1
越高越好（解释变量方差的比例）
投资回归中 R² 0.6–0.9 常见
但 R² 高 ≠ 预测力强（样本内 vs 样本外）

9.4 t 值 / p 值

每个系数的统计显著性
|t| > 2 通常认为显著
但经济重要性比统计显著更重要

9.5 回归的陷阱

多重共线性：解释变量间相关度高 → β 不稳
过拟合：参数太多 → 样本内强、样本外弱
异方差：残差非恒定方差
自相关：残差有序列性（时间序列常见）

9.6 投资应用

β 估算
因子暴露测量
Pairs trading 协整
预测信号测试

10. 蒙特卡洛模拟

10.1 核心思想

给定输入分布 → 随机采样 10,000–100,000 次
计算输出分布
适合非解析问题

10.2 投资中用法

退休金充足性：

输入：初始资产 + 支出 + 投资回报分布
输出：30 年后破产概率

期权定价（替代 Black-Scholes）：

输入：标的路径分布
输出：期望 payoff

组合尾部风险：

输入：各资产回报分布 + 相关结构
输出：95% / 99% VaR

10.3 实操工具

Excel（内置随机数）
Python numpy.random
R quantmod
专业软件：@Risk / Crystal Ball

10.4 注意事项

输入分布错了 → 输出垃圾
相关结构要真实
尾部建模不能用正态
小心"假精度"（输出 1000 个数字≠ 靠谱）

11. Kelly 公式 — 概率的仓位应用

11.1 完整版 Kelly

f = (p·b − q) / b*

p：胜率
b：赔率（赢时 payoff ratio）
q = 1 − p

11.2 投资版 Kelly

f = (μ − $R_{f}$ ) / σ²*

μ：期望回报
$R_{f}$ ：无风险利率
σ：波动率

11.3 实际用 Half-Kelly

估计误差 → 全 Kelly 过激进
Half-Kelly f/2 = 大部分回报 + 60% 波动降低
见 Kelly 仓位 sizing

11.4 Kelly 的数学根基

最大化几何均值回报
长期复利最优
大数定律保证

12. 风险度量的概率基础

12.1 VaR（Value at Risk）

给定置信水平下的最大损失
例：95% 1 日 VaR = $1M \to 20 天中 1 天损失超$1M

12.2 CVaR / Expected Shortfall

超过 VaR 时的平均损失
对胖尾更敏感
2016 年 Basel III 要求替代 VaR

12.3 Drawdown

从峰值到谷底的最大回撤
历史最大回撤（MDD）
回撤恢复时间

12.4 详见

风险度量 — 深度讨论

13. 投资者必掌握的统计陷阱

13.1 "回测完美"幻觉

样本内 vs 样本外
过拟合
最近市场 ≠ 未来市场
走势差异 + 交易成本 杀掉多数策略

13.2 "均值回归必然"

均值回归是条件的
小盘股均值回归明显
大盘个股可能长期偏离（Apple / Amazon）

13.3 "波动率 ≠ 风险"

对长期投资者，短期波动不是风险
真正风险 = 永久损失 / 不能实现目标
Buffett：波动率 ≠ 风险

13.4 "预测方向就够"

方向对但大小不对 → 仓位错
胜率 60% 但赢 1 输 3 → 长期亏损

13.5 "历史数据 = 未来"

结构性变化 → 历史不代表
2008 + 2020 + 2022 每次都创造新"histoy"

14. 对应读物

入门：Silver The Signal and the Noise
Taleb 三部曲：Fooled by Randomness / Black Swan / Antifragile
Bernstein Against the Gods（概率思想史）
数学：Hull Options 附录 + Wasserman All of Statistics
实务：Grinold & Kahn Active Portfolio Management

15. 对应 wiki 页面

现代金融理论 — 统计应用在 CAPM / EMH
Kelly 仓位 sizing — 概率仓位
风险度量 — σ / VaR / MDD
行为金融 — 概率偏差
量化因子投资 — 回归 + 因子
对冲操作手册 — 胖尾防御

最后更新 2026-04-19。此页是 L1 数学根基。建议配合 numpy / pandas / matplotlib 做 1–2 个 Python 练习（例：蒙特卡洛退休模拟 + Fama-French 回归）。

核心要点

TODO: 通读全文后填入 5–10 条核心要点（每条 ≤80 字，含数字 / 名称 / 时间锚点）

Cross-references

← 索引