概率与统计基础 — 投资决策的数学语言
本质:投资是在不确定性下做决策。没有概率 / 统计的语言,你谈不了期望回报、风险、相关性、贝叶斯更新、样本外验证——这些都是基础词汇。这一页不求你成为量化师,但求你在读研报、建组合、做 Kelly 仓位时,知道"样本" / "分布" / "置信区间" / "胖尾" 分别是什么意思。
学习目标
读完本页后,你应该能够:
- 区分 离散 vs 连续 分布,默写 3 个最常用分布
- 理解 大数定律 与中心极限定理 及其投资意义
- 用 贝叶斯公式 做信念更新
- 解释 正态分布 + 胖尾 + 幂律 的差异与金融市场选择
- 识别相关性 vs 因果 + 幸存者偏差 + 小样本陷阱
- 理解 VaR / Expected Shortfall 的概率基础
- 读懂回归分析 输出(R² / t 值 / p 值 / 置信区间)
- 知道何时用蒙特卡洛模拟
Summary
投资的概率语言核心:(1) 期望值 E[X] = Σ x·p(x) 是"平均"结果;(2) 方差 Var[X] = E[(X − μ)²] 是"波动";(3) 标准差 σ = √Var 是可加性风险度量。大数定律:样本多了平均向真值收敛——Kelly 赌本 + 长期复利的理论基础;中心极限定理:独立变量和近似正态分布——但前提是独立 + 有限方差,金融数据常违反。贝叶斯公式 P(H|E) = P(E|H)·P(H) / P(E) 是更新信念的唯一合法方法;散户常犯错误:只用基础率(忽略先验)或只用新信息(忽略先验)。正态分布的"3σ 事件概率 0.3%"在金融市场被严重低估——实际胖尾分布下6σ 事件也常见(Taleb 反复强调)。幂律分布(Pareto / Mandelbrot)更符合金融数据:20% 的交易日贡献 80% 的回报。相关性不是因果,也不代表同频共振——两个 β 相同的资产组合后分散化效果可能为 0。回归分析 R² 高不等于预测力强;R² 低可能因变量只是噪音多。蒙特卡洛 用于复杂组合的情景模拟,核心是"给定输入分布 → 采样 10000 次"。投资应用:(a) 仓位用 Kelly × 0.5(考虑估计误差);(b) 回测看样本外而非样本内;(c) 尾部风险不用正态模型;(d) 新信息必须贝叶斯更新而非"替换";(e) 看胖尾 / 偏度 / 峰度而非仅均值 / 标准差。
1. 离散 vs 连续分布
1.1 离散分布
代表:伯努利(Bernoulli)/ 二项(Binomial)/ 泊松(Poisson)
伯努利:
- 二元结果(成功 / 失败)
- 投资例:IPO 是否首日上涨
- 概率 p
二项:
- n 次独立伯努利试验
- 投资例:10 次投资中成功几次
- E[X] = np
泊松:
- 低概率事件次数
- 投资例:黑天鹅事件 / 违约次数
- P(X=k) = e^(−λ)·λ^k / k!
1.2 连续分布
代表:正态(Normal)/ 对数正态(Lognormal)/ t-分布
正态分布 N(μ, σ²):
- 钟形曲线
- 68/95/99.7 法则
- 高斯分布
- 金融学中被滥用
对数正态:
- ln(X) 服从正态
- 股价通常假设对数正态
- 只能 ≥ 0
- 偏右
t-分布:
- 与正态相似但更胖尾
- 自由度越小越胖
- 金融实务常用 t-分布(4–6 自由度)
1.3 投资选哪个
| 目的 | 建议分布 |
|---|---|
| 理论建模(教科书) | 正态 |
| 股价建模 | 对数正态 |
| 实际收益率 | t-分布 或 混合 |
| 极端尾部 | 幂律 |
| 违约 / 破产 | 泊松 |
2. 期望值 + 方差 + 标准差
2.1 期望值
E[X] = Σ x·P(x)(离散) E[X] = ∫ x·f(x) dx(连续)
投资含义:
- 期望回报 = 每种情景回报 × 概率
- 长期复利的锚
2.2 方差
Var[X] = E[(X − μ)²] = E[X²] − (E[X])²
含义:
- 偏离均值的平方和期望
- 单位是"原单位的平方"(不直观)
2.3 标准差
σ = √Var
含义:
- 单位同原变量
- "典型偏离程度"
- 可加性(对独立变量):Var(X+Y) = Var(X) + Var(Y)
2.4 投资中的关键公式
- 组合期望:E[] = Σ · E[]
- 组合方差:Var[] = Σ w_i² · σ_i² + ΣΣ ··Cov(, )
- 两资产方差:σ_p² = w²σ_1² + (1−w)²σ_2² + 2w(1−w)ρσ_1σ_2
2.5 偏度 + 峰度
偏度(Skewness):
- 对称分布 = 0
- 右偏(正偏):长右尾(罕见大正收益)
- 左偏(负偏):长左尾(罕见大亏损)
- 多数资产左偏(崩盘 > 爆涨)
峰度(Kurtosis):
- 正态 = 3(超额峰度 = 0)
-
3 = 尖峰胖尾
- 金融数据超额峰度常 3–10
投资意义:
- 只看 σ 忽略偏度 / 峰度 = 严重低估尾部风险
- 卖 OTM Put 策略:高 Sharpe + 极负偏 + 高峰度 = 表面漂亮实际危险
3. 大数定律 + 中心极限定理
3.1 大数定律(LLN)
独立同分布样本均值 → 真实均值(n → ∞)
投资意义:
- 多期投资 → 期望回报实现
- 多样化组合 → 平均风险接近"平均系统性风险"
- Kelly 仓位需要长期才能实现期望增长
3.2 中心极限定理(CLT)
独立变量和的分布 → 正态分布(n 足够大)
前提:
- 独立(金融不总成立,危机时相关性 → 1)
- 有限方差(幂律可能不满足)
- 同分布(不严格必要)
3.3 对投资的启示
- 足够多的交易 / 周期 → 收益近似正态(粗略)
- 但月度 / 年度收益不是 正态(样本太少 + 市场非随机)
- 长期复利:假设独立同分布,但实际有自相关(动量 + 均值回归)
4. 贝叶斯定理
4.1 公式
P(H | E) = P(E | H) × P(H) / P(E)
- P(H):先验(prior,原有信念)
- P(E|H):似然(likelihood,看到证据的概率)
- P(H|E):后验(posterior,更新后信念)
- P(E):证据的边缘概率
4.2 经典例子:疾病检测
- 疾病发生率 1%(P(H) = 0.01)
- 检测灵敏度 95%(P(E|H) = 0.95)
- 假阳性率 5%(P(E|¬H) = 0.05)
- 检测阳性 → 真得病概率 ?
P(E) = 0.95 × 0.01 + 0.05 × 0.99 = 0.0590 P(H|E) = 0.95 × 0.01 / 0.0590 = 16.1%
错误直觉:多数人估 >80%,低估先验的重要性。
4.3 投资中的贝叶斯
例:新 CEO 是否能扭转公司
- 先验:新 CEO 扭转成功率 30%(P(H) = 0.3)
- 他刚做了并购,成功 CEO 做并购概率 20%(P(E|H) = 0.2)
- 失败 CEO 做并购概率 40%(P(E|¬H) = 0.4)
P(E) = 0.2 × 0.3 + 0.4 × 0.7 = 0.34 P(H|E) = 0.2 × 0.3 / 0.34 = 17.6%
新信息(并购)使成功概率下降(从 30% → 17.6%)。
4.4 常见错误
- 基础率忽略:只看新证据,忘记先验
- 过度更新:把新证据看得太重
- 不更新:新证据出现,信念不变
4.5 投资者的贝叶斯心态
- 每个新数据 → 更新,不替换
- 先验越弱(对标的不熟),新数据越有用
- 先验越强(长期跟踪),新数据权重小
- "强观点,松握" 不是矛盾,是贝叶斯
5. 正态分布被高估 — 胖尾与幂律
5.1 正态分布的 6σ 概率
- 3σ 事件:0.27%(约每 370 个样本 1 个)
- 4σ:0.006%
- 5σ:0.00006%
- 6σ:0.0000002%(50 亿个样本 1 个)
5.2 金融市场的实际
- 1987 "黑色星期一":-22.6%(约 23σ)
- 2020-03 美股单日 -12%(约 8σ)
- 2008-10 VIX 80+(历史均值 20 的 4σ)
- 正态模型预测 每 10 亿年一次的事件10 年内发生多次
5.3 Taleb 的核心论点
- 正态假设低估尾部
- "Extremistan":金融 / 收入 / 城市人口 服从幂律
- "Mediocristan":身高 / 体重服从正态
- 混淆两者 = 最危险的思维错误
5.4 幂律分布(Power Law)
P(X > x) ∝ x^(−α)
- 特点:没有特征尺度
- Pareto 80/20:20% 贡献 80%
- 投资回报分布常幂律
- LTCM 1998 假设正态模型 → 爆仓
5.5 实务含义
- 不要卖裸 Put / 裸 Short 期权(正态模型低估损失)
- 保留现金 以应对黑天鹅
- 避免"高 Sharpe 但高偏度"策略
- 保险结构的组合 >> "最优化"组合(Taleb)
6. 相关性 vs 因果
6.1 相关系数 ρ
ρ = Cov(X, Y) / (σ_X · σ_Y)
范围:-1 到 +1
- +1:完美正相关
- 0:不相关
- -1:完美负相关
6.2 相关不等于因果
经典搞笑例子:
- 冰淇淋销量 + 溺水死亡 ρ ≈ 0.9
- 共同原因:夏天
- 停卖冰淇淋不会减少溺水
6.3 投资中的陷阱
6.4 滚动相关性
危机时相关性急升:
- 平时 ρ ≈ 0.3
- 危机(2008 / 2020)ρ ≈ 0.9
- "分散化在你最需要时失效"
6.5 虚假相关
Tyler Vigen "spurious correlations":
- 人造黄油消费 + 美国离婚率
- 溺水死亡 + Nicholas Cage 电影数
投资启示:数据挖掘过度 → 必然找到相关但无意义的模式。
7. 样本偏差
7.1 幸存者偏差(Survivorship Bias)
- 只看"活下来"的
- 失败公司 / 基金已退市
- "过去 50 年最佳 100 只股票" = 完全 misleading
经典:
- 1985–2000 基金业绩看似很强
- 若加入已关闭基金 → 大盘平均 -2%
7.2 选择偏差
- 自愿参与 / 回应的样本不代表整体
- 问卷调查结果常偏差
7.3 看涨偏差(Publication Bias)
- 学术文献 + 研报偏向"发现了什么"
- "没发现" 不发表
- → 公开研究结果系统性高估 α
7.4 数据挖掘偏差
- 测试 1000 个策略 → 总有 50 个假阳性(5% 水平)
- 样本外验证必不可少
- 避免"过拟合"
8. 置信区间 + 假设检验
8.1 置信区间
"95% 置信区间":重复实验 100 次,其中 ~95 个区间覆盖真值。
投资中:
- 策略回报 10% ± 5%(95% CI [5%, 15%])
- 0 是否在区间内→ 是否"统计显著"
8.2 假设检验(Hypothesis Testing)
- (零假设):策略 α = 0
- (备择):α > 0
- 数据支持 的程度 → p 值
8.3 p 值陷阱
- p = 0.04 不代表" 正确的概率 = 0.96"
- 只代表"若 为真,看到数据或更极端的概率 0.04"
- 多次测试 降低真实显著性
- p < 0.05 仅是起点,不是终点
8.4 投资回测的 p 值问题
- 1000 次测试,50 个 p < 0.05 → 几乎必然有假阳性
- Bonferroni 校正:p ÷ 测试次数
- 或 False Discovery Rate(FDR)
8.5 效应大小 vs 统计显著
- p 值显示是否显著,但大小也要看
- α = 0.5% 的"显著"策略 → 扣手续费后无意义
- 关注 Sharpe / IR / α 大小
9. 回归分析
9.1 简单线性回归
Y = α + β·X + ε
- α:截距(超额回报)
- β:斜率(敏感度)
- ε:残差(噪音)
9.2 多元回归
Y = α + β_1· + β_2· + ... + ε
例:Fama-French 三因子回归 − = α + β_MKT·MKT + β_SMB·SMB + β_HML·HML + ε
9.3 R²(解释力)
- 0 ≤ R² ≤ 1
- 越高越好(解释变量方差的比例)
- 投资回归中 R² 0.6–0.9 常见
- 但 R² 高 ≠ 预测力强(样本内 vs 样本外)
9.4 t 值 / p 值
- 每个系数的统计显著性
- |t| > 2 通常认为显著
- 但经济重要性比统计显著更重要
9.5 回归的陷阱
- 多重共线性:解释变量间相关度高 → β 不稳
- 过拟合:参数太多 → 样本内强、样本外弱
- 异方差:残差非恒定方差
- 自相关:残差有序列性(时间序列常见)
9.6 投资应用
- β 估算
- 因子暴露测量
- Pairs trading 协整
- 预测信号测试
10. 蒙特卡洛模拟
10.1 核心思想
- 给定输入分布 → 随机采样 10,000–100,000 次
- 计算输出分布
- 适合非解析问题
10.2 投资中用法
退休金充足性:
- 输入:初始资产 + 支出 + 投资回报分布
- 输出:30 年后破产概率
期权定价(替代 Black-Scholes):
- 输入:标的路径分布
- 输出:期望 payoff
组合尾部风险:
- 输入:各资产回报分布 + 相关结构
- 输出:95% / 99% VaR
10.3 实操工具
- Excel(内置随机数)
- Python
numpy.random - R
quantmod - 专业软件:@Risk / Crystal Ball
10.4 注意事项
- 输入分布错了 → 输出垃圾
- 相关结构要真实
- 尾部建模不能用正态
- 小心"假精度"(输出 1000 个数字≠ 靠谱)
11. Kelly 公式 — 概率的仓位应用
11.1 完整版 Kelly
f = (p·b − q) / b*
- p:胜率
- b:赔率(赢时 payoff ratio)
- q = 1 − p
11.2 投资版 Kelly
f = (μ − ) / σ²*
- μ:期望回报
- :无风险利率
- σ:波动率
11.3 实际用 Half-Kelly
- 估计误差 → 全 Kelly 过激进
- Half-Kelly f/2 = 大部分回报 + 60% 波动降低
- 见 Kelly 仓位 sizing
11.4 Kelly 的数学根基
- 最大化几何均值回报
- 长期复利最优
- 大数定律保证
12. 风险度量的概率基础
12.1 VaR(Value at Risk)
- 给定置信水平下的最大损失
- 例:95% 1 日 VaR = $1M \to 20 天中 1 天损失超$1M
12.2 CVaR / Expected Shortfall
- 超过 VaR 时的平均损失
- 对胖尾更敏感
- 2016 年 Basel III 要求替代 VaR
12.3 Drawdown
12.4 详见
- 风险度量 — 深度讨论
13. 投资者必掌握的统计陷阱
13.1 "回测完美"幻觉
- 样本内 vs 样本外
- 过拟合
- 最近市场 ≠ 未来市场
- 走势差异 + 交易成本 杀掉多数策略
13.2 "均值回归必然"
- 均值回归是条件的
- 小盘股均值回归明显
- 大盘个股可能长期偏离(Apple / Amazon)
13.3 "波动率 ≠ 风险"
- 对长期投资者,短期波动不是风险
- 真正风险 = 永久损失 / 不能实现目标
- Buffett:波动率 ≠ 风险
13.4 "预测方向就够"
- 方向对但大小不对 → 仓位错
- 胜率 60% 但赢 1 输 3 → 长期亏损
13.5 "历史数据 = 未来"
- 结构性变化 → 历史不代表
- 2008 + 2020 + 2022 每次都创造新"histoy"
14. 对应读物
- 入门:Silver The Signal and the Noise
- Taleb 三部曲:Fooled by Randomness / Black Swan / Antifragile
- Bernstein Against the Gods(概率思想史)
- 数学:Hull Options 附录 + Wasserman All of Statistics
- 实务:Grinold & Kahn Active Portfolio Management
15. 对应 wiki 页面
- 现代金融理论 — 统计应用在 CAPM / EMH
- Kelly 仓位 sizing — 概率仓位
- 风险度量 — σ / VaR / MDD
- 行为金融 — 概率偏差
- 量化因子投资 — 回归 + 因子
- 对冲操作手册 — 胖尾防御
最后更新 2026-04-19。此页是 L1 数学根基。建议配合 numpy / pandas / matplotlib 做 1–2 个 Python 练习(例:蒙特卡洛退休模拟 + Fama-French 回归)。
核心要点
- TODO: 通读全文后填入 5–10 条核心要点(每条 ≤80 字,含数字 / 名称 / 时间锚点)