过拟合问题的新解：把“数学上的可行”当成了“逻辑上的真实”

上一次，我简短发表了一段文字，关于个人对量化策略过拟合问题的新看法，主要内容如下：

量化过拟合的最大问题，不是过度调参数问题，而是没有将合适策略模型放在合适的投资标的上，将不合适的模型放在不合适的标的上强行调参拟合，一定有好的收益曲线，但是这是过拟合的最大原因，过度调参数是其次的。

这句话里面包含了好几个关键信息：

第一个是，合适策略模型是否与投资标的的特性相匹配；

第二个是，只要有足够的参数，一定可以调出一条好的收益曲线；

一句话的核心就是，模型和标的错配，相当于用错误的基因去强行适应环境——看似活下来了，其实是把所有希望都押在了一场巧合上。

接下来，用通俗易懂的论证框架：用四个问题说清楚

第一问：为什么说“一定有好的收益曲线”？

这是一个纯数学问题，和投资逻辑无关。

任何一个策略模型，本质上都是一个函数：Y = f(X, θ)，其中θ是参数。

当你的参数足够多（比如一个深度学习模型有几十万个参数），这个函数就变成了一个极其柔软的“万能橡皮泥”。历史上发生过的事情是有限的，而你可以拧的参数是近乎无限的。用一个无限灵活的橡皮泥，去贴合有限的历史数据点，怎么可能贴不严丝合缝？

所以，“一定有好的收益曲线”不是因为你发现了规律，纯粹是因为你的模型复杂度远高于历史数据的有效信息量。这是数学上的必然，但也是投资上的幻觉。

关键区别在于：这条曲线是你“捏”出来的，还是它本来就应该长这样？

---

第二问：错配 vs 过度调参，差别到底在哪？

把这个问题换成种地来理解：

过度调参：

你的地是对的，种子也是对的（比如在适合种小麦的土地上种小麦）。但你太贪心，非要找到一颗“历史上长得最高”的种子，忽略了这个种子可能只是恰好长在了一块特别肥沃的小角落，换个位置就不行了。

➠ 问题出在“选种子太挑”，不是出在“地不对”。

模型与标的错配：

你的地是稻田，你却非要种小麦。小麦确实不适应水田，但你天天施肥、搭棚子、调水位，硬是把这一茬小麦养活了，长得还挺好。回头看照片，一片金黄。

➠ 但明年呢？天气一正常，水一多，根系全烂。你去年收的好，是因为你逆天改命伺候了它一整年，而不是它真的适合这片地。

错配的问题，是你从一开始就在对抗底层规律。调参只是你对抗的手段。手段越精，幻觉越真，未来亏得越彻底。

---

第三问：为什么错配比过度调参更危险？

因为两件事：

第一，它更隐蔽。

过度调参的模型，你还能看出来“太完美了”，夏普比高得不正常，有经验的量化研究员会警惕。

但错配模型，你看到的不只是参数多，你看到的是一个“逻辑上就讲不通”的东西——比如在豆粕上跑出了一个高频做市策略，年化200%，回撤1%。你第一反应不是怀疑过拟合，而是怀疑自己发现了新大陆。这种自信，才是致命的。

第二，它失效的方式更突然。

逻辑对但参数过拟合的模型，失效时通常是你亏我亏大家亏，但慢慢亏，因为底层逻辑（比如趋势）还在，只是噪音多了。

逻辑错的模型，失效时是你一个人在亏。因为市场正常回归它本来的状态后，你拟合出来的那些规律——那些逆着资产本性的规律——从来没有真实存在过。它会在某个瞬间彻底失灵，而且通常是跳崖式。

---

第四问：所以，这句话真正的理论内核是什么？

如果非要用一个理论来概括，不是 NFL，也不是偏差-方差，而是：

“数据的生成机制，比数据的表面形态重要一万倍。”

豆粕的价格，是天气、猪周期、压榨利润这些物理世界的因素生成的。

一只妖股的价格，是资金博弈、情绪、筹码结构这些博弈世界的因素生成的。

它们是两个不同的“数据生成机制”。

你的策略模型，本质上是试图用一个数学函数去逆向模仿这个生成机制。

· 你用对了生成机制的假设（比如用博弈类模型做妖股），你就在做正解。

· 你用错了生成机制的假设（比如用供需基本面模型做妖股），你就在做数学上可行但逻辑上虚空的拟合。

所谓的过拟合，

就是把“数学上的可行”当成了“逻辑上的真实”。

而模型与标的的错配，

就是制造这种幻觉的最高效的方式。

精选文章：

深入剖析微盘股“策略原理”及其“非线性择时方案”

微盘股的非线性择时方案：震荡延迟买，趋势马上跟！

控制股票产品净值“最大回撤”的有效投资方案

打赏