上一次,我简短发表了一段文字,关于个人对量化策略过拟合问题的新看法,主要内容如下:


量化过拟合的最大问题,不是过度调参数问题,而是没有将合适策略模型放在合适的投资标的上,将不合适的模型放在不合适的标的上强行调参拟合,一定有好的收益曲线,但是这是过拟合的最大原因,过度调参数是其次的。


这句话里面包含了好几个关键信息:

第一个是,合适策略模型是否与投资标的的特性相匹配;

第二个是,只要有足够的参数,一定可以调出一条好的收益曲线;


一句话的核心就是,模型和标的错配,相当于用错误的基因去强行适应环境——看似活下来了,其实是把所有希望都押在了一场巧合上。


接下来,用通俗易懂的论证框架:用四个问题说清楚


第一问:为什么说“一定有好的收益曲线”?

这是一个纯数学问题,和投资逻辑无关。

任何一个策略模型,本质上都是一个函数:Y = f(X, θ),其中θ是参数。

当你的参数足够多(比如一个深度学习模型有几十万个参数),这个函数就变成了一个极其柔软的“万能橡皮泥”。历史上发生过的事情是有限的,而你可以拧的参数是近乎无限的。用一个无限灵活的橡皮泥,去贴合有限的历史数据点,怎么可能贴不严丝合缝?

所以,“一定有好的收益曲线”不是因为你发现了规律,纯粹是因为你的模型复杂度远高于历史数据的有效信息量。这是数学上的必然,但也是投资上的幻觉。

关键区别在于:这条曲线是你“捏”出来的,还是它本来就应该长这样?

---

第二问:错配 vs 过度调参,差别到底在哪?

把这个问题换成种地来理解:

过度调参:

你的地是对的,种子也是对的(比如在适合种小麦的土地上种小麦)。但你太贪心,非要找到一颗“历史上长得最高”的种子,忽略了这个种子可能只是恰好长在了一块特别肥沃的小角落,换个位置就不行了。

问题出在“选种子太挑”,不是出在“地不对”


模型与标的错配:

你的地是稻田,你却非要种小麦。小麦确实不适应水田,但你天天施肥、搭棚子、调水位,硬是把这一茬小麦养活了,长得还挺好。回头看照片,一片金黄。

➠ 但明年呢?天气一正常,水一多,根系全烂。你去年收的好,是因为你逆天改命伺候了它一整年,而不是它真的适合这片地。

错配的问题,是你从一开始就在对抗底层规律。调参只是你对抗的手段。手段越精,幻觉越真,未来亏得越彻底。

---

第三问:为什么错配比过度调参更危险?

因为两件事:

第一,它更隐蔽。

过度调参的模型,你还能看出来“太完美了”,夏普比高得不正常,有经验的量化研究员会警惕。

但错配模型,你看到的不只是参数多,你看到的是一个“逻辑上就讲不通”的东西——比如在豆粕上跑出了一个高频做市策略,年化200%,回撤1%。你第一反应不是怀疑过拟合,而是怀疑自己发现了新大陆。这种自信,才是致命的。


第二,它失效的方式更突然。

逻辑对但参数过拟合的模型,失效时通常是你亏我亏大家亏,但慢慢亏,因为底层逻辑(比如趋势)还在,只是噪音多了。

逻辑错的模型,失效时是你一个人在亏。因为市场正常回归它本来的状态后,你拟合出来的那些规律——那些逆着资产本性的规律——从来没有真实存在过。它会在某个瞬间彻底失灵,而且通常是跳崖式。

---

第四问:所以,这句话真正的理论内核是什么?

如果非要用一个理论来概括,不是 NFL,也不是偏差-方差,而是:

“数据的生成机制,比数据的表面形态重要一万倍。”

豆粕的价格,是天气、猪周期、压榨利润这些物理世界的因素生成的。

一只妖股的价格,是资金博弈、情绪、筹码结构这些博弈世界的因素生成的。

它们是两个不同的“数据生成机制”。


你的策略模型,本质上是试图用一个数学函数去逆向模仿这个生成机制。

· 你用对了生成机制的假设(比如用博弈类模型做妖股),你就在做正解。

· 你用错了生成机制的假设(比如用供需基本面模型做妖股),你就在做数学上可行但逻辑上虚空的拟合。


所谓的过拟合,

就是把“数学上的可行”当成了“逻辑上的真实”。

而模型与标的的错配,

就是制造这种幻觉的最高效的方式。


精选文章:

深入剖析 微盘股“策略原理”及其“非线性择时方案”

微盘股的非线性择时方案:震荡延迟买,趋势马上跟!

控制股票产品净值“最大回撤”的有效投资方案