上一次,我简短发表了一段文字,关于个人对量化策略过拟合问题的新看法,主要内容如下:
量化过拟合的最大问题,不是过度调参数问题,而是没有将合适策略模型放在合适的投资标的上,将不合适的模型放在不合适的标的上强行调参拟合,一定有好的收益曲线,但是这是过拟合的最大原因,过度调参数是其次的。
这句话里面包含了好几个关键信息:
第一个是,合适策略模型是否与投资标的的特性相匹配;
第二个是,只要有足够的参数,一定可以调出一条好的收益曲线;
一句话的核心就是,模型和标的错配,相当于用错误的基因去强行适应环境——看似活下来了,其实是把所有希望都押在了一场巧合上。
接下来,用通俗易懂的论证框架:用四个问题说清楚
第一问:为什么说“一定有好的收益曲线”?
这是一个纯数学问题,和投资逻辑无关。
任何一个策略模型,本质上都是一个函数:Y = f(X, θ),其中θ是参数。
当你的参数足够多(比如一个深度学习模型有几十万个参数),这个函数就变成了一个极其柔软的“万能橡皮泥”。历史上发生过的事情是有限的,而你可以拧的参数是近乎无限的。用一个无限灵活的橡皮泥,去贴合有限的历史数据点,怎么可能贴不严丝合缝?
所以,“一定有好的收益曲线”不是因为你发现了规律,纯粹是因为你的模型复杂度远高于历史数据的有效信息量。这是数学上的必然,但也是投资上的幻觉。
关键区别在于:这条曲线是你“捏”出来的,还是它本来就应该长这样?
---
第二问:错配 vs 过度调参,差别到底在哪?
把这个问题换成种地来理解:
过度调参:
你的地是对的,种子也是对的(比如在适合种小麦的土地上种小麦)。但你太贪心,非要找到一颗“历史上长得最高”的种子,忽略了这个种子可能只是恰好长在了一块特别肥沃的小角落,换个位置就不行了。
➠ 问题出在“选种子太挑”,不是出在“地不对”。
模型与标的错配:
你的地是稻田,你却非要种小麦。小麦确实不适应水田,但你天天施肥、搭棚子、调水位,硬是把这一茬小麦养活了,长得还挺好。回头看照片,一片金黄。
➠ 但明年呢?天气一正常,水一多,根系全烂。你去年收的好,是因为你逆天改命伺候了它一整年,而不是它真的适合这片地。
错配的问题,是你从一开始就在对抗底层规律。调参只是你对抗的手段。手段越精,幻觉越真,未来亏得越彻底。
---
第三问:为什么错配比过度调参更危险?
因为两件事:
第一,它更隐蔽。
过度调参的模型,你还能看出来“太完美了”,夏普比高得不正常,有经验的量化研究员会警惕。
但错配模型,你看到的不只是参数多,你看到的是一个“逻辑上就讲不通”的东西——比如在豆粕上跑出了一个高频做市策略,年化200%,回撤1%。你第一反应不是怀疑过拟合,而是怀疑自己发现了新大陆。这种自信,才是致命的。
第二,它失效的方式更突然。
逻辑对但参数过拟合的模型,失效时通常是你亏我亏大家亏,但慢慢亏,因为底层逻辑(比如趋势)还在,只是噪音多了。
逻辑错的模型,失效时是你一个人在亏。因为市场正常回归它本来的状态后,你拟合出来的那些规律——那些逆着资产本性的规律——从来没有真实存在过。它会在某个瞬间彻底失灵,而且通常是跳崖式。
---
第四问:所以,这句话真正的理论内核是什么?
如果非要用一个理论来概括,不是 NFL,也不是偏差-方差,而是:
“数据的生成机制,比数据的表面形态重要一万倍。”
豆粕的价格,是天气、猪周期、压榨利润这些物理世界的因素生成的。
一只妖股的价格,是资金博弈、情绪、筹码结构这些博弈世界的因素生成的。
它们是两个不同的“数据生成机制”。
你的策略模型,本质上是试图用一个数学函数去逆向模仿这个生成机制。
· 你用对了生成机制的假设(比如用博弈类模型做妖股),你就在做正解。
· 你用错了生成机制的假设(比如用供需基本面模型做妖股),你就在做数学上可行但逻辑上虚空的拟合。
所谓的过拟合,
就是把“数学上的可行”当成了“逻辑上的真实”。
而模型与标的的错配,
就是制造这种幻觉的最高效的方式。
精选文章:
