机器学习怎样应用于量化交易

2024-04-29

1. 机器学习怎样应用于量化交易

机器学习怎样应用于量化交易(一)

曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。
机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程,广义角度来说就不单单是模型选择的问题。所以,如果认为“用支持向量机成功预测股票涨跌” 这样的研究,就是把机器学习应用于量化交易,这种狭义的认识无疑是买椟还珠,对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量,无非就是趋势的延续:现在,可通过系统的数据分析证实过去模糊不定的经验,机器学习算法将未曾被察觉的规律得以浮现纸面。
在我看来,未来的发展概有两个方向:
1.针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;
2.对于机器学习的热情回归理性,从工具为导向回归到问题为导向。
针对如何以问题为导向,在机器学习算法中挑选合适的工具,分享一些思路。
1.多因子模型的因子权重计算
当我们在构建多因子模型且已经选定了一系列因子之后,要如何根据不同的市场情况调整各个因子的权重呢?在以往的研究中发现,与其它算法相比较,随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以,目前在多因子模型的权重上,采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。
2.缺失值处理
处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义,以及我们需要使用数据进行何种计算。在尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)采用期望最大化算法 来用同一变量的已知数据对缺失值进行极大似然估计。(2)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力。
其实在量化领域,机器学习解决着线性模型天生的缺陷或弊端,所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用,目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态,很多时候也不是线性的。统计学习的优势此时就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。
在国内,机器学习在量化内应用跟领域有很大的关系,跟频率也有很大的关系。比如,CTA的运用可能就要多于股票,它处理数据的维度要远小于股票,获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum,它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。
很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征,对下一期盘口变化做一些概率上的预测,经过一定样本的训练之后,可以显著地提升算法表现。
而我仍谨慎看好深度学习等机器学习方法的原因在于,在认识市场上,现行的大部分方法与这些方法并不在一个维度上,这个优势让它们与其他方法相比,捕捉到更多的收益。也就是说,一个新的认识市场的角度才能带来alpha。

机器学习怎样应用于量化交易

最新文章
热门文章
推荐阅读