机器学习怎样应用于量化交易

2024-04-29
1. 机器学习怎样应用于量化交易

机器学习怎样应用于量化交易（一）

曾有朋友问过，国内现在量化领域机器学习应用的少，是否因为效果不如简单的策略。其实，把机器学习应用在量化交易上始终面临着两难，却并不是无解的两难。很多时候并不是机器学习不work，而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。
机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程，广义角度来说就不单单是模型选择的问题。所以，如果认为“用支持向量机成功预测股票涨跌” 这样的研究，就是把机器学习应用于量化交易，这种狭义的认识无疑是买椟还珠，对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量，无非就是趋势的延续：现在，可通过系统的数据分析证实过去模糊不定的经验，机器学习算法将未曾被察觉的规律得以浮现纸面。
在我看来，未来的发展概有两个方向：
1.针对量化交易的统计学习算法被提出，使其适合于噪声大，分布不稳定的金融数据分析；
2.对于机器学习的热情回归理性，从工具为导向回归到问题为导向。
针对如何以问题为导向，在机器学习算法中挑选合适的工具，分享一些思路。
1.多因子模型的因子权重计算
当我们在构建多因子模型且已经选定了一系列因子之后，要如何根据不同的市场情况调整各个因子的权重呢？在以往的研究中发现，与其它算法相比较，随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以，目前在多因子模型的权重上，采用当期收益率对上期因子进行随机森林回归分析，以确定下一期多因子模型的因子权重。
2.缺失值处理
处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法，依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义，以及我们需要使用数据进行何种计算。在尝试构建多因子模型时，我们选择了两种缺失值替换方法：（1）采用期望最大化算法 来用同一变量的已知数据对缺失值进行极大似然估计。（2）把模型中包含的所有因子作为特征变量，并赋予其相同的权重，再采用机器学习中的K-近邻算法来寻找最相似的标的，保证缺失值替换后，不会强化一部分因子的影响力。
其实在量化领域，机器学习解决着线性模型天生的缺陷或弊端，所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用，目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态，很多时候也不是线性的。统计学习的优势此时就会体现出来，它们能够迅速地适应市场，或者用一种更“准确的”方式来描述市场。
在国内，机器学习在量化内应用跟领域有很大的关系，跟频率也有很大的关系。比如，CTA的运用可能就要多于股票，它处理数据的维度要远小于股票，获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum，它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。
很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征，对下一期盘口变化做一些概率上的预测，经过一定样本的训练之后，可以显著地提升算法表现。
而我仍谨慎看好深度学习等机器学习方法的原因在于，在认识市场上，现行的大部分方法与这些方法并不在一个维度上，这个优势让它们与其他方法相比，捕捉到更多的收益。也就是说，一个新的认识市场的角度才能带来alpha。
机器学习怎样应用于量化交易