【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

摘要

另类标签和集成学习有助于提升人工智能选股模型的超额收益

对于量化选股模型来说,另类标签指有别于收益率的标签,也可视为一种“另类数据”。本文通过设置多种测试情形,对比了另类标签(信息比率和Calmar比率)与传统收益率标签在构建人工智能选股模型的优劣。相比收益率标签,另类标签在全A股优势显著,能明显提升选股模型的超额收益和信息比率;另类标签在指数成分股内优势较小,仅对超额收益的提升有一定作用。本文进一步使用集成学习对多种标签构建的模型进行集成。集成模型的超额收益和信息比率有稳定提升,Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。

本文认为使用另类标签有三个方面的合理性

(1)另类标签相比收益率包含更多信息。传统的收益率标签只利用了时间区间两端的价格信息,忽略了区间内的价格走势。本文测试的另类标签包含了股票在区间内的收益、波动和回撤信息,具有更大信息量。(2) 标签也是一种指标,过度使用存在交易拥挤的可能性。标签通过损失函数的作用可以直接影响到输入选股因子的权重,不同的标签对于因子权重的影响不同。如果市场中大量的投资者使用收益率为标签,则存在交易拥挤的可能,此时如果使用一些另类标签,则可能开辟一片投资的“蓝海”。(3) 现有的一些研究中,也使用有别于收益率的另类标签来构建模型。

本文使用了在多种训练期长度下测试的方法对比不同标签构建的模型

如果仅对不同标签构建的模型进行单次测试对比,所得出的结论未必可靠。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。本文在多种不同训练期长度下进行测试对比,训练期长度从6个月到72个月共67种情形,在67种情形中,可以统计不同标签构建的模型在各个评价指标上的分布情况,从而得到更具有说服力的结果。此外,多种训练期长度训练的模型也为集成学习提供了大量可用的子模型。

相比收益率标签,另类标签在全A股优势显著,在指数成分股内优势较小

在全A股中,另类标签相比收益率标签构建的模型在年化超额收益率、信息比率、Calmar比率上表现都更好,年化超额收益率上的胜率在90%左右。在中证500和中证800成分股中,另类标签相比收益率标签构建的模型仅在年化超额收益率上有较稳定的优势,胜率在58.21%~76.12%之间。此外在以上所有测试中,另类标签相比收益率标签构建的模型在超额收益最大回撤上都表现更差。对模型进行因子重要性分析,另类标签相比收益率标签构建的模型,三大量价因子(动量反转、波动率、换手率)的重要性下降,财务质量和一致预期因子的重要性上升。

集成学习能充分利用不同模型的优点,在多个股票池内回测效果最好

为了充分利用不同模型的优点,本文将各个子模型的预测结果视为单因子,使用3种传统因子合成的方法(等权,历史IC加权,历史因子收益率加权)进行模型集成。相比使用单一模型的平均回测绩效,集成模型的超额收益和信息比率有稳定提升,Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。

风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。另类标签构建的选股模型回撤较大,使用须谨慎。

本文研究导读

人工智能选股的应用中,如何给股票打标签一直是值得深入探讨的问题,我们在前期报告《人工智能选股之数据标注方法实证》 (2019.3.13)中介绍了多种使用另类标签构建模型的方法。本文中,我们将延续前期报告的方法论,以全新的方式展示另类标签和集成学习在人工智能选股中的应用效果,主要包含以下几个方面:

1. 人工智能选股中,可构造的另类标签有哪些?这些标签有效的逻辑是什么?

2. 使用另类标签的模型在各个股票池内选股效果如何?

3. 集成学习能对多个另类标签综合运用,是否能达到更好的效果?

人工智能选股中的另类标签

另类标签的构造方法

传统的多因子选股和一些现有的机器学习选股模型中,普遍使用个股未来一段时间的收益率为预测目标(即标签)构建收益预测模型,其根源是基于经典的多因子模型:

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

上式中,rj即为个股未来一段时间的收益率。

在人工智能选股模型中,除了使用股票收益率作为标签,还可以使用一些能综合体现股票收益、回撤以及波动的指标作为标签。由于我们使用人工智能选股模型构建指数增强策略,本文将使用指数增强策略中常用的评价指标信息比率和Calmar比率为标签。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

使用另类标签的合理性

我们将从三个角度来讨论使用另类标签的合理性。

另类标签相比收益率包含更多信息

传统的收益率标签只利用了时间区间两端的价格信息,忽略了区间内的价格走势信息。本文测试的两种另类标签在体现股票收益率的同时,还兼顾了股票在区间内的波动、回撤,反映出股票在时间区间内的价格走势信息。另外,信息比率和Calmar比率是评价指数增强策略的常用指标,和收益率的相关性较高,有助于人工智能模型选出未来表现较好的股票。

标签也是一种指标,过度使用存在交易拥挤的可能性

人工智能模型中,标签通过损失函数的作用可以直接影响到输入选股因子的权重,不同的标签对于因子权重的影响不同,因此从某种意义上来说,标签和输入的选股因子类似,也是一种指标。在因子选股体系中,某个指标被过度使用会产生交易拥挤的现象,即过多的投资者对某个指标形成共识时,就会不约而同地采取相似的投资行为,从而削弱该指标的投资效果。如果市场中大量的投资者使用收益率为标签,则也存在交易拥挤的可能性,此时如果使用一些另类标签,则可能开辟一片投资的“蓝海”。

现有的一些研究中,也使用有别于收益率的另类标签来构建模型

将人工智能运用于量化投资的研究中也有一些使用另类标签的案例。XingYu Fu等人在其论文A Machine Learning Framework for Stock Selection,2018中使用个股的收益风险比(类似于信息比率)来作为标签构建机器学习选股模型。Bryan Lim等人在其论文Enhancing Time Series Momentum Strategies Using Deep Neural Networks,2019中使用择时信号的夏普比率来作为优化目标构建深度学习择时模型。Xiu Gao等人在其论文An Algorithm for Trading and Portfolio Management Using Q-learning and Sharpe Ratio Maximization,2000中使用夏普比率作为奖励目标来构建强化学习投资组合。可见使用有别于收益率的另类标签来构建模型具有一定的研究基础和合理性。

如何对比不同标签的选股效果?在多种训练期长度下测试

本文依然使用Boosting模型作为因子合成模型进行测试。为了对比不同标签的模型在多种情形下的表现,我们在前期报告《人工智能选股之数据标注方法实证》 (2019.3.13)中使用了不同的随机数种子并进行多次测试来对比。然而在报告《必然中的偶然:机器学习中的随机数》(2019.4.29)中我们也指出,Boosting模型在不同随机数种子下的表现差异较为有限。为了进一步增大不同测试情形的差异性,本文另辟蹊径,在多种训练期长度下测试。

如图表1所示,对于三种标签,我们都使用不同的训练期长度训练模型。训练期长度从6个月到72个月共67种情形,在67种情形中,可以统计不同标签构建的模型在各个评价指标上的分布情况,从而得到更具有说服力的结果。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

如何充分利用不同标签的优点?进行模型集成

不同模型可能在不同的回测指标上有一定优势,为了充分利用不同模型的优点,模型的集成是一种常用的方法。本文将各个子模型的预测结果视为单因子,使用3种传统因子合成的方法进行模型集成,包括:(1)等权集成;(2)历史IC加权集成;(3)历史因子收益率加权集成。因子合成方法的详细介绍可参见华泰金工报告《因子合成方法实证分析》(2019.01.04)

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

另类标签测试流程

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

本文使用CatBoost模型进行测试,CatBoost的原理和预测效果与XGBoost类似,但速度更快。测试流程包含如下步骤:

1. 数据获取:

1) 股票池:全A股,中证500成分股,中证800成分股。剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月内的股票,每只股票视作一个样本。

2) 回测区间:2011年1月31日至2020年2月28日。

2. 特征提取和预处理:

1) 每个自然月的最后一个交易日,计算82因子暴露度,作为样本的原始特征,因子池如图表5和图表6所示。

2) 中位数去极值:设第T期某因子在所有个股上的暴露度序列为 ,为该序列中位数,为序列的中位数,则将序列中所有大于的数重设为,将序列中所有小于的数重设为;

3) 缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值;

4) 行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度;

5) 标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0, 1)分布的序列。

3. 数据标注:该步骤是本文的着重步骤,主要使用以下数据标注方法:

1) 收益率:每个月末截面上,使用去极值、标准化后的下个月股票超额收益率(相对中证500或中证800)作为标签。

2) 信息比率:每个月末截面上,使用去极值、标准化后的下个月股票信息比率(相对中证500或中证800)作为标签。

3) Calmar比率:每个月末截面上,使用去极值、标准化后的下个月股票Calmar比率(相对中证500或中证800)作为标签。

4. 月度训练和验证模型:如图表4所示,对于某个月份T月来说,将T-N至T-1月的N个月合并作为样本内数据集,按照时间先后以7:3的比例划分训练集和验证集,在训练集上训练模型,验证集上观察模型loss的收敛情况,使用提前停止(early_stopping)的方式停止模型训练,因此不同月份训练出的模型包含的决策树数量可能不同。模型其他参数设置如下:max_depth=3,learning_rate=0.05,subsample=0.8,colsample_bylevel=0.1

5. 样本外预测:模型训练完成后,以T月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值f(x)。将预测值视作合成后的因子。

6. 组合构建:将样本外预测值输入到组合优化模型中得到组合权重,优化目标为最大化预测值,优化约束为保持与基准指数的行业和市值中性并控制个股相对基准的偏离上限比例。

模型评价:我们以模型构建的选股策略的回测结果作为模型评价标准。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

另类标签测试结果

本章将分别展示全A股、中证500成分股和中证800成分股中另类标签的测试结果。

全A股:另类标签的年化超额收益率、信息比率、Calmar比率表现更好

如图表7所示,我们首先观察全A股中三种标签在截面上的相关系数均值,考察区间为2005年1月31日至2020年2月28日。可以看到,信息比率标签以及Calmar比率标签与收益率标签的相关性都较高,分别为0.95和0.89。Calmar比率标签表现出的差异性更大一些。图表8展示了全A股中三种标签的取值分布直方图,可知Calmar比率标签的分布与另外两个标签的分布差异较大。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

为了对比不同标签的选股效果,我们将构建以下三类组合进行回测:

1. 将收益率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

2. 将信息比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

3. 将Calmar比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

以上回测中,测试个股权重偏离上限分别为[0.3%, 0.5%, 1%, 1.5%, 2%, 3%]六种情况下的策略表现,为了方便不同标签间进行对比,将六种情况的回测指标取均值。

以信息比率为标签

本节主要对比信息比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表9~图表12分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,信息比率标签构建的模型在前三个回测指标上都表现更好,在超额收益最大回撤上没有优势,在年化超额收益率上的胜率达到了89.55%(胜率是指67组对比中,信息比率为标签的模型表现优于收益率为标签的模型的比例,89.55%=60/67)。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

以Calmar比率为标签

本节主要对比Calmar比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表13~图表16分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,Calmar比率标签构建的模型在前三个回测指标上都表现更好,在超额收益最大回撤上没有优势,在年化超额收益率上的胜率达到了97.01%。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

中证500成分股:另类标签的年化超额收益率表现更好

如图表17所示,我们首先观察中证500成分股中三种标签在截面上的相关系数均值,考察区间为2005年1月31日至2020年2月28日。可以看到,信息比率标签以及Calmar比率标签与收益率标签的相关性都较高,分别为0.94和0.92。Calmar比率标签表现出的差异性更大一些。图表18展示了中证500成分股中三种标签的取值分布直方图,可知Calmar比率标签的分布与另外两个标签的分布差异较大。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

为了对比不同标签的选股效果,我们将构建以下三类组合进行回测:

1. 将收益率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

2. 将信息比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

3. 将Calmar比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证500增强策略。

以上回测中,测试个股权重偏离上限分别为[0.3%, 0.5%, 1%, 1.5%, 2%, 3%]六种情况下的策略表现,为了方便不同标签间进行对比,将六种情况的回测指标取均值。

以信息比率为标签

本节主要对比信息比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表19~图表22分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,信息比率标签构建的模型在前两个回测指标上都表现更好,在后两个回测指标上没有优势,在年化超额收益率上的胜率为67.16 %。进一步观察回测中年化超额收益率的分布情况,当训练期较短时,信息比率标签构建的模型表现较为糟糕,只有当训练期较长时,信息比率标签构建的模型才能比较稳定地战胜收益率为标签的模型。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

以Calmar比率为标签

本节主要对比Calmar比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表23~图表26分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,Calmar比率标签构建的模型只在年化超额收益率上表现更好,胜率为62.69%,在后三个指标上没有优势。进一步观察回测中年化超额收益率的分布情况,当训练期较短时,Calmar比率标签构建的模型表现较为糟糕,只有当训练期较长时,Calmar比率标签构建的模型才能比较稳定地战胜收益率为标签的模型。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

中证800成分股:另类标签的年化超额收益率、信息比率表现更好

如图表27所示,我们首先观察中证800成分股中三种标签在截面上的相关系数均值,考察区间为2005年1月31日至2020年2月28日。可以看到,信息比率标签以及Calmar比率标签与收益率标签的相关性都较高,分别为0.93和0.91。Calmar比率标签表现出的差异性更大一些。图表28展示了中证800成分股中三种标签的取值分布直方图,可知Calmar比率标签的分布与另外两个标签的分布差异较大。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

为了对比不同标签的选股效果,我们将构建以下三类组合进行回测:

1. 将收益率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证800增强策略。

2. 将信息比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证800增强策略。

3. 将Calmar比率为标签训练所得模型的预测结果输入组合优化模型中,构建行业市值中性的中证800增强策略。

以上回测中,测试个股权重偏离上限分别为[0.3%, 0.5%, 1%, 1.5%, 2%, 3%]六种情况下的策略表现,为了方便不同标签间进行对比,将六种情况的回测指标取均值。

以信息比率为标签

本节主要对比信息比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表29~图表32分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,信息比率标签构建的模型在前两个回测指标上都表现更好,在后两个回测指标上没有优势,在年化超额收益率上的胜率为76.12 %。进一步观察回测中年化超额收益率的分布情况,当训练期较短时,信息比率标签构建的模型表现较为糟糕,只有当训练期较长时,信息比率标签构建的模型才能比较稳定地战胜收益率为标签的模型。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

以Calmar比率为标签

本节主要对比Calmar比率为标签构建的模型相比收益率为标签构建的模型的选股效果,图表33~图表36分别展示了两种标签的年化超额收益率、信息比率、Calmar比率和超额收益最大回撤的对比结果(横轴为训练期长度,纵轴为回测指标的取值)。可以看出,Calmar比率标签构建的模型在前两个回测指标上都表现更好,在后两个回测指标上没有优势,在年化超额收益率上的胜率为65.67%。进一步观察回测中年化超额收益率的分布情况,当训练期较短时,Calmar比率标签构建的模型表现较为糟糕,只有当训练期较长时,Calmar比率标签构建的模型才能比较稳定地战胜收益率为标签的模型。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

因子重要性分析和对比

人工智能选股模型中,标签通过损失函数的作用可以直接影响到输入选股因子的权重,不同的标签对于因子权重的影响不同。我们取最近一年(2019.3至2020.2)训练的模型,并将不同训练期(6~72个月)的模型进行合并分析。图表37~图表39分别展示了三种标签训练的模型在三个股票池内的因子重要性对比。在不同的股票池中可以总结出以下普遍存在的规律:相比收益率为标签的模型,信息比率和Calmar比率为标签的模型中三大量价因子(动量反转、波动率、换手率)的重要性下降,财务质量和一致预期因子的重要性上升。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

模型集成测试结果

由上一章的测试可知,虽然另类标签训练所得模型相比收益率标签训练所得模型在年化超额收益率上表现更好,但是在超额收益回撤方面的表现却不理想。不同模型可能在不同的回测指标上有一定优势,为了充分利用不同模型的优点,模型的集成是一种常用的方法。本文将各个子模型的预测结果视为单因子,使用3种传统因子合成的方法进行模型集成。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

全A股:集成模型的年化超额收益率、信息比率和Calmar比率表现更好

本节使用以下模型构建相对中证500行业市值中性的全A选股策略。

1. CTB-R模型:以收益率为标签的CatBoost模型。图表41中展示的是训练期从6个月~72个月的模型回测指标的均值。

2. CTB-IR模型:以信息比率为标签的CatBoost模型。图表41中展示的是训练期从6个月~72个月的模型回测指标的均值。

3. CTB-Calmar模型:以Calmar比率为标签的CatBoost模型。图表41中展示的是训练期从6个月~72个月的模型回测指标的均值。

4. CTB-等权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三类模型的预测结果等权相加。

5. CTB-IC加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史IC加权集成,历史区间为6个月。

6. CTB-因子收益率加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史因子收益率加权集成,历史区间为6个月。

如图表41所示,三种集成模型在年化超额收益率、信息比率和Calmar比率上的表现显著优于单一标签构建的模型。图表42展示了当个股权重偏离上限为1%时,六种模型构建的全A选股策略的累计超额收益情况。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

中证500成分股:集成模型的年化超额收益率和信息比率表现更好

本节使用以下模型构建相对中证500行业市值中性的指数内选股策略。

1. CTB-R模型:以收益率为标签的CatBoost模型。图表43中展示的是训练期从6个月~72个月的模型回测指标的均值。

2. CTB-IR模型:以信息比率为标签的CatBoost模型。图表43中展示的是训练期从6个月~72个月的模型回测指标的均值。

3. CTB-Calmar模型:以Calmar比率为标签的CatBoost模型。图表43中展示的是训练期从6个月~72个月的模型回测指标的均值。

4. CTB-等权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三类模型的预测结果等权相加。

5. CTB-IC加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史IC加权集成,历史区间为6个月。

6. CTB-因子收益率加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史因子收益率加权集成,历史区间为6个月。

如图表43所示,三种集成模型在年化超额收益率、信息比率和Calmar比率上的表现显著优于单一标签构建的模型。图表44展示了当个股权重偏离上限为1%时,六种模型构建的中证500成份内选股策略的累计超额收益情况。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

中证800成分股:集成模型的年化超额收益率和信息比率表现更好

本节使用以下模型构建相对中证800行业市值中性的指数内选股策略。

1. CTB-R模型:以收益率为标签的CatBoost模型。图表45中展示的是训练期从6个月~72个月的模型回测指标的均值。

2. CTB-IR模型:以信息比率为标签的CatBoost模型。图表45中展示的是训练期从6个月~72个月的模型回测指标的均值。

3. CTB-Calmar模型:以Calmar比率为标签的CatBoost模型。图表45中展示的是训练期从6个月~72个月的模型回测指标的均值。

4. CTB-等权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三类模型的预测结果等权相加。

5. CTB-IC加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史IC加权集成,历史区间为6个月。

6. CTB-因子收益率加权:按照图表40中的方法,将CTB-R、CTB-IR、CTB-Calmar三个模型的预测结果视为单因子,进行历史因子收益率加权集成,历史区间为6个月。

如图表45所示,三种集成模型在年化超额收益率和信息比率上的表现显著优于单一标签构建的模型。图表46展示了当个股权重偏离上限为1%时,六种模型构建的中证800成份内选股策略的累计超额收益情况。

【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九【华泰金工林晓明团队】提升超额收益:另类标签和集成学习——华泰人工智能系列之二十九

结论

本文结论如下:

1. 另类标签和集成学习有助于提升人工智能选股模型的超额收益。本文通过设置多种测试情形,对比了另类标签(信息比率和Calmar比率)与传统收益率标签在构建人工智能选股模型的优劣。相比收益率标签,另类标签在全A股优势显著,能明显提升选股模型的超额收益和信息比率;另类标签在指数成分股内优势较小,仅对超额收益的提升有一定作用。本文进一步使用集成学习对多种标签构建的模型进行集成。集成模型的超额收益和信息比率有稳定提升,Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。

2. 本文认为使用另类标签有三个方面的合理性:(1)另类标签相比收益率包含更多信息。传统的收益率标签只利用了时间区间两端的价格信息,忽略了区间内的价格走势。本文测试的另类标签包含了股票在区间内的收益、波动和回撤信息,具有更大信息量。(2) 标签也是一种指标,过度使用存在交易拥挤的可能性。标签通过损失函数的作用可以直接影响到输入选股因子的权重,不同的标签对于因子权重的影响不同。如果市场中大量的投资者使用收益率为标签,则存在交易拥挤的可能,此时如果使用一些另类标签,则可能开辟一片投资的“蓝海”。(3) 现有的一些研究中,也使用有别于收益率的另类标签来构建模型。

3. 本文使用了在多种训练期长度下测试的方法对比不同标签构建的模型。如果仅对不同标签构建的模型进行单次测试对比,所得出的结论未必可靠。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。本文在多种不同训练期长度下进行测试对比,训练期长度从6个月到72个月共67种情形,在67种情形中,可以统计不同标签构建的模型在各个评价指标上的分布情况,从而得到更具有说服力的结果。此外,多种训练期长度训练的模型也为集成学习提供了大量可用的子模型。

4. 相比收益率标签,另类标签在全A股优势显著,在指数成分股内优势较小。在全A股中,另类标签相比收益率标签构建的模型在年化超额收益率、信息比率、Calmar比率上表现都更好,年化超额收益率上的胜率在90%左右。在中证500和中证800成分股中,另类标签相比收益率标签构建的模型仅在年化超额收益率上有较稳定的优势,胜率在58.21%~76.12%之间。此外在以上所有测试中,另类标签相比收益率标签构建的模型在超额收益最大回撤上都表现更差。对模型进行因子重要性分析,另类标签相比收益率标签构建的模型,三大量价因子(动量反转、波动率、换手率)的因子重要性下降,财务质量和一致预期因子的重要性上升。

集成学习能充分利用不同模型的优点,在多个股票池内回测效果最好。为了充分利用不同模型的优点,本文将各个子模型的预测结果视为单因子,使用3种传统因子合成的方法(等权,历史IC加权,历史因子收益率加权)进行模型集成。相比使用单一模型的平均回测绩效,集成模型的超额收益和信息比率有稳定提升,Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险,起到“模型分散化”的效果。

风险提示

通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。另类标签构建的选股模型回撤较大,使用须谨慎。

免责申明

免责声明:本站提供的内容均源自自媒体,版权归原作者所有,转载请联系原作者并获许可。文章观点仅代表作者本人,不代表本站立场。若内容涉及投资建议,仅供参考勿作为投资依据。投资有风险,入市需谨慎。

猜你喜欢

关于我们· 联系我们· 商务合作· 免责声明· 技术支持

Copyright ? 2018-2020, 杭州兼职 版权所有 侵权必究. 信息维权、举报:853029381@qq.com

免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责, 杭州兼职 对此不承担责任.