“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

在系列前期报告中,我们从不同角度探寻了分钟成交数据、TICK盘口委托数据以及逐笔数据中所包含的选股能力。研究结果表明,高频数据中包含着较为显著的选股能力。即使在剔除了常规低频因子的影响后,高频因子依旧具有显著的选股能力。

考虑到系列前期报告在构建高频因子时,大多仅使用某一类高频数据进行因子构建,并未将各类数据混合使用。本文从逻辑以及机器学习两个角度出发,尝试将不同类别的高频数据混合使用并构建低频选股因子。

1

高频数据的低频化

在前期系列报告中,我们分别使用了分钟成交数据、TICK盘口委托数据、逐笔成交数据构建了选股因子。回测结果表明,相关因子具有较为显著的选股能力,即使在剔除了常规低频因子的影响后,因子依旧具有显著的Alpha。

值得注意是,系列前期报告在构建因子时所使用的高频数据种类较为单一。例如,净主买强度因子仅使用了逐笔数据,净委买变化率仅使用了盘口委托挂单数据。考虑到各类高频数据从不同的角度刻画了投资者的交易行为,我们可在构建选股因子时引入不同类别的高频数据,从而更加全面地刻画投资者的交易行为。下表简要展示了前期系列报告中所使用过的各类高频数据。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

为了计算的便利,本文将各类的高频数据统一调整为分钟频数据,并基于分钟频数据构建因子。例如,对于逐笔数据中的净主买金额,可首先在每一分钟计算净主买成交金额,并使用该序列与其他类别的数据共同构建选股因子。

面对各种类型的高频数据,我们一方面可从主观逻辑的角度出发构建因子,另一方面,也可从机器学习的角度出发,使用特征工程等机器学习技术进行因子挖掘。主观逻辑可以帮助我们在机器学习中设定算子集合,而机器学习得到的因子也能为因子构建提供新的思路并帮助挖掘新的逻辑。

2

逐笔成交与委托挂单的结合

在系列报告《选股因子系列研究(四十七)——捕捉投资者的交易意愿》与《选股因子系列研究(五十七)——基于主动买入行为的选股因子》中,我们分别探讨了委托挂单数据以及逐笔成交数据中所包含的选股能力。总结前期研究成果可知,委托挂单数据中包含了投资者还未释放的交易意愿,而逐笔成交数据中包含了投资者已进行的交易行为。从逻辑上看,两者的结合能够更加全面地刻画投资者的交易倾向。

在数据选择上,我们分别选择了分钟频率的净委买变化额以及净主买成交额作为委托挂单数据与逐笔成交数据的代表。对于任意一分钟,净委买变化额体现了投资者在该分钟的买入意愿的净增量,刻画了投资者还未释放的买入意愿,而净主买成交额则体现了投资者在该分钟的净买入量,刻画了投资者已经释放的买入意愿。因此,净委买变化额与净主买成交额之和则全面刻画了投资者在这一分钟的买入意愿。基于上述考虑,本章构建了买入意愿序列,该指标计算方法如下:

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

结合《选股因子系列研究(五十七)——基于主动买入行为的选股因子》一文中因子的构建思路,本章构建了买入意愿占比以及日内买入意愿强度。股票i在交易日T的指标计算方法如下:(更多细节请参考报告原文。)

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

下表展示了买入意愿因子在正交前后的因子月度IC以及前后10%多空收益情况。本文在进行因子正交时剔除了行业因子、市值因子、中盘因子、估值因子、换手率因子、反转因子、波动率因子、盈利因子以及盈利成长因子。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

在正交处理前,开盘后买入意愿强度就呈现出了较为明显的月度选股能力。因子月均IC达0.03,年化ICIR达1.52,月度胜率超70%,月度分10组多空收益差达1.24%。回测结果表明,前1个月投资者在开盘后30分钟内的买入意愿强度越高,股票未来一个月的超额收益表现越好。这一点与直观理解较为吻合。值得注意的是,因子的月均多空收益虽然超1%,但是多头超额收益明显弱于空头超额收益。

在正交处理后,买入意愿占比以及日内买入意愿强度皆呈现出了较为显著的月度选股能力。对于买入意愿占比类因子,开盘后买入意愿占比选股能力较为显著,因子月均IC超0.03,年化ICIR高于3.0,月度胜率达85%。因子多空收益分布较为均匀,月均多空收益为0.98%,月均多头超额收益为0.57%。此外,使用全天以及盘中数据计算得到的买入意愿占比因子同样具有一定的截面选股能力。

对于日内买入意愿强度因子,全天日内买入意愿强度、开盘后日内买入意愿强度以及盘中日内买入意愿强度皆呈现出了极为显著的月度选股能力。因子月均IC普遍高于0.03,年化ICIR普遍高于2.5,月度胜率接近或者高于80%。相比而言,开盘后日内买入意愿强度因子表现更好,因子月均多空收益达1.34%,月均多头超额收益达0.41%。

考虑到买入意愿占比以及日内买入意愿强度与《选股因子系列研究(五十七)——基于主动买入行为的选股因子》中提出的净主买占比以及日内净主买强度逻辑较为相近,因此本节尝试对比两类因子,并考察买入意愿类因子能否相比于净主买类因子产生提升。下表对比展示了两类因子在剔除常规低频因子之后的IC、ICIR以及月度多空收益情况。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

对比正交后的因子IC可以发现,买入意愿占比、日内买入意愿强度相比于净主买占比以及日内净主买强度皆有一定程度的提升。以开盘后日内买入意愿强度与开盘后日内净主买强度为例,因子的IC从0.03提升至0.04,年化ICIR从2.96提升至3.70,月度胜率从80%提升至85%,月均多空收益从1.02%提升至1.34%,月均多头收益从0.23%提升至0.41%。

3

高频数据低频化后的信息挖掘

为了能够进一步增强因子挖掘的效率并启发新因子的构建,我们可使用机器学习中的相关方法挖掘基于高频数据的因子。在进行因子挖掘前,我们首先需要构建数据备选库。本章所使用到的数据如下表所示。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

其次,我们可构建算子备选库,算子如下表所示。由于机器性能的约束,本章在进行回测时仅定义了一小部分算子,投资者可在实际回测中可按照自身需求对于算子进行调整。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

最后,我们可将正交剔除常规低频因子后的因子ICIR作为因子挖掘的目标。在实际的操作过程中,投资者既可参考《金融科技(Fintech)和数据挖掘研究(三)——量化因子的批量生产与集中管理》中提供的因子挖掘方法,也可使用基因规划等方法进行挖掘, python中有较多开源包能够高效实现特征工程。下表展示了部分挖掘得到的因子信息。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

在上述机器挖掘因子中,部分因子的计算方法具有一定的逻辑性。Alpha1计算了股票过去20日盘中主买额的波动率,计算公式中的log调整了因子的截面分布,而负号则表明,盘中主买额波动率越低,股票未来表现越好。

Alpha4计算了过去1个月开盘后与收盘前的成交额的滚动均值,该指标越高,股票未来表现越弱。Alpha6体现出了类似的逻辑,它计算了过去1个月开盘后与收盘前的成交额之和与过去1个月盘中成交额之和的比值。然而,并不是所有机器挖掘因子的计算方式都具有逻辑性。例如,Alpha2计算了大单买入额与开盘后成交额之积的波动率,我们难以直观理解该种计算方法后的逻辑。下表展示了各因子在正交后的因子月度IC以及前后10%多空收益情况。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

观察上表不难发现,各因子在正交剔除常规低频因子后就已经呈现出了较为显著的选股效果。如果进一步剔除高频因子的影响,机器挖掘因子的月度选股能力会更加显著,大部分因子月均IC高于0.04,年化ICIR接近3.0,月均多空收益高于1.5%。

4

组合改进

本章以月度调仓的中证500指数增强组合为例,展示了本文第二章以及第三章讨论的因子在加入组合后对于组合表现的影响。可使用常规因子构建基础增强组合,并分别加入各逐笔因子。下表展示了加入各逐笔因子的组合在2016年以来的分年度超额收益。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

观察上表不难发现,大部分因子的引入都能给组合的整体表现带来一定程度的提升。相比而言,开盘后日内买入意愿强度、Alpha_2、开盘后买入意愿占比以及Alpha_4带来的收益提升较高。从分年度来看,机器挖掘因子的引入能够进一步提升基础模型在2016年的收益,但是会带来2017年超额收益的下降。买入意愿因子的引入能够在2016年以及2017年带来超额收益的提升,但是会降低组合在2018年的超额收益表现。下图对比展示了各组合相对于中证500指数的相对强弱指数。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

考虑到基于机器学习挖掘得到的因子与基于直观逻辑构建得到的因子在加入组合后,对于组合的分年度收益的影响有所不同,因此可将两类因子同时加入模型从而得到更好的收益表现。不妨以本部分表现较好的Alpha_2、Alpha_4、开盘后买入意愿占比以及开盘后日内买入意愿强度为例。从单因子的角度看,上述因子在正交剔除常规常规低频因子后都呈现出了较为显著的月度选股能力,因子月均IC在0.02~0.04之间,年化ICIR超1.5。下表进一步展示了各正交因子间的截面相关性以及收益相关性。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

基于上述因子相关性特征,可考虑从两类因子中分别选取Alpha_2以及开盘后日内买入意愿强度同时加入模型,并观察模型的改进效果。下表对比了不同模型的收益表现情况。

“海量”专题(167)——基于直观逻辑和机器学习的高频数据低频化应用

模型在同时加入Alpha_2以及开盘后日内买入意愿强度后,全区间超额收益相比于基础模型以及单独加入开盘后日内买入意愿强度的模型产生了一定提升,但是略弱于单独加入Alpha_2的模型。虽然模型全区间超额收益低于单独加入Alpha_2的模型,但是同时加入两因子的模型在分年度收益表现上更加稳定。模型在2016年以及2019年相比于基础模型产生了较为明显的收益增强,同时在2017年以及2018年并未出现明显跑输的现象。从以上案例可知,若机器学习挖掘得到的因子与基于直观逻辑得到因子间的相关性较为可控,可考虑同时加入模型从而得到更加稳健的模型提升效果。

5

总结

在前期系列报告中,我们虽然讨论了使用高频数据进行因子构建,但是很少将各类高频数据进行混合。本文在相关报告的基础之上讨论了高频信息低频化后的混合使用。在混合不同层级的高频信息时,我们既可考虑从直观逻辑的角度出发,也可考虑从机器挖掘的角度出发。从单因子的角度看,两种因子构建方法都能得到有效的选股因子。从组合的角度看,相关因子同样能够为组合提供额外的选股能力。本文以中证500指数增强组合为例,分别尝试将各因子放入模型。回测结果表明,因子的引入的确能够带来模型整体效果的提升,但是不同因子在不同年度的提升效果存在差异。由于不同类别因子间的相关性较为可控,因此可考虑同时引入两类因子。将两类因子同时加入模型能够得到更加稳健的模型提升效果。

总而言之,由于不同类别的高频信息从不同的角度记录了投资者交易行为,因此高频信息的混合使用能够更加全面地刻画投资者的交易行为。在构建因子时,我们可考虑从逻辑的角度出发,也可使用机器学习技术进行因子挖掘。考虑到并非所有机器挖掘因子都具有可理解的选股逻辑,投资者在实际构建因子时可对机器挖掘因子进行调整,从而得到兼具逻辑性以及选股能力的因子。

6

风险提示

模型误设风险,统计规律失效风险,流动性风险。

联系人:袁林青 021-23212230

免责声明:本站提供的内容均源自自媒体,版权归原作者所有,转载请联系原作者并获许可。文章观点仅代表作者本人,不代表本站立场。若内容涉及投资建议,仅供参考勿作为投资依据。投资有风险,入市需谨慎。

猜你喜欢

关于我们· 联系我们· 商务合作· 免责声明· 技术支持

Copyright ? 2018-2020, 杭州兼职 版权所有 侵权必究. 信息维权、举报:853029381@qq.com

免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责, 杭州兼职 对此不承担责任.