
发布时间:2019年6月10日
研究员:林晓明S0570516010001、陈烨S0570518080004
核心观点
本文通过原理分析和系统测试,介绍了遗传规划在选股因子挖掘中的应用
遗传规划是一种启发式的公式演化技术,通过模拟自然界中遗传进化的过程来逐渐生成契合特定目标的公式群体,适合进行特征工程。将遗传规划运用于选股因子挖掘时,可以充分利用计算机的强大算力,同时突破人类的思维局限,挖掘出某些隐藏的、难以通过人脑构建的因子。本文介绍了遗传规划应用的完整流程,对遗传规划程序包gplearn进行了深度定制改进。测试结果显示,遗传规划能从有限的量价数据中挖掘出具有增量信息的因子,为选股因子研究提供了一种新的思路。
针对因子挖掘问题,本文对遗传规划程序包gplearn进行了深度定制改进
本文在遗传规划的应用中做出了以下贡献:(1)应用成熟的gplearn项目,对gplearn的关键参数进行了详细说明。(2)扩充了gplearn中的函数集,添加了一批适合于构造选股因子的函数。(3)将单因子测试过程引入gplearn,可以对待挖掘因子进行传统风格因子中性化。(4)使用了Python的并行运算技术,加快了因子矩阵的运算速度,缩短了因子挖掘时间。
经过测试,遗传规划能从有限的量价数据中挖掘出具有增量信息的因子
在遗传规划框架中,我们设定预测目标为个股20个交易日后的收益率,初步挖掘出了6个选股因子。这些因子在剔除了行业、市值、过去20日收益率、过去20日平均换手率、过去20日波动率五个因子的影响后,依然具有较稳定的RankIC。6个因子都具有良好的可解释性,其中大部分因子的相关性不高,说明遗传规划能从有限的量价数据中挖掘出具有增量信息的因子。
遗传规划是一套灵活的框架,或许能为选股因子研究提供更多的可能性
本着“授人以鱼不如授人以渔”的想法,本文旨在为读者展示遗传规划在选股因子挖掘中的详细流程,流程中的各环节依然有较大的调整空间。在实际应用中,读者可以根据自己特定的数据源、股票池、调仓周期、函数集以及评价指标来构建遗传规划框架。作为一种“先有公式、后有逻辑”的因子研究方法,遗传规划或许能为选股因子研究提供更多的可能性。
风险提示:通过遗传规划挖掘的选股因子是历史经验的总结,存在失效的可能。遗传规划所得因子可能过于复杂,可解释性降低,使用需谨慎。本文仅对因子在全部A股内的选股效果进行测试,测试结果不能直接推广到其它股票池内。
本文首发于微信公众号:华泰证券(601688)研究所。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
最新评论