期货开户预约热线 13521216846

中国期货开户网LOGO

中国期货开户网LOGO
期货开户->期货入门 > 文章内容

【量化专题】CTA系列一:期货公司研报实战价值几何?

2020年8月3日 08:46

2020年8月3日 08:46

摘要


金融市场中的数据大体可以分成三类:量价类、基本面类和另类数据。相对而言另类数据的研究并不如前两类充分,其数据价值也未得到更好的展现。本系列报告作为另类数据——文本数据在期货市场的研究尝试,我们金工团队试图从中挖掘有用的文字信息,以期对投资者的投资决策形成一定有价值的参考。

通过收集整理四家期货公司研究早报,识别研报中的多空情绪,我们构建了相应交易策略。从测试结果上看,四家期货公司中,我司中信建投期货表现最佳:在三种不同方法下均能获得正收益,并且平均收益率也最高。

为更接近真实交易场景,我们进行了滑点及策略稳定性检验,检验结果表明,原始信号交易频率太高,稳定性欠佳,滑点和滞后期均对策略表现有较明显的影响。下一步我们将继续研究,使得信号更加稳定可靠。

风险提示:本研究主要基于历史数据统计,存策略失效风险、模型误设风险、历史统计规律失效等风险


概述

金融市场中的数据大体可以分成三类:一是交易行为产生的量价类数据,包括根据量价类数据衍生出来的各项技术类指标、盘口数据等。二是基本面类数据,包括宏观指标、公司的财务、商品的供给需求、产业链上下游公司情况等数据。三是另类数据,包括传递各项信息的声音、图片、文字、视频等非结构化数据乃至卫星定位、地理遥感等数据。例如近期证监会通过卫星等现代科技的帮助查找獐子岛扇贝事件,可视作另类数据在金融市场的成功运用案例。

随着金融市场的竞争日趋激烈,大数据、人工智能等最新的科技手段在金融市场的应用也日益普遍。而这些最新的科技技术都需要庞大的底层数据资产做支持。经典的DIKW模型对此有深刻的阐释,如下图:

DIKW模型把数据、信息、知识、智慧以金字塔方式进行组织,每一层向上都被赋予一些新的特质。数据是最原始的素材,未被加工和解释,不能形成有效的解决方案。通过对数据的加工、组织、挖掘、整理等工作,进而形成有一定逻辑关系的信息,这些信息对接受者有相对的价值。通过对信息的进一步过滤、提炼和加工总结,可形成知识。知识能被推理和分析,进而产生新的知识。知识的形成不仅靠信息的累加,还往往需要一定的先验经验,能够推动人的决策和行为。知识的进一步升华,形成智慧,智慧关注未来,具备一定的预测能力。

在当今数据爆炸的时代,如何更好从浩海如烟的数据中获取对金融交易决策最有用的信息,形成投资知识乃至升华为一定的投资智慧投资哲学,是摆在每一个金融从业人员的一道难题。另一方面,金融市场每天产生的数据虽多,但数据的获取本身也存难易之别,例如同样是价格,日线数据的获取就比tick级数据的获取相对简单。从金融数据的三大分类看,对量价类数据和基本面类数据的研究已经比较深入,而另类数据的研究相对较少,这或因另类数据的获取难度偏大和非结构化数据的处理技术的不尽成熟所致。本系列报告作为另类数据——文本数据在期货市场的研究尝试,我们金工团队试图挖掘有用的文字信息,以期对投资者的投资决策形成一定有价值的参考。


研究方法

2.1 数据的收集

期货市场相关的文本数据虽多,如期货各品种新闻、交易者的论坛讨论等等,但从质量看,我们认为各家期货公司的每日策略早报更具研究价值。各家期货公司的早报早评等不光包括研究员对各品种基本面情况的论述,对行情的一些回顾,也包括对未来行情走势的看法和操作建议,并且更新频率较高,基本都能在每日开盘前获取,因此有较高的研究价值和实战价值。

通过收集整理,我们获取了本公司即中信建投期货有限公司及另外三家期货公司(分别称为甲、乙、丙)的早报数据。数据起止时间如下:

所涉及的期货品种包括除粳米、纤板、早稻等少数不活跃品种外所有主流期货品种。


2.2 数据的预处理

数据收集完成后,需进行数据的预处理。预处理阶段主要面临的问题有二:

一是,各家期货公司的早报行文格式各异,如何把各家期货公司的早报文本预处理成标准的格式,即每一个品种对应一段描述。这里最常见的问题是,有的期货公司早报会按照金融、金属类、黑色系、原油类、化工类等等大类进行撰写,而对应同一个品种,可能出现称呼不一致的情况。例如,“动力煤”也会使用“郑煤”来表达,类似的还有甲醇和郑醇,塑料与L、LLDPE等等。为解决此问题,我们构建了“品种-别名”字典,针对每一个品种可能出现的其他称谓进行记录,使得每个品种的描述能找到对应的描述。此外,其他预处理还包括处理早报中每段描述后紧跟的分析师名字、与品种描述无关的风险提示、业务提示等。

二是,许多产业链相关的品种在撰写时研究员是揉在一起写的,品种间的描述也无任何可分割的字符。例如“钢材”类期货,包括了螺纹和热卷两个品种;“蛋白粕”则包括豆粕和菜粕。对于这样的情况,考虑到这些品种不论是从基本面角度还是实际的市场走势都非常的类似,也因此研究员才会写在一起,所以在划分的品种过程中这些描述均划都分到相应的品种上,使得这些品种共用同一个研究描述。当然这样的处理也存在一定的瑕疵,若研究员在这些杂糅的文字描述中提出了套利的策略,多A空B,这样的处理方式则显得相对不足。

通过预处理后,我们得到数据如下:

整体看,新上市品种及成交量相对不够活跃的品种与之相关的研报内容较少,四家期货公司总计50451条对应的各品种研报数据,平均每家12613条数据。


2.3 多空情绪识别

情绪识别是自然语言处理领域的常见任务,本研究中,主要是通过各自品种对应的研究员描述识别其中的多空情绪,得到对该品种的多空判断。

本报告中,我们主要使用三种方法识别。

一是通过开源的工具cnsenti。情绪识别默认使用的知网Hownet,情绪分析使用大连理工大学情感本体库,可以计算文本中的七大情绪词分布。本报告中只需使用该工具统计正负词的个数,并设定阈值,当正向词大于负向词一定比例,认为偏多,记为1;当负向词大于正向词一定比例认为偏空,记为-1;其他情况记为0,认为中性。

二是基于百度的paddlehub平台。与方法一类似,针对每个研报描述得到基于该工具下正向的概率。设定阈值后,将该描述划分为正向、负向和中性。

三是基于自建的领域情绪词典。因词典带一定的专家知识,词数量虽不及通用类词典多,但主要针对证券期货市场,因此多空的设定阈值不宜设置太高,本报告中当正向数大于负向即记为1,负向数大于正向记为-1。

至此,我们完成了对四家期货公司各个品种的多空识别,接下来可检验这些多空信号在实战中的效果。


研究结论

我们通过对四家公司各个研究品种的多空信号进行回测,对比不同方法下各个期货公司的实战绩效。因其中有一些品种新上市或者交易不够活跃,故在回测过程中我们对品种进行了一定删减,最终选定41个品种。回测时间为原始数据的起止时间。测试的杠杆比例为4(即持仓合约总价值为账户资金的4倍)。手续费为交易所基础上加10%。回测过程中若出现该品种信号不连续,为空值时,设置为0,即平掉当前所持的仓位。


3.1 方法一下各期货公司策略表现


3.2 方法二下各期货公司策略表现


3.3 方法三下各期货公司策略表现


策略表现再探讨

4.1 滑点

注意到不同方法下,四家期货公司的交易次数均较高,真实交易环节中若考虑滑点,那策略表现又会如何?我们以各方法下均取得正收益的中信建投为例,测试的滑点设置为一跳。

整体看,滑点的加入使得策略表现有一定程度的下滑。


4.2 稳定性

第三部分的测试都基于这样的假设,即当天就能获取当天的早报,并立即实施交易。但在实际交易中,这样的要求并不总能满足,常有滞后。这里我们对交易信号做滞后处理,滞后期为1,即第二天才根据前一天的信号进行交易,考察策略的稳定性。

整体看,信号稳定性不足,使得策略整体表现有明显下滑。


五、总结

作为另类数据——文本在期货市场中的研究尝试,金工团队通过收集整理四家期货公司早报,识别多空情绪,构建交易策略。从测试结果上看,四家期货公司中,我司中信建投期货表现最佳,在三种不同方法下均能获得正收益,并且平均收益率也最高。为更接近真实交易场景,我们进行了滑点及稳定性检验,检验结果表明,原始信号交易频率太高,滑点和滞后期均对策略表现有较明显的影响。下一步我们将继续研究,降低交易频率,使得信号更加稳定。欢迎大家继续关注后续系列研究。


标签:期货入门 期货手续费