河南股票资讯门户

【投资】大数据投资:基于互联网财经频道文本挖掘选股

只看楼主 收藏 回复
  • - -
楼主
  

互联网大数据与互联网金融时代


  最近几年来,随着互联网大数据以及互联网金融时代的发展,人们获取信息的渠道越来越丰富多样。伴随着行为金融的发展,人们越来越关注非结构化的金融“数据”给投资决策带来的影响。在非结构化的信息中,热门财经网站的财经信息是其中的一部分。热门财经网站发布的财经新闻往往能够对个股的股价产生影响,然而由于财经新闻往往为文本类信息,导致我们很少能够对此类财经信息所带来的投资机会进行量化,并运用于实际的投资实践中。本专题报告的目的为通过对热门财经网站的财经荐股栏目的文本信息进行挖掘,将文本类信息转换为能够进行实际操作的类“数据”信息,通过该信息建立量化策略,试图探讨文本类信息带来的投资价值。


财经小编事件选股策略构建


  基于文本挖掘技术,我们将大量的热门财经网站相关的荐股栏目的信息转换为类“数据”信息,然后基于这些类“数据”信息构建策略,我们主要考虑一下几个方面的信息:


  单个财经频道选股策略:基于单个财经频道荐股栏目的荐股信息,考虑在全样本内,单个财经网站不区分行业、不考虑个股当日表现下的荐股能力;在创业板股票的荐股能力;在沪深 300 指数成分股中的荐股能力以及在申万一级行业指数的荐股能力。


  多财经频道智能选股策略:基于单个财经频道的前期一段时间内的单个策略表现,利用前期表现优异网站的荐股信息构成超配组合,考虑多个财经网站下的超配组合的策略表现。与单策略类似,考虑全样本内,不区分行业、个股当日表现的动态多策略;区分申万一级行业的动态策略。


实证结果


  历史回测结果显示,在单个财经频道事件选股策略下,策略存在明显的短期效应,以持有期 2 个交易日最为明显。在不区分行业以及当日表现等因素的影响下,持有期为 2 个交易日的策略在回测期内的表现最为优异,其中新浪财经的荐股表现在历史回测期内表现最好,年化超额收益率为 64.35%;在创业板的选股能力上,新浪财经以及华讯财经网上相对上证指数超额收益明显;在多财经频道选股策略下,策略同样存在明显的短期效应,其中在不区分行业的情况下,考虑各个网站前 5 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为 43.66%。而在考虑区分申万一级行业的情况下,考虑各个网站前 30 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为 21.82%。



  一、前言


  当前,是互联网信息时代。互联网在过去10年里,经历了快速发展阶段,信息的爆炸性增长也使得人们获取的信息量迅速地增加。人们获取信息的途径也越来越丰富。而在互联网大数据时代下,信息的提供者与使用者之间的界限已经越来越模糊,金融信息的来源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。据相关报道,2011年8月24日,巨人网络董事长兼首席执行官史玉柱通过微博透露中国人寿“虎视眈眈”欲控股民生银行,随后民生银行股价在两个交易日大涨,史玉柱旗下公司所持该行股份浮盈2.56亿元, 他的这条微博也因此被称为“史上最贵微博”; 2012年12月6日,“SOHO中国”在某热门财经网站上发布中标消息称:“在刚刚结束的光华路SOHO2项目地上钢结构定标会上,浙江杭萧钢构股份有限公司成功中标!”,随后,SOHO中国董事长潘石屹转发并评论。下午开盘后,杭萧钢构股价应声而上,最高上涨逾6%。可见,媒体的传播已经对个股的涨跌产生了重要的影响。之前我们分别通过股吧帖子论坛、上市公司公告内容、个股新闻热度等三个角度对互联网的文本信息对股市的影响进行了统计分析以及实证,得到了较好的就结果。本专题报告从另一个角度考虑互联网财经相关的文本信息对股市的影响进行研究,我们考虑热门财经网站上推荐股票栏目上的荐股信息对股市的影响,利用大量的热门财经网站上海量的荐股文本信息,从中寻找对个股、行业存在显著影响的信息,并基于此构建量化策略。


  二、互联网财经荐股体系介绍


  2.1 互联网财经频道选股策略框架



  财经频道选股策略整个框架分为三大部分:数据获取、数据处理以及策略构建。数据获取阶段首先收集热门网站的个股推荐栏目,然后对各个网站的个股推荐栏目网页源代码进行解析,分析出需要提取的内容所对应的网页源代码格式,对于返回内容直接为网页所见内容的,直接采用字符串匹配或者HTMLDOM的结构进行解析,推荐使用HTMLDOM结构提取代码,这样爬取下来的内容,“噪音”几乎没有。有些网站信息是经过浏览器再解析后呈现出来的,此时直接对返回的网页源代码进行解析后,得不到需要提取的内容,此时可以考虑是通过JS解析的方式重新获取特定的内容,将需要爬取的特定信息爬取下来后以数据库或者文本文件的形式按一定规律存储于本地磁盘中。


  数据处理分为预处理以及后期处理两块,预处理这一块主要是对由于访问错误或者链接已经失效内容的清洗,后期处理主要是针对预处理后的文本信息根据特定的算法提取每个推荐的个股信息(这里的难点是尽量提高个股信息提取的准确度),可以考虑先对各个网站的文本结构进行分析,找出噪音的规律以及有用信息的规律。策略构建是本专题研究的重点,主要考虑各个网站的荐股能力,分为整体荐股能力、相对申万一级行业荐股能力、相对沪深300、创业板荐股能力;同时考虑多个网站在单策略结果下的动态选股策略,分为考虑整体的选股能力以及区分行业的选股能力。


  2.2 数据抓取平台组件框架


  上图刻画了在大规模的互联网数据爬取过程中的整体框架,对于爬取大量财经网站的荐股文本信息,可以分为以下几个主要步骤:


  1) 首先对需要批量爬取信息的网页结构进行研究,主要是研究需要提取的特定信息的网页格式进行研究,这步骤可以借助在IE浏览器下打开需要提取信息的网页,然后调用出开发人员工具,找到需要批量提取的特定信息的网页代码规则,或者利用Firefox浏览器下的XPATH工具以及View Source Chart工具以及Firebug、以及Httpfox工具;


  2) 找到各个财经网站上需要爬取的财经信息栏目url的规律,然后直接遍历所有需要爬取的财经网站的荐股栏目信息,获取到各个网站历史荐股信息;


  3) 对于大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。由于需要爬取的财经小编的网站数量多,并且需要爬取所有的个股推荐信息,因此爬取的效率是非常关键的一步,多线程、分布式爬取是解决效率问题的好办法。对特定网站需要爬取内容的,需要注意的是网站代码格式不一致问题,因此需要动态地调整爬取程序(正常爬取代码格式+特殊的格式爬取),爬取完成后信息的规范化存储也是一个比较重要的问题,这个可以方便后面的数据清洗、处理。推荐采用数据库存储格式或者本地磁盘的文本形式存储。同时出于对网站安全的考虑,需要实时监控程序的运行,防止网络访问限制问题,设置适当的断线重连机制,IP切换机制等;


  4) 对于抓取到的信息统一批量存储到指定的数据库或者本地磁盘中,构成后续分析的底层的数据库。


  2.3 数据来源


  经过手工搜索热门财经网站,我们确定了10个热门财经网站的荐股栏目,分别为:中国证券网_热点研究个股推荐、南方财富网_个股推荐、同花顺_个股投资、搜狐网站_金罗盘、新浪财经_个股研究、华讯财经_机构荐股、华讯财经_个股点评、华讯财经_内参、搜狐证券_个股风云、凤凰网_黑马集中营。这样我们就选定了爬取的财经“网站池”。



  2.4 数据处理过程


  选定需要爬取的热门财经"网站池"后,接下来的过程就是爬取"网站池"中对应的荐股栏目的历史荐股信息,首先根据需要爬取内容对应到网站的源代码中,找到需要爬取内容的网页源代码代码结构,这里需要注意的问题是,对应的链接失效以及网站对应需要爬取位置格式前后不一的问题,这时候就需要在程序中写入容错机制, 判断链接是否失效以及格式前后是否一致的问题。


  数据爬取完后接下来的一步就是将文本类型的数据处理成有用的信息,因为本专题报告挖掘的是每个热门财经网站荐股栏目上推荐的个股信息,因此需要将爬取 下来的文本信息中关于推荐的个股提取出来,从大量的文本信息中提取推荐个股信 息的难点是如何获取到特定的个股推荐信息以及最大限度地降低"噪音"信息对提取个股推荐信息的影响,本专题采用的方法是通过存储各大财经网站的“噪音”信息库,形成“噪音”信息库。如果在提取各大财经网站上包含的个股推荐信息时,匹 配到了某只个股的信息 ,但是同时也匹配到了该个股在“噪音信息”中,则该匹配 到的个股推荐信息将不被提取。这里的关键是建立“噪音”信息库,我们人工先对爬取后的干扰信息进行大量提取,建立“噪音”信息库。


  对爬取下来的文本信息进行提取建立各大热门财经网站每日荐股的个股信息后,本专题从两个方面考虑各大热门网站每日的荐股信息,第一为考虑单个热门财经网 站每日的荐股信息下的量化策略,第二为考虑各大热门财经网站每日的荐股信息下 的动态量化策略。


  三、财经小编量化策略构建


  在上一节的内容中,我们已经详细地介绍了本专题量化策略构建的整体的框架以及在构建财经小编量化策略过程中需要注意的一些问题点。接下来我们将重点介绍本专题中所构建的量化策略。


  首先基于本专题所跟踪的热门财经网站的荐股栏目历史荐股信息,考虑单个财经网站上荐股栏目的选股能力,主要考虑四个方向的策略:考虑全样本内个股的推荐能力、考虑全样本内沪深300个股的推荐能力、考虑全样本内创业板个股的推荐能力以及考虑全样本内申万一级行业指数成分股的推荐能力;其次基于单个财经网站上荐股栏目的选股能力的量化策略,考虑网站之间的荐股能力,择优选择前期表现较好的热门财经网站,然后基于这些热门网站的荐股信息构建量化策略。我们首先看一下各大热门财经网站每日荐股信息的统计指标。


  3.1 热门财经网站荐股信息统计-全样本统计


  我们首先从简单的统计指标上,看一下各大热门财经网站上每日荐股数量的相关信息。从全样本不区分行业上看,从图10中可以看到,各大热门财经网站上荐股栏目每日推荐的个股数量均匀,其中搜狐网的每日荐股数目最少,平均下来只有每日5只个股,而华讯财经的机构荐股栏目,平均意义上讲,荐股数量最多344只。从标准差角度看,华讯财经的机构荐股栏目每日荐股的数量的波动也是最大的,而搜狐网的金罗盘荐股栏目中每日荐股的数量的波动是最小的。各大热门财经网站荐股数量存在较大差异,也有可能是因为各大热门财经网站样本的时间长度不一造成的。



  3.2 热门财经网站荐股信息统计-创业板、沪深 300 指数成分统计


  从区分各大网站每日推荐的板块角度上看,就创业板而言,各大财经网站每日平均推荐的创业板股票占总推荐股票比例在15%左右,其中,南方财富网的个股推荐栏目每日平均推荐的创业板股票占其每日平均推荐股票的比例最高,为20%.而中国证券网的热点研究个股栏目每日平均推荐的创业板股票占其每日平均推荐股票的比例最低,为8%;从沪深300指数成分推荐而言,各大热门财经网站每日推荐的沪深300指数成分股数量占其推荐股票数量均大于20%,其中同花顺的个股投资栏目推荐比例最少,为21%,而搜狐网的金罗盘栏目推荐比例最多,为43%。



  3.3 热门财经网站荐股信息统计-申万一级行业指数成分统计


  平均意义上讲,从各大热门财经网站每日推荐的申万一级行业指数成分数量上看,各大热门财经网站在 28 个申万一级行业指数成分中推荐的个股数量不均匀,各大热门财经网站之间在 28 个申万一级行业指数成分中推荐的个股数量也不均匀,每个网站侧重推荐不同的申万行业。



  四、策略构建及实证


  4.1 单个财经频道选股策略


  策略原理:在各个热门财经网站历史回测期间内,考虑回测期间内,各大财经网站的每日的荐股信息。在每个交易日,考虑各大财经网站在该个交易日的荐股信 息,对于在该个交易日所推荐的个股,在推荐后的第一个交易日以开盘价买进该个 股,如果买入股票停牌,则该只个股不进行买入操作,持有一段时间,在持有期末 以收盘价卖出该个股,如果个股在持有期末停牌则延迟卖出,直至可以卖出。

  

  交易费用:千分之二,在卖出个股时计算。 初始资金:1。 资金投资权重:等权投资于个股。


  4.2 单个财经频道选股策略实证结果


  首先在全样本内,不区分行业、不考虑个股前一日表现,考察各个热门财经网站的策略表现。



  从表5中可以看出,基于各大热门财经网站的荐股信息构建的量化策略,在短期内都能获得超额收益,短期效应明显。在大部分财经网站上,持有期为2个交易日或 者5个交易日能够获得较高的年化超额收益,特别是持有期为2个交易日的尤为明显。



  在不区分行业以及当日表现等因素的影响下,财经小编选股策略在短期内的效应明显,持有期为2个交易日的策略在回测期内的表现最为优异,其中新浪财经的荐 股表现在历史回测期内表现最好。


  接下来我们考虑在全样本内,各大热门财经网站上沪深300指数成分股上的荐股 能力,策略的原理与之前的一致,不过我们只考虑各大财经网站上推荐的沪深300 指数的成分股。



  从表7、表8以及之前的策略表现中可以看出,考虑沪深300指数成分选股策略,短期效应明显。但与其他策略相比,只跟踪推荐沪深300指数成分的策略表现相对 劣势于其他策略结果。


  其次,我们考虑在全样本内,各大热门财经网站上对创业板股票的荐股能力, 策略的原理与之前的一致,不过我们只考虑各大财经网站上推荐的创业板股票。


  从表9、表10中可以看出,考虑创业板选股策略,短期效应明显。新浪财经个股研究以及华讯财经荐股栏目超额累积收益明显,相对上证指数超额收益也明显。 由于各大财经网站荐股栏目的样本区间长度不一致,因此各大财经网站荐股栏目的策略表现各异。


  接下来,我们考虑各大财经网站上历史荐股栏目的个股信息,将关注点放在各 大财经网站上每日所推荐的申万一级行业指数成分股上,策略原理与之前的一致,测试各大财经网站上对申万一级行业指数成分股的荐股能力,同时基于之前的策略 测试结果,我们主要关注策略表现的短期效应。


  从表11、12、13以及图25、26可以看出,考虑申万一级行业指数成分选股策略, 短期效应明显,尤其以持有期为2个交易日的策略表现最为优异,各大财经网站在申 万一级行业中的荐股能力存在差异。


  4.3 多财经频道智能选股策略


  接下来基于各网站的单策略下的表现情况,我们构建各大热门财经网站之间的动态选股策略。


  策略原理:在每个交易日,考虑各个网站在过去一段时间内的单个策略下的表 现,选择过去一段时间内相对上证指数超额收益大于零的前N个网站,合并当前交易 日推荐的个股形成超配组合,在推荐后的第一个交易日以开盘价买进该个股,如果 买入股票停牌,则该只个股不进行买入操作,持有一段时间,在持有期末以收盘价 卖出该个股,如果个股在持有期末停牌则延迟卖出,直至可以卖出。


  交易费用:千分之二,在卖出个股时计算。 初始资金:1。 资金投资权重:等权投资于个股。


  4.4 多财经频道智能选股策略实证结果


  首先,我们基于各大热门财经网站在单个策略下的表现情况,考虑全样本内,不区分行业、推荐个股当前表现等因素下,各大热门财经网站之间的动态策略,策 略原理与4.3中的表述一致,我们现在考虑各大热门财经网站在申万一级行业中的策略表现。


  基于各大热门财经网站前5个交易日下的单策略表现,选择策略表现优异的前50% 的网站推荐的个股形成超配组合的动态策略,从图27以及表14、15中可以看出,基 于单个热门财经网站的策略表现,构建的多频道财经财经智能选股策略表现较单个 网站的策略表现优异,而且与之前单策略下的实证结果一致,该类动态策略同样存 在较为明显的短期效应,尤其以2个交易日的表现最为突出。而从各个持有期的最大 回撤角度看,除了08年回撤较大外,其他年度的回撤较小。


  基于以上的不区分行业、个股当日表现等因素下构建的动态策略,我们可以看出,这种多财经频道的动态策略,短期效应明显。不区分行业的情况下,其中考虑 各个网站单策略下前5个交易日表现,选择前50%网站当前交易日推荐的个股形成的 超配组合的在持有期为2个交易日的策略在回测期内表现最为优异,除2008年回撤 较大外,其他年度回撤较小,各年度无论绝对收益还是相对收益都显著。

  

  在4.1节中,我们考虑了各大热门财经网站在申万一级行业中的荐股策略表现, 现在,我们基于之前考虑的各大热门财经网站在所推荐的申万一级行业中的表现, 构建基于申万一级行业的多策略驱动下的动态策略,策略原理与4.3中阐述的策略原理一致。


  从图29以及表18、19可以看出,基于考虑各个热门财经网站对应的申万一级行 业策略表现,选择前50%的网站推荐的个股构成的超配组合,短期效应明显,年化 超额收益率为15.38%。从分年度最大回撤上看,除了08年遭遇金融危机的影响外, 其他年度的回撤都较小,大部分年度能够得到正的收益率。


  基于以上区分行业的情况下,不考虑个股当日表现等因素情况下,从上述的策略表现中可以看到,考虑各个网站单策略下前30个交易日,选择前50%网站当前交 易日推荐的个股形成的超配组合的在持有期为2个交易日的策略在回测期内表现仍最为优异。


  五、总结


  本专题报告基于互联网大数据时代背景下,挖掘了热门财经网站上个股推荐栏目的文本内容隐藏的有价值的信息。基于文本挖掘技术,本专题报告通过构建量化策略对热门财经网站上的荐股的文本信息进行了量化度量。


  通过所构建的量化策略,对各大热门财经网站上荐股栏目的文本信息进行了历史回测,实证结果表明,所构建的量化策略在回测期间内,表现优异,主要结论有:


  对于热门财经网站的荐股信息,存在明显的短期效应,所构建的量化策略在短期内获得的超额回报显著,尤其以持有期为2个交易日的最为显著;


  不同热门财经网站荐股信息存在不同的优势,在各行业的策略表现各异;


  通过单个网站的单策略建立了多策略驱动下的动态策略,动态策略存在明显的短期超额收益效应,其中在不考虑区分行业的情况下,考虑各个网站单策略下前5个交易日表现,选择前50%网站当前交易日推荐的个股形成的超配组合的在持有期为2个交易日的策略在回测期内表现最为优异,而在考虑区分申万一级行业的情况下,考虑各个网站单策略下前30个交易日,选择前50%网站当前交易日推荐的个股形成的超配组合的在持有期为2个交易日的策略在回测期内表现仍最为优异。



  风险提示


  本模型为采用纯量化方法,所推荐的个股未必具有实质性的利好,其股价表现还受到诸多因素影响,请结合基本面及自身判断进行恰当使用。(史庆盛/广发证券)



举报 | 1楼 回复