一、互联网改变生活大数据就在身边
互联网作为改变人类历史的产物,近年来得到了飞速的发展,随着互联网的日益普及,其正在逐渐改变人们的生活习惯。商场的购物份额正在被足不出户的网络购物所侵蚀;新闻媒介受到铺天盖地的网络资讯冲击,纸媒生存空间日益狭隘;人与人之间的联系不再局限于写信、电话,微博、网络电话等互联网工具日新月异;旅行社的预定功能难以抗衡网络预定宾馆、机票的透明度;就医、就餐无需再早早敢去排队,网络预约极大的提高了便利性;更为典型的是,具备搜索功能的互联网,正在逐步替代字典、地图乃至百科全书等一系列具备查询功能的产品。
互联网的渗透不仅仅体现在上述方面,从使用群体数量而言同样极为惊人。根据中国互联网络信息中心(CNNIC)今年7月份发布的第34次《中国互联网络发展状况统计报告》显示,截至2014年6月,中国网民规模达6.32亿,较2013年底增加1442万人,其中,手机网民规模5.27亿,互联网普及率达到46.9%。相比欧美发达国家,互联网起步较晚的中国的网络覆盖率就已经如此惊人,可想而知全球互联网使用者群体之庞大。在使用互联网的过程中,使用者会接触到文本、音频、视频、图片、位置等各类信息,而这所有的信息均可以归纳为“数据”。互联网使用如此之频繁以至于这些数据如此之大,根据马欣《互联网与大数据发展研究》中的数据显示:2009年,仅美国政府产生的数据就达到848PB(P为1015);2009年,美国医疗数据为150EB(E为1018);2012年,全球产生的数据量为1.8ZB(Z为1021);2013年,Gartner统计,全球互联网企业在数据中心建设方面的支出为1500亿美元;2017年,据Cisco预测,全球数据流量将达到7.7ZB;2020年,IDC预测全球数据量将达到35ZB。人们为互联网庞大的数据量起了个形象的称谓——“大数据”。
麦肯锡在2011年对大数据概念进行了明确的定义——大数据是值大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。同时麦肯锡在《大数据:创造、生产力和竞争的下一个前沿》中指出,大数据可以通过多种方式创造价值,包括:1、创建透明度,让利益相关方更容易获得及时信息,创造更大价值。2、发现需求,通过交易数据对比得到更好的决策。3、细分客户人群,从而精确定制服务和产品满足需求。4、通过自动化算法替换人为决策。5、创新商业模式、产品和服务。事实上,正如麦肯锡所言的大数据可以创造价值,越来越多的行业也意识到这一点,并逐渐开始应用大数据创造价值,金融行业即是其中之一。
二、大数据与金融的碰撞
关键词搜索量分析
从21世纪以来,学术界中涌现出了一批关于大数据与金融之间联系的研究成果。2010年,美国印第安纳大学的一项研究成果表明从Twitter信息中表现出来的情绪指数与道琼斯工业指数的走势之间具有很强的相关性。研究表明,Twitter中表现出来的情绪和道指接下来几天的上涨或者下跌的相关性达到了87%。随后在2011年,作者将研究的范围扩展到了新闻调查、Twitter订阅以及GOOGLE搜索引擎数据,通过情绪追踪技术,比较这些指标对道琼斯工业指数价格、交易量、市场波动率(VIX)还有黄金价格的影响。同时,作者还使用了传统的记录投资者情绪的数据,与上述的互联网上的大数据进行比较,看它们对金融市场的影响。结果表明,传统的关于投资者情绪的调查数据是金融市场的滞后指标,也即是说,利用传统的投资者情绪指标无法预测股票市场的涨跌变化。然而,每周的GOOGLE金融搜索数据则能够预测股票市场的变化,用Twitter投资者情绪指标预测一到两天后的股市收益率的结论也是统计上显著的。这就说明,利用网络大数据来预测股市的变化是可行的。此外,美国佩斯大学在2011年的研究成果表明,社交媒体可以预测出三大国际知名品牌股票价格的涨跌,包括星巴克、可口可乐和耐克。
这里我们详细介绍一下,美国印第安纳大学Huina Mao和Johan Bollen与微软[微博]研究员Scott Counts在2011年发表的学术论文Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data的主要内容。传统的有效市场假设理论(EMH)认为由于理性投资者的利润最大化需求,金融市场中资产的价值已经包含了一切存在的、新的甚至是隐藏的信息。然而,行为金融学的理论对这个观点产生了质疑,它更重视行为和情绪因素以及社会情绪在金融决策中的作用。因此,如何合理而有效的衡量投资者情绪和社会情绪指标成为了金融预测中最重要的一环。传统上习惯通过问卷调查来衡量投资者的情绪指标,不过这种做法有诸多弊端。近年来,研究人员基于大规模网络数据开发了一系列的计算投资者情绪指标的方法,这些方法相比传统的问卷调查更快速、更精确、成本更低。研究者所使用的大规模网络数据主要包括了三种类型的数据:新闻媒体数据、网络搜索数据和社交媒介简讯,其中,社交媒介简讯又主要包括Facebook、Twitter、LiveJournal等数据源。这些数据被证明能够有效地预测股市中的波动。作者收集了各种多维的数据来源,同时定义了一些情绪指标,比如投资者调查情绪指标、负面新闻情绪指标、谷歌[微博]搜索量指标等,并且研究这些情绪指标对一些金融指标的预测能力,比如道琼斯工业指数价格、交易量、市场波动率(VIX)和黄金价格等。
在整个收集数据以及制作情绪指标的过程中,作者运用了一些量化的手法。比如说,在利用Twitter数据计算指标Twitter投资者情绪时,如果一条Twitter中包含了“牛市”这个词,那么就认为这条Twitter是看多的;反之,如果Twitter中包含了“熊市”,就认为该Twitter是看空的。统计出一天内看多和看空的Twitter的数量,再基于此定义投资者情绪得分,即投资者情绪指标为:
此外,作者还定义了两个搜索量指标Tweet Volumes of Financial Search Terms (TV-FST)和Google search volumes (GIS),分别代表了基于tweet的股票讨论的数量以及基于GOOGLE的26个关键词的搜索量。作者将这两个指标进行比较,发现二者的走势是比较接近的。
图1TV-FST和GIS指标走势图
资料来源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
在接下来的篇幅中,作者着重验证了上述各种情绪指标对金融指标变化预测的有效性。下图展示了GIS与各个金融指标之间的变化情况,我们发现GIS与VIX之间的相关系数为0.88,GIS与黄金价格的相关系数为0.70,同时,GIS与道琼斯工业指数的收盘价呈现出了很高的负相关性,为-0.77。事实上,VIX是衡量股市风险的常用工具,通常被称作“投资者恐慌指标”,那么,GIS与VIX呈现出很高的正相关性的结论,恰好说明了一个金融术语在网络上被查询的越多,就越说明投资者对其的恐慌情绪的程度。随后,经过格兰杰因果检验,作者证明了GIS对金融指标确实有预测能力。
图2 GIS与各个金融指标之间的走势变化
资料来源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
下图是作者把四种情绪指标,分别是从Twitter中提取出来的两种指标TIS(Twitter投资者情绪指标)和TV-FST(Tweet中金融术语搜索量),从新闻头条中提出出来的指标NNS(新闻负面情绪指标)以及从问卷调查中提取出来的指标DSI(每日情绪指标)与道指的收盘价走势进行比较。我们发现TIS与道指收益率正相关,与VIX负相关;DSI与道指收盘价和收益率正相关,与交易量和VIX负相关。由于VIX代表市场风险,因此VIX与TIS和DSI负相关说明这两种情绪指标是衡量正面情绪的指标。而与此同时,由于VIX与NNS以及TV-FST呈现出正相关性,就说明后两者是衡量负面情绪的指标。经过格兰杰因果检验,发现从两个Twitter情绪指标TIS和TV-FST以及新闻情绪指标NNS是能够预测道指收益率的,而问卷调查情绪指标DSI不具备预测的能力。
图3 TIS、TV-FST、NNS和DSI指标与DJIA收盘价的走势
资料来源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
文本语义分析
除了从搜索量的角度研究大数据与金融的关系以外,从文本语义分析的角度进行研究也非常热门。在2014年牛津大学期刊发表的一篇文章中,作者发现通过分析投资者在网络发帖和评论中表现出来的观点也能够有效地预测未来股市的收益。作者使用的原始数据来自于投资者在美国最大的投资社交网站Seeking Alpha发表的文章和评论以及道琼斯新闻服务网站DJNS上的新闻报道和评论,在经过一系列的文本识别方法和算法对内容进行辨识和分析后,定义报道或评论的负面率为文章中负面词汇的个数占总字数的比例,代表其对于股票的多空态度。下面图4-7是在Seeking Alpha网站上针对的GOOGLE的几篇正面和负面的新闻报道和评论,其中图4是关于GOOGLE的负面报道,报道篇幅总字数为494个,其中负面词汇字数为12个,报道的负面率为2.43%;图5是关于GOOGLE的正面报道,篇幅总字数为447个,其中负面词汇字数为0,报道的负面率为0%。图6是关于GOOGLE的两条负面评论,负面率分别为2.4%和5.23%;图7是关于GOOGLE的两条正面评论,负面率分别为1.26%和0.58%。
图4 一篇关于GOOGLE的负面报道
资料来源:Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media, Seeking Alpha
图5 一篇关于GOOGLE的正面报道
资料来源:Wisdomof Crowds: The Value of Stock Opinions Transmitted Through Social Media,Seeking Alpha
图6 两条关于GOOGLE的负面评论
资料来源:Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media, Seeking Alpha
图7 两条关于GOOGLE的正面评论
资料来源:Wisdomof Crowds: The Value of Stock Opinions Transmitted Through Social Media,Seeking Alpha在模型方面,作者提出了如下的回归模型研究报道和评论的负面率与股票超额收益之间的关系:
图8 研究Seeking Alpha中新闻报道和评论中的负面率与股票超额收益之间的关系
资料来源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
从结论中可以看出,当SA上关于某只股票的报道的负面率增加1%时,这只股票的而未来预期收益率就会降低0.32%;同时,当SA上关于某只股票的评论的负面率增加1%时,这只股票的未来预期收益率就会降低0.196%。这也就印证了SA上的新闻报道和评论对股票未来的价格是有预测能力的。基于这个结论,作者提出了四个交易策略。图9是四个交易策略从2006年到2012年之间的累计净值表现,可以看出基于互联网情绪指标构建的交易策略的净值表现很好。
图9 四类多空交易策略净值表现(2006-2012)
资料来源:Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data
三、大数据金融应用的翘楚——CAYMAN ATLANTIC公司
美国市场大量有关金融和大数据成功结合的案例鼓舞了投资管理人,那么理论上有效的东西在实际运作中能否产生利润呢?勇于尝试新鲜事物的美国投资管理人决定将其应用到实际中来检测效果,并基于此开发了相应的产品。作为最火的社交网络,Twitter拥有众多互联网使用群体的信息,因而其被大量的投资管理人视为大数据的最佳来源,并依此开发了相应的对冲产品, CAYMAN ATLANTIC公司就是其中的翘楚之一。
CAYMAN ATLANTIC公司是一家专门基于互联网数据和Twitter等媒体数据进行投资的资产管理公司。事实上,创始人Paul Hawtin在2009年创立了Derwent Capital Market公司。这家公司通过分析社会媒体信息中的情绪信息来交易金融衍生品,曾近发行了第一只“Twitter基金”——Derwent Absolute Return Fund并且取得了正收益,不过三年后Paul就把整个公司卖给了Peanuts。随后他就成立了CAYMAN ATLANTIC公司并发行了一只利用Twitter信号、大数据等新闻媒体信息进行交易的对冲基金。
CAYMAN ATLANTIC的投资理念认为,我们现在正处在一个被大数据包围的环境当中。根据他们的统计数据,直到2014年4月份,全球有90%的数据都是在最近两年内被创造出来的。因此,CAYMAN ATLANTIC采用了一些非常复杂的信息处理技术,通过对真实并且实时的数据进行分析从而发现市场中的趋势、事件和情绪。基于这些非常有价值的内在信息,CAYMAN ATLANTIC针对主要是欧洲和美国的证券交易所中的许多金融资产都设计了交易策略,包括股票、大宗商品等,目标直指长期投资的绝对收益。
在CAYMAN ATLANTIC的大数据交易模型中,原始信息主要包括了谷歌、Twitter和Facebook等多维、实时的信息来源。CAYMAN ATLANTIC提出了一种具备弹性计算技术的低延时、多层搜索过滤系统,通过关键字过滤器、微博影响力过滤器、多人转发监测器以及来源真实性监测器等模块的处理后,最终将其转化为指向多空的交易信号。比如说,有人发了一条新微博“油罐车爆炸了”,那么关键字过滤器会得到三个关键字“爆炸”、“油罐车”和“油”。随后,微博影响力过滤器会监测这个微博的作者的粉丝是否大于1000人从而判断这条信息的影响力的大小。同时,多人转发监测器会来确认是否有别人也发布了同样的信息。最后,系统会确认信息来源的真实性。经过系统的层层处理以后,每一条实时文字信息就转换成了可以被量化处理的信息。交易员就会根据这样的信息寻找交易机会,做多或做空相关标的。
CAYMAN ATLANTIC在其官网上披露了旗下对冲基金的历史收益数据。从2012年7月该基金成立至2014年6月,基金的累计收益率达到了48.36%,年化收益率为21.8%。在24个月中,有20个月获得了正收益,平均每次盈利为2.03%;只有4个月的收益为负,平均每次亏损为-0.14%,基金的月胜率达到了83.3%。基金从2012年12月至2013年2月曾经出现连续3个月亏损,不过这轮连续亏损仅让基金的净值下降了-0.21%。从风险指标的角度来看,基金在两年中的收益率的标准差为1.68%,最大回撤出现在2014年5月,仅为-0.33%。分年度来看,2012年后半年基金的累计收益率为3.56%,2013年全年的累计收益为26.32%,而2014年上半年为13.42%。可以说这只基金在非常低的风险下,创造了相当高的收益。
图10 CAYMAN ATLANTIC对冲产品业绩表现(2012.7- 2014.6)
资料来源:海通金融产品研究中心
四、大数据走入中国——新浪南方合作“财经大数据策略”指数
无论从理论上还是实际投资上,大数据对于金融投资的指导意义都获得了令人称叹的效果。事实上,这种现象的存在并非无花之果,因为从某种角度而言,市场的走势是由投资者情绪驱动的,针对同一件事情,乐观的投资者情绪可以将其解释为利多,反之悲观的情绪也可以从负面解读,而投资者的搜索以及发表的言论正是其情绪的反应,基于此搜索的大数据,只要过滤掉扰动,就能真实反应投资者对于市场的真实情绪,从而对于后市投资具备指导意义。中国近年来的金融发展日新月异,海外成功的金融产品创新的舶来也日益增多,如今海外大数据与金融完美结合的案例也鞭笞着国内管理人本土化的实践,作为互联网覆盖率已经极高的今天,在我国开发相应的产品具备了肥沃的土壤,且国内投资者相比海外更为显著的羊群效应也为大数据策略提供了更好的应用基础。本次南方基金联合新浪网就瞄准了这一创新品种,将其进行了本土化实验。
南方基金作为国内最早一批基金公司,一直以其稳健的投资理念以及跟随时代的创新精神吸引着大量投资者,稳健而良好的业绩以及符合投资者需求的产品使得公司的规模一直位居中国基金公司第一梯队,而新浪财经作为国内领先的财经数据平台,其股票频道、财经新闻、股吧论坛、尤其是新浪微博相关财经账号,对上市公司有着更及时全面的资讯覆盖、其财经数据的互动信息来自专业的投资者,较普通的互联网媒体有着更具有价值的信息。其体现的市场情绪变化涵盖了宏观经济、行业动向、个股关注、财经新闻报道曝光度、股票论坛用户参与度,全方位的展现了投资者与股票间的互动情况,隐含了海量的投资辅助信息。两者本次的强强碰撞,希望在互联网基金创新上迈入新纪元。
南方基金通过对新浪在财经领域的“大数据”定性与定量分析,找出股票热度预期、成长预期、估值提升预期与股价表现的同步关系,构建策略因子,精选出具有超额收益预期的股票,构建、编制并发布南方-新浪财经大数据策略指数。从历史业绩来看,在波动率增大的情况下,南方-新浪财经大数据策略指数大幅跑赢同期的沪深300以及中证500等基准指数,并且相对的优势一直在稳定的不断增大,每年都有相对明显的超额收益。作为一个投资标的,指数的业绩固然是其吸引投资者的重要来源,但其市场容量同样重要,如果一只指数的规模过小,那么投资者的申赎行为将会对组合业绩造成极大的冲击,南方-新浪财经大数据策略指数在编制过程中也考虑了市场容量,最新一期南方—新浪财经大数据策略指数的流通市值超过1万亿,和目前的主流宽基指数容量处于同一数量级,有很好的流动性保证。基于这样一个策略指数,南方希望将其产品落地化,在不远的将来将针对该指数开发相应的指数产品,我们拭目以待国内首只互联网与金融碰撞出火花的产品能早日横空出世。