基金资讯_理财e站_中国农业银行

数据:新时代的石油

来源：和讯 2018年09月25日

　　数据:新时代的石油

　　随着全球经济数字化转型稳步发展，数据逐渐变得越来越庞大、多样化及有价值。具有从大数据分析及数据科学中获取独特见解的各行业（包括资产管理）的公司，可以拥有关键信息优势，从而在这数字时代蓬勃发展。

　　富兰克林邓普顿投资观点

　　概要

　　• 与推动工业化时代的石油类似，数据乃推动第四次工业革命（也称为数字时代）的核心资源，两者的区别在于技术突破的速度。

　　• 从大数据中得出的重要观点令具备数据分析能力的机构能够更快作出更佳决策，从而提高利润率及收入。

　　• 同样地，数据科学家从以前未开发利用的数据源中获得的知识及见解，可帮助资产管理人作出更精明、合理及可能更有利可图的投资决策。

　　• 使用自然语言处理、卫星图像、机器学习及深度学习算法、模式识别及认知系统的数据模型可有助于提高投资团队的赚钱技巧。

　　• 富兰克林邓普顿正积极建设其数据科学及人工智能能力，以支持其主动型投资管理流程。在此过程中，数据科学家被嵌入到每个投资团队，将数据视角转化为可操作的投资相关情报。

　　数据力量的利用

　　英国经济学家、作家及1991年诺贝尔经济学奖获奖者罗纳德·科斯（Ronald Coase）沉思道“拷问数据，它会坦白一切”。

　　上个世纪60年代初，在那个数据稀缺、难以获得且基本无法使用的年代，已故的科斯在弗吉尼亚大学的一次演讲中对数据处理发表了这句著名的半开玩笑式的名言。

　　时代在变换，数据亦是如此，其本身已发生彻底变化，尤其是在最近几年，数据变得极其庞大繁多、多样化、无处不在，而且越发有价值。在全球产业快速数字化转型（也称为第四次工业革命）的影响下，数据如今被视为“新时代的石油”或是世界上最有价值的资源之一。

　　借用英国数据科学家及数学家克莱夫·哈姆比（Clive Humby）在2006年发出的口号“数据是新时代的石油”，富兰克林股票团队副总裁兼基金经理Grant Bowers表示“数据无疑是新时代的石油”。Bowers称，石油历来是巨大的经济力量的关键。但在未来，数据将在数字时代拥有类似的经济力量。

　　毫无疑问，如能够从庞大数据集或大数据中获得客户偏好、未知关联性、隐藏的市场趋势及其他有利信息中拥有独特见解的公司，将在数字时代享有繁荣发展的最大优势。因为这些公司将能够作出更佳、更快及更明智的决策及预测。

　　Bowers补充道：“我们现正处于一个转折点，各个行业的公司正在跨越传统的生产力衡量标准，拥抱数字化转型时代，在这个时代，数据是宝贵的资产。数据分析、机器学习及人工智能将为拥抱未来的公司带来更高的利润、回报及数十年的提升。”

　　同样地，能够利用大数据力量来增强其成熟的投资专长的资产管理公司，将很可能在当今的数字时代蓬勃发展。

　　为何数据越来越庞大且复杂？

　　无疑，可用数据的数量目前正呈指数式增长。在2017年一份名为《数据时代2025》的报告中，研究公司IDC预测，“全球数据球”（任何给定年份中全球范围内创建、捕获及复制的所有数据总和）可能从2016年的16.1泽字节迅速增长至2025年的163泽字节。（1泽字节约等于1万亿吉字节。）扩张速度是近十年的10倍以上（见图1）。

　　近年来，个人电脑、智能手机、平板电脑、GPS跟踪可穿戴设备、传感器及大量数据生成小工具等数据生成设备的数量显著增加，导致生成大量数据集。例如，如今传感器被普遍嵌入到移动设备、软件日志、相机、麦克风、射频识别阅读器及无线网络中。

　　同时，随着计算能力及算法系统（让数字数据几乎可以在瞬间被高效处理）的快速发展，保存及处理数据的成本大幅下降。大规模收集数据的便利程度亦大大提高。如今，大量连接不同数字设备（统称端点）的用户可生成数据。例如，根据互联网世界统计（Internet World Stats）的互联网使用情况和人口数据统计（Internet Usage and World Population Statistics）的估计，全球互联网使用人数于2017年年底增长至约41.6亿。

　　此外，传输海量数据的带宽每年都在增加，而成本越来越低。超高速网络及无线宽带的传播亦刺激数据从物理存储设备转向云存储，令用户可从任何数码显示屏访问数据*。大型云计算公司促进了数据的在线存储，其通过提供一系列按次付费的数据分析工具，让其服务的用户更容易汇总及理解大数据。

　　总之，数据集正变得如此庞大及复杂，以至于传统数据处理应用程序及软件无法进行处理。大数据管理的主要挑战包括数据获取、数据存储及分析以及数据源的质疑、探测、共享、传输、可视化及更新，以及信息隐私维护。这就是数据科学的用武之地。

　　*云计算或基于互联网的计算实现通过互联网而非独立电脑硬盘分散存储及访问程序及数据。

数据:新时代的石油

　　评估数据的科学

　　类似于数据挖掘，数据科学是计算机科学的一个分支，涉及使用系统方法、计算程序、认知系统、算法及人工智能来提取有用的统计信息，发现隐藏模式及未知相关性，并从结构和非结构化形式的大型数据集获得见解及知识。

　　已故日本统计学家及数据专家林知已夫（Chikio Hayashi）在其白皮书《什么是数据科学？基本概念及启发式例子》（What is Data Science? Fundamental Concepts and a Heuristic Example）中，将数据科学描述为“统一统计学、数据分析、机器学习及其相关方法的概念”，以用数据“理解及分析实际现象”。

　　有趣的是，随着数据被归类为数据时代的“新时代石油”及“最宝贵的资源之一”，数据科学家已成为企业界、大多数行业以及政府部门除专家外最抢手的职业之一。事实上，在《哈佛商业评论》2012年10月刊本中，有一篇文章甚至将数据科学家这一职业称为“21世纪最性感的工作”。

　　最终，数据科学及大数据分析使用尖端技术，例如机器学习、自然语言处理、文本分析、模式识别及其他先进方法，旨在让组织可从精心挑选的数据集中获得有价值的见解，从而作出更佳更快的决策以及更准确的预测（利用数据决策的利与弊见图2）。

　　要从大数据中提取有用观点，需要以下数个步骤。第一步是为数据科学家就数据收集及分析设定可衡量目标。这是为防止无意义的数据积累及分析。由于大部分大数据分析是为了助推决策，一个简单的目标（例如对于资产管理人而言）可以是通过大数据提高投资研究洞察力，从而作出更佳的证券选择决策。

　　下一步涉及收集及生成数据，可向数据供应商购买，或从内部获取。虽然数据收集十分重要，但以一种功能性、可用及可访问的格式来维护数据并用于决策亦至关重要。因此，一旦收集了所需数据，接下来将要进行数据处理（可能会很费时）以提高数据质量。垃圾数据可能会导致结果不准确及扭曲，因此干净有序的数据对于分析而言十分重要。在这个阶段，由于大数据太大且太复杂而无法手动处理，自动化就显得极其重要。

　　简而言之，数据预处理将可能不完整、不一致及部分有误的原始数据转换成简明易懂的格式，以便作进一步分析。在预处理阶段，数据会进行清理、整合、转换、筛选及汇总，以解决不一致的问题。此阶段亦涉及填补缺失数值及删除异常数据。最终的数据是一组标准格式的“已清理”数据，以用于最优数据分析。

　　然后可对数据集运用文本分析、机器学习及预测分析等先进的数据分析方法。经验丰富的数据科学家甚至可开发具备深度学习能力的模型，这些模型可关联数据并进行预测。

　　机器学习方法（亦称为监督学习法，例如回归、编目及分类）基本上为特定任务算法，用于检查数据、从该数据集中学习并利用所学知识作出明智决策。随着时间的推移，机器学习模型会变得越发强大，对任务的执行将逐渐变得更高效及熟练。

　　深度学习是更高层次的机器学习，当中算法可以不受监督或部分受监督；其已能够对数据进行评估，自行识别模式及相关性，以及判断结果准确与否。总之，深度学习模型（人工智能技术的发展基石）能够完成无人监督的学习任务。

数据:新时代的石油

　　利用大数据提高投资灵活性

　　在投资领域中，在数据科学家的帮助下，从以前未开发使用的数据源中获得的知识和独特视角可以帮助资产管理人做出更迅速、精明及合理的投资决策，从而有可能提高其投资组合的绩效。

　　随着迄今无法利用的更新和庞大数据集得以使用，再加上数据分析能力提升，同时可利用先进的基础设施快速获取、处理和分析大量数据；如今越来越多资产管理人利用大数据框架来增强其研究流程和投资能力。事实上，数据科学可以融入传统的投资流程中，用新发现的信息优势武装投资组合经理和投资分析师。

　　除了使用关于公司的传统财务资料以及传统的金融市场数据之外，由卫星图像、航空货运和运输记录、网站流量、推文和社交媒体数据、商业交易和原材料采购统计数据生成的替代数据库，可让股票基金经理（举例来说）对其所投资的公司有更细致的了解。

　　具有自然语言处理（NLP）功能的计算模型能够细阅及解释新闻提要、长篇文章、财务报表、经纪人报告和有关特定公司的行业文件的基调，以确定出版材料是否存在消极或积极的含义。NLP还能够识别公司与其他公司之间的间接和微妙联系。NLP模型可以从观察到的各类企业新闻、行业报告、监管文件和其他文本材料中收集这些未被发现的联系。

　　同样地，输入NLP模型的贷款和借款、法律文件和商业交易的相关数据也可以发现资产负债表日益恶化的公司。基于数据的模型还可以通过分别审查全国范围的行业销售数据和岗位任命统计数据，创建经济指标的及时代替指标，例如国内生产总值和失业人数。

　　卡车进出工厂的卫星图像可以揭示公司制造活动的实验证据，可用于加强一段时间内的销售预测。农场、耕地面积、矿山和运输路线自上而下的卫星图像亦可能发现尚未报告的行业供应中断。

　　另外，将大量金融市场数据输入深度学习模型，当无人监督的算法发现异常价格趋势、市场违规行为和引发及预示过去的市场调整的模式（例如波动性大增、价格动量分解、流动性减弱或其他因素）时，提醒投资团队市场即将陷入低迷的可能性。这种信息优势可让投资组合经理采取必要的策略来预测可能的市场事件。

　　此外，使用增强型“决策树” 分类的预测机器学习模型（称为随机森林）可以帮助投资团队进行更可靠及一致的预测。[决策树是一种常见的机器学习方法，具有流动型结构或树状图形，详细说明了各种决策以及这些选择的可能后果或结果。]

　　决策树模型的目的是根据一系列具体决策来预测结果。然而，由于方差过大，决策树学习模型很少能够作出精确预测，这是由对数据集的小波动或“随机噪声”的敏感性引起的。这导致决策树需要学习高度不规则的模式。通过将多个决策树平均化，随机森林方法降低了与传统决策树相关的高方差。因此，随机森林模型能够作为基于预测数据的系统，并作出更好的预测。

　　拥抱数据科学

　　富兰克林邓普顿正积极建立自身的数据科学和人工智能能力，以支持其主动型投资管理流程，并利用原始数据源来帮助投资团队获得信息优势。

　　数据科学家已经被分配到各个投资团队，他们将数据分析产生的观点进行转化，以增强与投资相关的情报。这些数据科学家的职责是检查和解释复杂而庞大的数据库，协助投资团队决策。

　　富兰克林邓普顿高级副总裁、首席技术官兼投资管理数据科学、金融科技及科技风险服务主管Joe Boerio表示：“我们的投资管理数据科学Hub＆Spoke模型的建立正在有条不紊地进行。在该模型中，数据科学家被嵌入到每个投资团队，模型将通过核心枢纽实现，具有支持投资管理数据栈和共享服务功能。”

　　富兰克林邓普顿的投资管理数据栈由数个关键部分组成。包括传统和替代数据源的数据收集、数据存储和检索、数据作为平台（利用数据摄取、清理和设计的数据科学能力）、应用程序（扩展微应用程序和服务的使用）以及协作工具和技术，可支持和加强整个投资管理周期和投资管理团队之间的协作（见图3）。

　　Boerio还表示：“重点是在投资管理的整个周期中将数据视角转化为可操作的投资相关情报。这包括进行和管理研究、优化投资组合、持续监控投资组合、管理命令和执行交易，同时加强风险管理。”

　　据Boerio称，富兰克林邓普顿投资管理数据科学团队的最终目标是打造一个信息优势，通过启用进入投资管理数据服务（包括NLP、辅以人工智能的人类直觉见解）的完整目录，利用全世界的“数据化” 检验和反证投资主题，并从大数据中获取第一手资料以萃取投资构思，构建更优的投资组合。

数据:新时代的石油

　　富兰克林邓普顿还继续在尖端的投资相关技术方面进行战略投资和收购，以增加和支持其全球产品和支持公司宏大的信息技术及数据科学计划。

　　收购Random Forest Capital后，除了从数据科学的角度来处理投资管理问题，应用机器学习和统计算法解决使用复杂模型的金融投资的预期收益问题，还建立了一个可扩展的云基础架构，可以利用大量非结构化数据获取关键的见解，并在数据中找到新的预测能力。其数据科学家主要是从非银行、以技术为中心和基于网络的贷款发起人处获取并分析有担保和无担保的私人贷款的投资机会。

　　富兰克林邓普顿固定收益团队首席投资官Chris Molumphy表示：“颠覆性技术的快速发展正影响着传统的投资环境，为识别和创造投资机会提供了新方法，从而为投资者创造更多价值。作为一个富有创造力的企业家团队，Random Forest团队带来了一个扩展工具集，让我们能够进一步提升投资专业知识，并适应变幻莫测的投资环境。”

　　例如，在寻找最具吸引力的信贷机会的过程中，在数百个不同的数据库平台上搜寻大量有担保和无担保贷款是一项艰巨的任务，信贷分析师可能需要数周甚至数月才能完成。利用从Random Forest中新获得的数据科学能力，这些数据密集型任务可以在数秒钟内通过其专门的数据模型执行，这些模型可以快速有效地搜索和分析大量数据。

　　富兰克林邓普顿的定量策略研究，亦利用数据分析和机器学习方法来分解回报来源、处理市场信号和趋势，并优化其风险因素构建模块中的风险。量化单位在被输入数据基础设施和数据模型的数据质量上特别细致（见图4）。

数据:新时代的石油

　　然而，无论是在投资管理还是其他行业，向大数据框架的过渡并非一帆风顺。实际上，可能有些数据集过于昂贵而无法收集或购买。还有一些数据可能无法为资产管理人提供任何产生超额收益的见解。有时候，数据科学家发现的投资机会也可能非常短暂或仅产生边际收益。

　　尽管如此，从长远来看，随着全球数字经济稳步发展，而投资管理中的超额收益变得更加难以捉摸，数据收集和大数据分析产生的独特见解很可能成为帮助基金经理实现高于平均回报的目标的关键工具之一。由人工智能驱动的数据模型确实有可能为投资者创造新的赚钱机会。因此，将数据科学与久经考验的投资流程相结合，可以成为在变幻莫测的数字时代运营的资产管理公司的制胜之道。

　　正如内燃机的运行需要燃油，人工智能和其他复杂的机器学习模型必然需要数据方能运行。数据可能是新型燃油。但与原油一样，大数据需要经过精炼和加工才能实现经济效益。

　　附录

　　• 人工智能指机器或软件所表现出来的智能。该词也指研究如何创建具有智能行为能力的计算机和计算机软件的学术领域。

　　• 大数据指传统数据处理应用软件不足以处理的庞大且复杂的数据集。大数据挑战包括数据获取、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。

　　• 数据分析是一个检查、清理、转换和建模数据的过程，目的是发现有用的信息、报告结论和支持决策。数据分析具有多个方面和方法，在不同名称下包含各种技术，同时用于不同的商业、科学和社会科学领域。

　　• 数据科学是一个跨学科领域，它使用科学方法、流程、算法和系统，从结构和非结构化的各种形式的数据中提取知识和见解，类似于数据挖掘。

　　• 决策树是一种决策支持工具，使用树状图或决策模型及其可能的后果，包括随机事件结果、资源代价和实用性。它是显示仅包含条件控制语句的算法的一种方法。

　　• 深度学习是基于一组算法的机器学习的一个分支，该算法是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象建模的演算法。

　　• 机器学习是计算机学习以未经专门编程的方式运行的能力；数据分析方法建立在自动分析模型之上。

　　• 第四次工业革命是自18世纪初期工业革命以来的第四个主要工业时代。它可以被描述为一系列融合物理、数字和生物的新技术。其标志是在很多领域出现的新兴技术突破，包括机器人技术、人工智能、区块链、纳米技术、量子计算、生物技术、物联网、3D打印和自动驾驶汽车。

　　• 自然语言处理（NLP）属于计算机科学、人工智能和语言学领域，涉及计算机与人类（自然）语言之间的相互作用。

　　• 随机森林是用于分类、回归和其他任务的集成学习方法，其通过在训练时构建多个决策树并输出作为各个树的类（类别）或均值预测（回归）的众数类来操作。

　　• 模式识别是机器学习的一个分支，侧重于识别数据中的模式和规律，但在某些情况下被认为几乎等同于机器学习。

　　资料来源：维基百科

　　本文所载之资料、推测或意见乃根据或取自相信属可靠的公开来源。本行并不保证其准确性。本文只提供一般性资料，其内容显示本行在刊登日期之见解。任何取得本文件之人士，须遵守所有相关国家之法规，包括取得任何政府部门或其他有关方面之同意，并遵守相关国家之任何其他要求。本文的意见可因应情况修改而不作另行通知。本行对文中所载之推测不会作任何保证或承诺。本行亦不会就阁下使用本文或本文之任何资料、推测或意见而引致阁下的直接或间接损失负责。

免责声明：本信息由第三方提供，不代表农行立场，本行对其所导致的结果不承担责任。