摘要:数据是数字经济时代的生产要素,基于大数据的生产变革和业务模式创新驱动全球范围内经济社会各个领域的数字化、智能化转型。合规合法、有效利用大数据技术开展创新应用,成为金融机构高质量发展的核心竞争指标之一。2019年,大数据整体呈理性合规发展的趋势,大数据产业发展进入一个全新的环境。在国家重视数据资源、部委强化大数据合规发展监管的整体态势下,金融机构对数据资产管理与治理也更加重视,同时积极提升大数据实时计算能力,以数据中台战略提升大数据分析能力,更好地支撑精准营销、信贷风控、交易预警、反欺诈等金融大数据应用。
关键词:数据治理 个人信息保护 金融大数据 实时计算分析 数据中台
2019年是大数据发展值得铭记的重要一年。党中央、国务院持续推进大数据、互联网、人工智能与实体经济深度融合,加大数字经济发展支持力度,明确数据资源在经济制度中的重要地位,可谓大数据发展历程中的又一里程碑。2019年1~12月,贯穿全年的高压监管工作将大数据技术公司从幕后推向台前,从部委的个人信息保护监管举措到地方的数据管理办法,国家关于数据治理的态度逐步明朗化,大数据行业正全面迈向合规合法的发展道路。双重关键因素的叠加,使得大数据在2019年几近重生。
近年来,数字经济成为全球经济增长的关键动力,也成为我国经济发展的新引擎。党中央、国务院高度重视数字经济发展。习近平总书记多次强调要构建以数据为关键要素的数字经济,在创新、协调、绿色、开放、共享的新发展理念指引下,推进数字产业化、产业数字化,引导数字经济和实体经济深度融合。李克强总理指出,要壮大数字经济,坚持包容审慎监管,支持新业态、新模式发展,促进平台经济、共享经济健康成长。2019年,我国数字经济增加值规模达到35.8万亿元,占GDP的比重达到36.2%,对经济增长的贡献率为67.7% ,数字经济成为构建现代化经济体系的重要内容。
为贯彻落实党中央、国务院关于数字经济发展的战略部署,2019年11月国家发展改革委、中央网信办联合印发《国家数字经济创新发展试验区实施方案》,围绕解决数字经济发展关键问题,发挥一些地区在数字经济发展中的示范带动作用,探索数字经济发展和产业转型升级的路径与模式,并启动了浙江省、河北省(雄安新区)、福建省、广东省、重庆市、四川省6个国家数字经济创新发展试验区的建设工作。
数字经济最鲜明的特点是以数据为关键要素,在数据经济蓬勃发展的当下,党中央更是创新性地提出数据也是社会主义基本经济制度的生产要素。党的十九届四中全会提出,要健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。这是党中央首次提出将数据作为生产要素参与收益分配,提升了数据资源的地位,充分体现了我国社会主义基本经济制度的与时俱进,以及党中央对数字经济发展的重视。
随着移动互联网的快速发展,大众出行、社交娱乐、通信购物、教育医疗等日常生活越来越离不开各类手机App。从线下到PC线上,从PC线上到手机线上,个人信息采集获取的渠道更广、难度更低,数据资源也变得维度更丰富、规模更庞大。但与此同时,App用户隐私协议不规范、强制授权、过度索权、超范围收集个人信息的现象大量存在,大数据公司违法违规使用个人信息的问题十分突出。个人信息滥采滥用的一系列问题,影响和制约了我国数字经济的持续健康发展。
2019年伊始,国家就释放出加强数据治理、规范个人信息收集使用的强信号。2019年1月,由中央网信办、工业和信息化部、公安部、国家市场监管总局四部门联合发布《关于开展App违法违规收集使用个人信息专项治理的公告》,打响了2019年数据专项治理的第一枪。2019年12月,四部门又联合印发了《App违法违规收集使用个人信息行为认定方法》,旨在为监督管理部门认定App违法违规收集使用个人信息行为提供参考,为App运营者自查自纠和网民社会监督提供指引。2019年,公安部加大了App违法违规采集个人信息集中整治力度,共查处违法违规采集个人信息的App 683款。 2019年11月,工业和信息化部发布了《关于开展App侵害用户权益专项整治工作的通知》,自查自纠阶段共有8000多款App完成整改,并于2020年1月通报了56款尚未完成整改的App。 此外,中国人民银行重点关注个人金融信息保护,于2019年10月下发了《个人金融信息(数据)保护试行办法(初稿)》,表示将加大对违规采集、使用个人征信信息的惩处力度。
高压监管之下,多家爬虫技术与大数据风控机构接连被查,大数据行业重新洗牌。2019年9月6日,第三方数据风控公司魔蝎数据和新颜科技的相关负责人在同一天被警方带走调查。之后,聚信立、天翼征信、公信宝、同盾科技子公司、51信用卡等诸多公司也相继被查。2019年11月20日,江苏淮安警方依法打击了7家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息1亿多条。上述大数据公司被查与其开展的爬虫业务有关,而这些爬虫业务主要服务于互联网金融机构。作为互联网金融业大数据风控的关键一环,提供数据支撑的这些第三方大数据公司在经历了前几年的辉煌之后,终于迎来了最强监管浪潮。
数据治理之网已经打开,大数据发展和利用进入正规化管理的新阶段。随着战略地位的拔高、监管的深度介入、从业门槛的陡然提升,大数据产业发展进入一个全新的环境,大数据技术与应用也在不断应对新的变化,需要持续创新。
大数据技术体系发展至今,不断得到充实与完善,与互联网、物联网、人工智能等其他信息通信技术融合交汇,现已较为成熟。围绕数据资源的全生命周期过程,大数据基础技术包含大数据采集技术、大数据预处理技术、大数据存储与计算技术、大数据分析技术等。
大数据采集是大数据生命周期的第一个环节。随着各类技术和应用的发展,数据来源多种多样,除了传统的关系型数据库外,还包括众多非结构化数据库,以及互联网、物联网等。数据类型也越来越丰富,包括原有的结构化数据,但更多的是半结构化数据和非结构化数据。按照数据来源不同,大数据采集技术和方法也存在较大差异,下面按照数据库数据采集、网络数据采集、物联网数据采集分类说明。
数据库数据采集因数据库类型不同以及其中存储的数据类型是结构化还是非结构化而有所不同。
针对传统关系型数据库,数据采集一般采用ETL(数据抽取、转换和加载)工具、SQL编码、ETL工具与SQL编码相结合三种方式。ETL工具经过多年的发展,已经形成了相对成熟的产品体系,尤其是针对传统关系型数据库,典型代表包括Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica的PowerCenter等。借助ETL工具可以实现数据库数据的快速采集及预处理,屏蔽复杂的编码任务,也可提高速度、降低难度,但是缺乏灵活性。通过SQL编码方式实现数据库数据采集,相较于使用ETL工具更加灵活,可以提高数据采集及预处理的效率,但是编码复杂,对技术的要求比较高。ETL工具与SQL编码相结合可以综合前两种方式的优点,极大地提高数据采集及预处理的速度和效率。
针对非结构化数据库采集以及不同类型数据库之间的数据传递,目前用得比较多的是一些开源项目提供的ETL工具,典型代表包括Sqoop、Kettle和Talend等,专为大数据而设计,可兼顾离线和实时数据采集,实现主流非结构化数据库(如HDFS、HBase及其他主流NoSQL数据库)与传统关系型数据库(如MySQL、Oracle、PostgreSQL等)之间的数据双向传递。
相对来说,数据库数据的价值密度较大,主要通过日志文件、系统接口函数等方式采集,采集技术规范,可用工具较多,面向不同类型数据库的统一采集技术将成为未来的重要发展趋势。
网络数据采集根据采集的数据类型不同可以分为互联网内容数据采集和网络日志采集两类。
互联网内容数据采集主要是利用网络爬虫技术和网站公开的应用编程接口(Application Programming Interface,API)等方式,辅以分词系统、任务与索引系统的综合运用实现从网站上获取内容数据的过程。这种方式可将互联网上的半结构化数据、非结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件,支持图片、音频、视频等文件或附件的采集以及自动关联。网络爬虫是一种按照一定规则,自动抓取互联网内容的程序或者脚本。网络爬虫技术最早主要运用在搜索引擎中,互联网搜索引擎与网页持有者之间通过Robots协议约定哪些信息可以被爬取、哪些信息不该被爬取。
网络日志采集目前用得比较多的是开源日志采集系统,典型代表包括Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera贡献给Apache的一个开源日志采集系统项目,具有高可用性、高可靠性和分布式的特点,可以实现海量日志的实时动态采集、聚合和传输。Scribe是Facebook的开源日志采集系统项目,具有可扩展性和高容错的特点,可以实现日志的分布式采集和统一处理。Logstash部署使用相对简单,更加注重日志数据的预处理,可以为后续日志解析做好铺垫。Fluentd的部署与Flume比较相似,扩展性非常好,应用也相当广泛。
随着大数据时代的到来,一些大数据公司不再受Robots协议的约束,利用网络爬虫技术爬取一切可爬取的内容,包括电商、外卖、地图、共享单车等各类平台的用户个人信息,以及用户的通信录、上网地址、收货地址、聊天记录、搜索记录、支付记录等信息。大数据公司利用爬取到的用户个人信息进行精准用户画像,开展精准营销和广告推送,产生了良好效益。但也有一些大数据公司通过直接销售用户个人信息以获利,造成了巨大的不良影响。上述违法违规行为的大量存在终于在2019年迎来了行业监管的重锤,多部门联合开展违法违规采集个人信息集中整治,逐步推进网络爬虫技术的合规使用和大数据采集的规范发展。
无论是消费物联网、产业物联网,还是智慧城市物联网,都可能涉及RFID电子标签、定位装置、红外感应装置、激光雷达以及多种传感器等装置,可以说物联网终端设备的作用就是采集物联网数据,可能涉及对声音、光照、热度、电流、压力、位置、生物特征等各类数据的采集。物联网数据涉及范围广,数据相对分散,数据类型差异巨大,数据采集方法和采集手段也存在较大差异。
金融行业大数据应用对物联网数据利用较少,主要还是借助外部网络数据与内部数据库系统数据融合实现众多金融大数据应用创新。例如,金融机构通过采集互联网用户的微博内容数据、社交媒体数据、电商交易数据等对用户的信用等级进行综合评估;证券分析机构通过采集新闻、股票论坛信息、上市公司公告、行业研究报告、股票交易数据、市场行情数据等,构建分析模型,分析挖掘各类事件对股市以及某只股票价格走向的影响;监管机构通过采集社交媒体数据、网络新闻数据、网络舆情数据等,与监管机构自有数据库数据进行对比分析,可发现潜在风险,向投资者发布风险提示,并采取适当监管措施以维持金融市场稳定。随着个人信息保护力度的逐步加大和大数据监管体系的日益完善,金融相关大数据的采集也将逐步走上合规化道路。
大数据分析与挖掘所需的数据往往是通过多个渠道采集的多种类型的数据,通过上述大数据采集技术采集到的数据往往存在数据冗余、数据缺值、数据冲突等数据质量问题,需要通过大数据预处理技术提高数据质量,使数据更符合分析挖掘需要,以保证大数据分析的正确性和有效性,获得高质量的分析挖掘结果。大数据预处理技术可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及一致性检查等操作,将杂乱无章的原始数据转化为相对单一且便于处理的结构类型,为后期的大数据分析挖掘奠定基础。大数据预处理主要包括数据清理、数据集成、数据变换以及数据归约四大部分。
数据清理主要是通过检测数据中存在的冗余、错误、不一致等问题,利用各种清洗技术去除噪声数据,形成一致性数据集合,包括清除重复数据、填充缺失数据、消除噪声数据等。清除重复数据一般采用相似度计算等统计分析方法。针对缺失数据的处理方式有两种:一种是忽略不完整数据,即清除缺失数据;另一种是通过统计学方法、分类或聚类方法填充缺失数据,以确保数据可用。在实际应用中,数据采集过程中还会由于多种原因产生大量的噪声数据(在合理的数据域之外),如果不加以处理,会造成后续分析挖掘结果不准确、不可靠。常用的消除噪声数据的方法包括分箱、聚类、回归等统计学方法和数学方法。
主要的数据清洗工具包括前文所述的Sqoop、Kettle、Talend以及Apache Camel、Apache Kafka、Apatar、Heka、Scriptella等开源ETL工具。此外,Potter’s Wheel应用也较多,此款数据清理工具交互性强,还集成了偏差检测和数据变换功能。
数据集成是指将来源于多个数据源的异构数据合并,存放到一个一致的数据库中。这一过程主要涉及模式匹配、数据冗余、数据值冲突的检测与处理,主要工具仍是上文提到的开源ETL工具。模式匹配主要用于发现并映射两个或多个异构数据源之间的属性对应关系,朴素贝叶斯、Stacking等机器学习算法在模式匹配中应用较为广泛。数据冗余可能源于数据属性命名的不一致,可以利用皮尔逊积矩相关系数(Pearson Product-moment Correlation Coefficient)来衡量数据属性命名的一致性,其绝对值越大表明两者之间的相关性越强。数据值冲突主要表现为来源不同的同一实体具有不同的数据值,针对数据值冲突问题有时需要辅以人工确定规则加以处理。
数据变换就是处理采集上来的数据中存在的不一致的过程,既包括数据名称、颗粒度、规则、数据格式、计量单位等的变换,也包括对新增数据字段进行组合、分割等变换。数据变换实际上也包含了数据清洗的相关工作,需要根据业务规则对不一致数据进行清洗,以保证后续分析结果的准确性。数据变换的主要目的在于将数据转换成适合分析挖掘的形式,选用何种数据变换方法取决于大数据分析和挖掘算法。常用的数据变换方法包括:函数变换,使用数学函数对每个属性值进行映射;对数据进行规范化,按比例缩放数据的属性值,使其尽量落入较小的特定区间。规范化既有助于各种分类、聚类算法的实施,又避免了对度量单位的过度依赖,同时还可规避权重不平衡问题。
数据归约是指在尽可能保持数据原貌的前提下,寻找最有用特征以缩小数据规模,最大限度地精减数据,其涉及的技术和方法主要包括高维数据降维处理方法(维归约)、实例归约、离散化技术,以及不平衡学习等机器学习算法。数据归约技术可以用来得到数据集的归约表示,使得数据集变小,但同时仍然近于保持原数据的完整性,可以在保证分析挖掘准确性的前提下提高分析挖掘的效率。目前基于海量数据的数据归约技术已经成为大数据预处理的重要问题之一。
大数据存储与计算技术是整个大数据系统的基础。2004年,谷歌公司率先提出一套分布式数据存储与计算的技术体系,即分布式文件系统谷歌文件系统GFS、分布式计算系统MapReduce和分布式数据库BigTable,以较低的成本很好地解决了大数据面临的困境,奠定了大数据技术的基础。受谷歌公司论文启发,Apache Hadoop实现了自己的分布式文件系统HDFS、分布式计算系统MapReduce和分布式数据库HBase,并将其开源,这是大数据技术开源生态体系的起点。随着大数据技术的不断发展与应用,大数据存储与计算技术呈现以下新特征。
大数据存储与计算技术已形成了以开源为主导、多种技术架构并存的技术生态体系。Apache Hadoop最初定义了基础的分布式批处理架构,打破了传统数据库一体化的模式,将计算与存储分离,解决了海量数据的低成本存储与规模化计算问题。近年来,随着大数据分析时效性的需求愈加突出,Apache Flink、Spark Structured Streaming、Kafka Streams等流计算基础框架技术备受关注,为满足流处理场景需求打下了基础。其中,最热门的Apache Flink使用了流处理的思想来实现批处理,是能够同时支持流处理和批处理的计算引擎,包括阿里巴巴、腾讯、百度、字节跳动、Uber、Lyft、Netflix等在内的国内外公司都是Apache Flink的使用者。除了开源的存储与计算框架之外,还有一些成熟的闭源产品,如亚马逊的Redshift、阿里巴巴的MaxCompute等。
随着金融领域数据量和分析应用数量的快速增长,传统的数据仓库平台并发能力差、扩展能力受限等问题凸显,技术架构逐渐向分布式架构迁移,除了大型央企外,监管机构、股份制银行、农商行等金融机构也都开始使用分布式架构构建大数据平台。
在公有云方面,各大云厂商纷纷构建各类大数据产品以满足用户需求,众多大数据技术被搬到了云上,计算和存储资源的使用更加弹性,其运维方式和运行环境也发生了较大变化。云厂商提供的多种类型的云产品方便用户选择合适的方案云化迁移,如阿里云将其自身的大数据计算服务开放MaxCompute,提供PB级数据仓库解决方案,同时还推出E-MapReduce(EMR)——构建在阿里云云服务器ECS上的开源Hadoop、Spark、HBase、Hive、Flink生态大数据PaaS产品。
在私有云方面,私有部署的大数据技术也逐渐采用容器、虚拟化等技术,更加精细化地利用存储与计算资源。
大数据存储与计算解决方案向云化演进,可以更加专注于数据和业务逻辑,不必操心如何维护底层的硬件、网络以及存储与计算框架,在很大程度上降低了大数据技术的学习成本和使用门槛。值得一提的是,早期的大数据存储与计算云化产品大部分是对已有本地产品的云化改造,而现在越来越多的产品从设计之初就遵循了云原生的概念,生于云长于云,更适合云上生态。
随着大数据应用的逐步深入,应用场景越来越丰富,大数据存储与计算平台开始承载人工智能、物联网、视频转码、高性能计算等多样性的任务,以CPU为底层硬件的传统大数据技术性能瓶颈凸显,已经无法有效满足新业务需求。以CPU为调度核心,协同GPU、FPGA、ASIC及各类用于AI加速“xPU”的异构算力平台成为行业热点解决方案,以GPU为代表的计算加速单元能够极大地提升新业务计算效率。
英特尔、英伟达、AMD等多家厂商都在提供异构计算的产品,并提出不同的应用技术方案。由AMD、高通、ARM、三星、联发科、Imagination等公司发起的全球异构系统架构联盟(HSA联盟),是异构计算领域最大的国际化标准和产业组织,强调生态共建、资源共享。该联盟成员包括中国电子技术标准化研究院、华夏芯、华为、CEVA等全球80多家芯片公司、高校及科研院所。
此外,产业界也在尝试从统一软件开发平台和开发工具层面实现底层不同硬件体系的融合,如英特尔在2019年超级计算大会上发布了全新软件行业计划oneAPI及其开发者测试版本,旨在完善统一软件平台搭建,并以生态系统培养为主推动产业的进步。oneAPI支持跨CPU、GPU、FPGA和其他加速器等多架构开发的编程模型,提供一套统一的编程语言和开发工具集实现对多样性算力的调用,从根本上简化开发模式,针对异构计算形成一套全新的开放标准。截至2019年11月,支持oneAPI的企业和研究机构已经超过30家 ,包括高性能计算领域的领导者、人工智能领域的创新者、硬件厂商、独立软件开发商、云服务商、高校等。
大数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数据价值挖掘的关键。数据分析主要有两条技术路线:一是凭借先验知识,由人工建立数学模型来分析数据;二是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。传统数据挖掘对象大多是结构化、单一对象的小数据集,挖掘侧重于根据先验知识预先由人工建立模型,然后依据既定模型进行分析。对非结构化、多源异构大数据集的分析往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。近年来,大数据分析技术呈现以下新特征。
用智能化的手段来分析数据是释放数据价值的高阶之路,当前出现了TensorFlow、Caffe、CNTK、Torch等独立的机器学习平台,但用户往往不希望在大数据平台和机器学习平台之间不断地搬运数据,因此两个平台深度整合是大势所趋,大数据平台除了支持机器学习基础算法之外,还将通过与AI平台融合以支持更多的AI类应用。例如,以Spark为代表的计算平台开始积极探索如何支持深度学习能力,TensorFlowOnSpark等解决方案实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。Spark的商业化公司Databricks在解决方案中还提供“一站式”的分析平台Data Science Workspace,Cloudera也推出了相应的分析平台Cloudera Data Science Workbench。
随着大数据的工具和技术栈逐步成熟,以阿里巴巴、腾讯、京东等为代表的互联网头部企业从集团层面推动以搭建中台为目标的组织架构变革,围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过“数据中台”这一概念来统一数据资产的视图和标准,提供通用数据的加工、管理和分析能力。此外,数据领域的一批创业公司也纷纷提出中台战略,越来越多的企业开始关注中台。
数据中台是一个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂,用以连接下层的数据和上层的数据应用团队,从而形成敏捷的数据驱动精细化运营模式,为数据分析提供“一站式”支持。数据中台打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。数据中台能够有针对性地解决三个问题:提高数据获取的效率、打通数据共享的通道、提供统一的数据开发能力。
数据可视化技术的基本思想是将数据库中每一个数据项作为单个基本图形元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析,为人们提供一个直觉的、交互的和反应灵敏的可视化环境。
通过可视化图像对数据进行分析,可迅速掌握不同数据之间的关系,使数据显示更加直观。首先,通过丰富的可视化功能,帮助用户从不同角度分析数据、缩小答案的范围、展示数据的不同影响。除了饼状图、柱形图、热图、地理信息图等数据展现方式,还可以通过图像的颜色、亮度、大小、形状、运动趋势等多种方式在一系列图形中对数据进行分析。其次,通过不断改善分析的功能和可操作性,让前端布局自定义搭配,让业务人员随心所欲地布置,为不同用户提供个性化的分析体验。此外,将每一项数据在不同维度指标下交互联动,展示数据在不同维度的走势、比例、关系,发现数据背后的知识与规律,并支持数据的上钻下探、多维并行分析,利用数据推动决策。
大数据与金融领域的融合,是一个彼此成就、实现更大价值的过程。从数据资源的角度看,经过多年积淀,金融领域庞大的系统内积累了大量高价值的数据,拥有用于数据分析的基础资源,金融领域是大数据技术应用落地最早也是最成熟的领域之一。从金融业发展的内在需求看,当前整个金融业的运作模式正在重构,行业竞争日益激烈,依托大数据开展精细化运营、创新金融产品的需求日益迫切,大数据是应用最早、效果最显著的金融科技之一。
2019年,在国家重视数据资源、部委强化大数据合规发展监管的整体态势下,金融机构对数据资产管理与治理也更加重视,加大了在数据治理项目中的投入,高效地管控数据资产,从而提升自身的核心竞争力。同时,积极提升大数据实时计算能力,以数据中台战略提升大数据分析能力,更好地支撑精准营销、信贷风控、交易预警、反欺诈等金融大数据应用。
2019年,银行业在数据管理与治理方面开展了积极且有成效的探索。
银行业是典型的数据驱动行业,具备数字化转型的先天优势。大数据在银行业细分领域有很多成功的应用案例,但在向数字化快速转型的同时,银行业仍存在需要突破的瓶颈:数据分布零散化,缺乏全口径和全生命周期性的管理;数据标准度不高,取数规则各异;数据挖掘与数据应用力度不足,与外部数据隔离;数据治理人才储备不足,未建立专门针对数据治理的专业队伍以及与之匹配的激励机制。相关数据显示,目前超过85%的中小银行将数据治理纳入公司治理范畴 ,但是中小银行数据治理处于萌芽期,亟须提高数据的管理与治理能力,强化数据资产理念,构建数字化经营能力,这样才有可能盘活数据所具有的巨大的潜在价值。
近年来,金融主管部门也逐渐加大对银行业金融机构数据治理工作的引导力度。2018年5月,中国银保监会发布了《银行业金融机构数据治理指引》,首次将数据治理提升到银行常规管理的战略高度,明确要求银行将数据治理工作常态化、持久化。2019年10月,中国人民银行向部分银行下发了《个人金融信息(数据)保护试行办法(初稿)》,广泛征求意见。
在政府的引导下,国内银行业金融机构加快数据管理与治理的探索应用节奏。
一是建立数据治理架构。建立组织架构健全、职责边界清晰的数据治理架构,明确董事会、高级管理层、监事会和相关部门的职责分工,建立多层次、相互衔接的运行机制。例如,中国银行建立了集团数据治理架构体系,制定并发布了数据治理框架政策、管理指引和操作流程,为全行数据管理和应用提供了重要组织保障。华夏银行针对外部数据资源的引入,成立了专业的外部数据引入委员会,整合需求、集约采购,实现了外部数据引入的共享与价值提升。
二是健全数据治理体系。围绕数据的全生命周期管理,从数据质量、数据流转、数据权属等方面入手,确立详细的数据标准,建立一套完整的、动态调整的数据治理体系,保证数据的统一性、完整性、真实性和可用性。例如,中国工商银行建立了统一的企业级数据标准,能够覆盖当事人、产品、协议、账户、介质等十大标准主题,为大数据体系下的数据共享奠定了基础。同时,建立了国内金融行业首个全行级信息标准管理服务平台,实现了数据标准的建立、变更、发布、查询、废止等全生命周期管理。
三是形成企业级数据治理解决方案。已有金融科技服务商开始输出银行数据治理解决方案,面向中小银行提供全面服务。解决方案包括:“一行一策”,建立全行数据标准规范;开展元数据管理,梳理数据资产和数据关系;开展数据质量监控,全方位提升数据质量;制定数据安全管理策略,保障数据资源安全。企业级数据治理解决方案全面提升了银行业数据管理的效率。
中国平安旗下深圳壹账通智能科技有限公司于2019年8月推出加马数据治理解决方案。
该方案基于大数据平台,打造六个模块,构建了全流程的数据治理方案。模块一,开展数据标准检索,帮助银行制定一整套适合自身的数据标准规范,包含基础类数据标准、分析类数据标准两大类型,利用自然语言技术及知识图谱技术帮助工作人员快速定位到相关的数据标准;模块二,开展元数据管理,通过数据地图等功能梳理出数据和数据之间的关系,可视化展示数据资产视图,同时自动化分析数据流向及上下游血缘关系;模块三,开展数据质量监控,提供变动异常扫描、标准质量监控等工具,一键生成质量分析报告,帮助银行实现智能数据质量监控;模块四,开展数据安全管理,通过智能扫描识别敏感数据一键配置脱敏的方式解决大数据平台上的海量数据识别脱敏问题,有效降低大数据平台操作及数据泄露风险;模块五,开展治理监控分析,运用自然语言技术、维度自助下钻技术等,自动了解用户分析意图,呈现数据治理相关监控结果,方便进行自助探索分析;模块六,开展智能数据报送,通过图形化工具实现零代码开发接入外部数据,智能检测外部数据质量,提示风险预警。
该解决方案将无序数据关联化、隐性数据显性化、静态数据动态化,部署时间比传统的产品缩短1~2个月。经过3个月在银行真实数据治理环境中的落地检验后,该解决方案已被证明能够降本增效,并与多家中小银行达成合作意向。
联通大数据有限公司于2019年为某省级农商银行推出数据聚合管控平台解决方案。
该方案由“4平台+1体系”组成,采用混合云大数据访问服务模式,满足先进性、易用性、安全性、可靠性、可扩展性等元组建设开发设计要求。“4平台”是指数据接入管理平台、数据服务发布平台、数据服务管理平台、数据服务计费平台,“1体系”是指一套数据安全管控体系。该方案实现了外部合作数据资源的统一接入、集中管控和安全灵活服务,有效进行了外部数据资源的集约化管理、规范化应用。项目团队基于搭建的银行数据聚合管控平台,接入联通大数据数盾风控产品等多项成熟应用以及银行外部数据资源池,封装后以可视化系统实现友好交互。
该方案推出后全面支撑某省级农商银行及其二级单位共56套业务系统,在保障外部数据质量和数据管控能力的基础上,大大提升了银行管理和运营效率,有效支撑了各部门的横向协作,促进了数据与业务流程的整合。
实时计算分析能力,正不断成为衡量金融大数据应用性能高低的核心指标。目前,信贷风控、精准营销、交易预警和反欺诈等金融机构最常见的大数据应用都需要实时计算的强有力支撑。
以信贷风控为例,近年来随着金融监管力度的不断加大,风控规则越来越多,风控计算复杂度越来越高,对实时计算分析能力的要求也随之提高。信贷风控需要实时分析海量的用户行为数据,根据既定的规则计算出相应的指标,并与风险模型进行匹配,第一时间判断风险等级、发现异常事件,并采取相应的风险控制措施,发出自动告警通知,改变业务流程。在金融交易场景中,风控系统如果不能实时观察每一个账户的行为动态,就可能因为1秒的延迟遗漏风险,造成重大损失。
以精准营销和交易预警为例,精准营销要求在客户短暂的访问与咨询时间内发现客户的投资倾向,为其推荐适合的产品。交易预警场景要求大数据解决方案在秒级完成从事件发生到感知变化,再到输出计算结果的整个过程,识别客户行为的异常,并做出交易预警。
2019年,实时计算大数据解决方案得到更广泛的应用,满足了低延时复杂应用场景的需求。从性能来看,实时计算大数据解决方案能够实时处理海量数据,打破传统数据库信息范围限制,为模型的精准计算提供强有力的数据支持;能够有效消除传统数据库对硬件资源的依赖,实现软硬件的松耦合、存储与计算等资源的在线灵活扩展;能够实现从采集到模型的全流程秒级实时响应,抵御超大规模行情的冲击。
上海金仕达软件科技有限公司于2019年10月上线大数据异常交易智能管理系统。
该系统以分布式流式计算引擎为核心,抽取海量数据构建监控模型,使用机器学习训练模型,通过实时计算管理平台,监控分析客户全业务交易行为,一网打尽事中、事后的异常交易行为,在证券公司内部形成合规宣导长效机制。该系统部署灵活、周期短,可在不影响系统使用的前提下,与异常交易监控系统V8版本无缝衔接,在模型精准性、监控结果有效性及可视化展现方面取得了较大突破。
目前,金仕达大数据异常交易智能管理系统已在招商证券等多家证券公司顺利上线并稳定运行,获得了客户的积极反馈。该系统已实现高度精准的监控结果预警,在500万客户规模的券商中每天预警数在5条以内。系统在某券商再次取得监控结果精准度的数量级提升,实现了预警内容对函件范围的100%覆盖,彻底突破了大量无效预警结果造成的工作量瓶颈,在真正意义上实现了工作效率的大幅提升。
2019年,数据中台的概念从互联网行业一路火到了金融领域。数据中台为金融领域数据体系注入了新活力,正成为金融领域实现共享服务、支撑业务创新的有效举措,也是未来的发展趋势。构建数据中台服务体系,对金融企业与金融科技企业都大有裨益。
对于金融企业来说,数据中台是链接前台业务系统和后台数据系统之间数据和能力的一条快速通道。数据中台将前台中的共性需求进行抽象,打造为平台化、组件化的技术能力,归并下沉到中台层,以接口、组件等形式共享给各前台业务单元使用,以“小前台”提供灵活多变的业务。同时,数据中台将后台中的共用技术能力归并上浮到中台层,独立强化发展,实现对前端多业务服务线的灵活赋能。数据中台为前台的业务团队、客户经理、财富顾问与后台的数据专家、算法模型专家、人工智能专家架起了一座强有力的支撑桥梁,基于这种模式,业务团队专注于产品的具体逻辑与业务管理流程,数据专家则专注于加速从数据到价值的过程,提高对业务的响应能力。
对于金融科技企业来说,数据中台是开发标准化产品的重要契机。金融科技企业一般以提供定制化解决方案为主,根据金融企业的实际业务需求,有针对性地开展合作。基于数据中台的模式,金融科技企业开始尝试输出包含标准化平台与个性化功能模块在内的成熟产品,既可有效降低企业的边际开发成本,提高企业利润,又能提升产品性能。
民生银行于2019年公开了数据中台体系建设与实践过程。
民生银行结合自身技术积累与业务经营需求,对数据中台建设从技术平台和数据交付两个层面制定目标。技术平台方面,民生银行建立了由4大功能体系、12个子系统构成的金融数据中台体系,数据中台核心运转模式由Engine引擎体系、Service服务体系、Open路由体系、Plus管理体系核心组件协同运转完成。数据交付方面,民生银行提出了一套“场景分区+技术分级”的数据中台场景服务管理方案,形成了由11项业务场景、4级服务组成的数据服务管理矩阵,其中4级服务包括对客服务类、客户经理类、内部管理类、监控查控类。通过技术平台的技术分区和数据内容的服务分级建设思路,数据中台在为各业务场景快速提供在线数据价值输出的同时,也能够做到数据使用的管控和跟踪。
目前,民生银行数据中台体系取得了较好的成效。支撑小微3.0新模式探索,全技术架构实现了中台化,实现了多项业务领域创新性应用的落地。助力互联网金融数字化运营,打通了管理驾驶舱和线上服务平台的数据链路,已完成首家分行试点,试点行在2019年第一季度实现理财资产增加20余亿元,代发目标客群资金留存率提升3.41个百分点,累计带来行外资产40余亿元。
参考文献
陈晨:《一篇文章让你了解大数据采集技术》,CSDN网站,2018年11月1日,https://blog.csdn.net/cqacrh2798/article/details/83617134。
陈纯:《流式大数据实时处理技术、平台及应用》,《大数据》2017年第4期。
陈永坚:《大数据技术与金融行业的深度融合研究》,《中国商论》2020年第4期。
丁晓平:《大数据时代商业银行数据治理》,《中国银行业》2019年第11期。
杜小勇、陈跃国、范举、卢卫:《数据整理——大数据治理的关键技术》,《大数据》2019年第3期。
高尚:《从金融科技创新到金融模式变革——流式计算在信用卡实时大数据应用领域的研究》,《国际金融》2018年第6期。
何鹏、周礼、罗京:《民生银行数据中台体系建设实践》,《金融电子化》2019年第7期。
孔钦、叶长青、孙赟:《大数据下数据预处理方法研究》,《计算机技术与发展》2018年第5期。
潘光伟:《提升数据治理能力 构筑共治共享行业新生态》,《中国银行业》2019年第12期。
《企业数字化转型的加速引擎——2019年中国数字中台行业研究报告》,艾瑞咨询系列研究报告,2019年11月。
孙冰:《数据隐私保卫战 爬虫背后的灰色大生意》,《中国经济周刊》2019年第20期。
谢玮、宋杰:《“爬虫”怎么成了“害虫”?》,《中国经济周刊》2019年第20期。
《一文梳理大数据四大方面十五大关键技术》,CDA数据分析师网站,2016年11月30日,http://cda.pinggu.org/view/20910.html。
中国信息通信研究院:《大数据白皮书(2019年)》,2019年12月。
中国信息通信研究院:《中国金融科技生态白皮书(2019年)》,2019年7月。