大数据审计技术主要包括数据分析与挖掘和数据可视化。
数据分析是比较大的概念,因为它的流程是由很多个部分组成的,包含了数据获取、数据清洗、数据处理、数据分析、数据可视化等。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。数据挖掘和数据分析都是从数据中提取一些有价值的信息。
数据可视化就是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。我们通过“可视化”的方式,将复杂的数据通过图形化的手段进行有效表达,能准确高效、简洁全面地传递信息,帮助我们发现某些规律和特征,挖掘数据背后的价值。数据可视化的基本思想是将数据库中的每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,使人们可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
数据可视化技术可以更简洁地表达大数据环境下海量的被审计数据信息,审计人员通过数据可视化技术,能够洞察被审计数据信息中内在因素的模式和关联,快速从大数据中发现问题。
目前,大数据数据审计常用工具包括:
(1)数据采集:Apache Flume,Fluentd,Scribe,Splunk Forwarder,Logstash,Chukwa;专业数据采集工具、专用数据接口、API商城。
(2)数据存储与预处理。关系型数据库:如SQL Server数据库、MySQL数据库、Oracle数据库、DB2 数据库;非关系型数据库:NoSQL数据库,如MongoDB数据库,Neo4j图形数据库;分布式存储及海量计算:Hadoop;复杂的实时计算:Storm;ETL工具等。
(3)数据分析与挖掘及可视化、自动化处理。开源编程:Python:NumPy、Pandas、PYEcharts、Matplotlib;R语言;D3.js;Chart.js;封装软件:数据分析与可视化:用友分析云、腾讯云图、百度Sugar BI(Echarts)、阿里Quick BI、微软PowerBI、Tableau;数据处理与自动化:智多星RPA、UiPath、UiBot。
其中,大数据审计常用工具主要有SQL、Python、RPA。