| 数字化时代 | 打破数据壁垒 赋能专业服务 — 信永中和数字服务之数据分析服务

打破数据壁垒 赋能专业服务 — 信永中和数字服务之数据分析服务

2019年09月27日

       现今企业信息化快速发展和广泛应用,数字化渗透到企业生产运营的各个方面,显著提升了企业产生和收集数据的能力。这是新一轮的科技革命和产业变革,我们的企业客户正大力推动信息化、数字化建设,而作为传统的会计师事务能否持续不断地向客户提供增值服务,紧跟时代的步伐,取决于事务所是否可以快速适应企业日益增长的庞大数据,利用新工具、新方法,增加服务的广度和深度,提高工作效率、缩短项目时间,进而为企业管理提供快速、全方位的支持、分析与指导。
       得益于企业信息化的提升,其生产运营中的各项业务、财务数据可以结构化、规则化的存储在企业数据库中。相较纸质单据、电子表格记录,结构化、半结构化、非结构化的数据为数据分析、人工智能、机器学习和图像识别的应用打开了大门。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
       信永中和员工中包括大量高水平的技术专家,广泛服务于审计、管理咨询、会计税务服务和工程造价等众多领域,其所欠缺的只是对大数据的处理能力。通过对数据的深入分析,可以将企业有价值的、深层次的信息展现给专业服务团队,实现信息化、智能化的数据分析同专家经验的全面融合,让专业团队从大量数据中提炼规律和商业见解,创造更大的价值。
       信永中和的数字服务,依托大数据开发平台,为不同行业的企业客户提供数字化和信息化服务,秉承有所想即有所得的理念,赋能专业团队,帮助事务所团队提升工作效率,拓展工作范围。现通过以下几个落地场景,简单介绍信永中和数字服务:

一.财务数据和资金管理的数据分析
  场景描述:
       为全面审视某公司资金管理状况,核实公司资金管理的舞弊问题和风险,需要对会计日记账的进行核对。如果采用传统的抽样方法,选取日记账中的大额交易及非常规交易,只能实现点对点的对账,容易遗漏真正的风险数据。理想的工作方法是将该公司的银行流水账目和会计日记账数据一一核实,验证是否存在不实账目。
  场景难点:
1. 会计日记账存在记账日期滞后于银行流水交易日期的情况,难以使用简单的函数和公式完成数据匹配。
2. 公司资金交易频繁,收支笔数多、银行账号多,人工匹配工作量过大。
3. 对于大量的财务数据,缺乏有效地数据挖掘手段。
  解决方案:
1. 财务数据的匹配性分析
信永中和数据分析服务研发的财务对账工具,通过多种判断规则,将银行流水数据和日记账数据准确高效的匹配在一起。工作人员只需将原始数据表进行简单加工,并上传到对账工具中,即可得到【银行流水和日记账匹配数据表】、【未匹配银行流水数据表】、【未匹配日记账数据表】三个文件。对于该公司1.5万条流水和日记账测试数据,对账工具不足10s即完成全部数据的处理。


图: 信永中和对账工具使用界面

2. 财务数据的异常分析
       我们注意到部分会计账目的登记日期要远远滞后于银行流水交易日期,将数据按照两者间隔日期分组,12,937笔数据中有188笔的会计账目日期晚于银行交易日2个月以上,其中更是4笔滞后5个月,违背正常的记账行为。


图: 银行流水和会计账目日期差异(月)

3. 基于财务数据的风险侦防分析
       我们根据公司业务场景假定存在资金挪用的风险,并将同时具有借、贷双向交易的外方账户信息从全部数据中筛选出来。通过审阅交易方的公司属性以及日记账数据匹配的摘要信息,可以有效判断往来资金的合理性。

表: 往来资金账目明细

       通过对日记账和银行流水的全量匹配,我们可以识别企业财务风险,验证财务账目的准确性。此外,展开的数据合理性分析,可以深层次的识别账目异常数据,发现财务舞弊行为。
       总结:围绕企业财务系统和财务报表的数据分析,协助审计师及企业管理者把握不同经济下公司财务管控的重点、整合提炼财务数据中可挖掘的价值、识别财务风险,全面提高决策质量。

二.互联网广告公司应用场景分析
  场景描述:
       某个互联网广告公司业务形式为根据广告主的需求寻找合适的渠道商,帮助广告主投放广告到合适的渠道,按照CPA(Cost Per Action)计费,赚取广告主和渠道商的差价获利。在数字广告行业,行业的不透明催生大量机器或人为产生的虚假流量,广告主获取虚假的营销数据,供应商获取不当利润。如何验证收入、支出以及日志数据的一致性是该场景分析的主要方向。此外,如何验证大量日志数据的真实性,也是我们需要解决的问题。
       该广告公司提供的数据分为两类,一类是用于同广告主和渠道商费用结算的汇总数据,其中广告主汇总数据是以日期、广告名称分组汇总(7个月约1.7万条数据),渠道商汇总数据是以日期、广告名称、渠道名称分组汇总(7个月约3.1万条数据);另一类是记录用户转化量信息的底层日志数据,选取13家主要广告订单1个月的日志数据,包括用户ID、广告订单号、转化时间、IP地址等7个字段,约1,095万条数据。
  场景难点:
1. 广告主和渠道商的汇总数据数量众多,但字段相对简单,难以找到数据的价值点。
2. 日志数据量相对巨大,难以使用常规技术手段完成解读。
3. 日志数据验证汇总数据的统计准确性外,数据相关字段信息未有效使用。
  解决方案:
1. 广告主与渠道商转换化率差异比对
       我们首先验证广告主汇总数据和渠道商汇总数据的一致性,根据订单名称和日期,对两个数据源的转化量再次汇总计算。
1) 对全部订单的转化量比对校验
       我们将7个月4.7万条汇总数据,按照136个广告主聚合,计算得出广告主和渠道商汇总量的差异。通过此种方法,我们可以快速而全面的对收、支结算数据进行校验。
       在检查中我们发现,某订单广告主的转化数高于渠道商转化数6,399个。通过查看其汇总数据的明细,我们发现5月3日至5月12日,每日均相差609个,据此可以认定这部分数据,存在人为操纵的风险。

 
表: 广告主和渠道商汇总数据差值
    
                       图: 某广告汇总数据日偏差                                      图: 某广告汇总数据日合计

2) 汇总数据和日志数据校验
       为了验证汇总数据和日志数据的一致性,我们对样本日志数据按照订单和日期汇总,结果发现这部分日志数据的转化量和渠道商汇总数据的转化量是匹配一致的。
       我们对渠道商汇总数据的转化量检查中发现,某广告订单日激活数量异常,8月1日至10日的日激活量均为9,390个,实际的点击数量则每日均有波动,即每日点击量大幅变化,转化数量一定,汇总数据已存在严重失真风险。而如前述说,该订单的日志数据和汇总数据是完全匹配的,此种数据异常情况,让我们已经不能认为全部1,095余万条底层日志数据是真实可信性的。

图: 某广告订单日点击数和转化数

2. 日志数据真实性校验
       由于日志数据存在造假风险,我们根据日志数据的字段信息展开了进一步分析。
1) 时间趋势行为校验
       对于底层日志数据的真实性校验,我们首先将日志数据的用户激活时间按照一天24小时进行切割,查看每个小时的激活量。经过大数据比对发现,选取的日志数据在广告投放期间24小时内基本是均匀分布的,波峰和波谷的波动不足0.6%,说明每个小时用户注册数量是完全均与分布的,此种情况完全背离人的正常行为习惯。


图: 转化量按24小时时间节点分布图

       查看日志数据前10家渠道商(占日志数据87.8%)的小时转化量分布图,均呈现此种小时转化量平均分布的情况,说明此类问题在该广告公司普遍存在。
2) IP地址合理性校验
       为拓展日志信息,我们使用IP地址库与日志数据的IP地址匹配,根据已有的IP地址,添加对应的运营商和IP地理位置信息。可以看出日志数据中,电信运营商占比明显偏高,占到总量的53.03%。按照IP地理位置分布,广告受众主要集中于江苏、浙江、广东、山东、辽宁等省份,其中转化量前两名的江苏和浙江省的电信IP占比达到70%以上,存在数据造假的风险。

 
                图: 广告受众电信运营商占比                                    图: 广告受众省份占比


 图: 各省份广告受众所属运营商数量统计

       此案例中,我们通过大数据技术,分别将海量的广告主汇总数据、渠道汇总数据和日志数据进行匹配,验证了各数据的一致性。在此基础上,通过对各个数据的合理性分析,延展到对整个业务系统可信度的分析。
       总结:围绕海量数据的应用场景进行数据分析,调整在分析维度上的颗粒度寻找隐性差异和波动区域,审计过程可以识别更多风险领域并给予重点关注。

三.运输行业应用场景分析
  场景描述:
       一家运输公司主要是承接汽车的输运业务,从客户签订协议后,将运力分解交付到不同的运输商,由运输商负责实际的运输业务。运单数据选取该公司7个月14家客户的成本表数据,涉及72.8万条数据。值得注意的是,部分长距离运单会被公司拆分,交由不同的运输商分段运输,故需要按照运输商维度展开分析。
  场景难点:
1. 常规的分析方法,不考虑运输线路和区域,只对成本表里程单价计算比较,分析结果会有所偏差。
2. 成本表数据中,部分数据没有里程数据,只能查看运单的单台价格,数据难以得到有效使用。
3. 运单地址具体到县一级,数据的过度细分,不利于汇总分析。
  解决方案:
       我们重点对成本进行多维度的解读,将运输订单按照运输商维度展开,分析相同线路或相近运输距离的运输商价格差异,校验运输商数据的真实性。
1. 运单地址处理
       将地址数据文本拆分,分为省、市两级结构,以市级地址作为运单起/终的地址,过滤县/区级地址信息。
2. 运输供应商和运输成本比对
       选择相同的起始地和目的地,我们可以查看某一发运区间段对应不同运输商的价格分布。如某一汽车品牌从河北到上海区间段的运输,正常情况下应为同一个价格,但观察1~8月份,某运输商的单台单价始终高于其他厂家约300元。


图: 河北到上海各月单台运输价格(供应商按颜色区分)

3. 运输价格合理性分析
       为了探讨固定线路的价格变化关系,我们可以按照不同的运输线路计算单台运输价格的标准差,标准差异常明显偏高的表示价格存在异常的波动。
       下图中,对于某汽车品牌由吉林发往安徽安庆市的货物,标准偏差相对较高,查看其月度运输价格,发现7月份较前6个月份的单价大幅上涨近45%,此种涨幅是否合理,尚需进一步判断。


图: 各线路价格标准差(按起始地和目的地划分)

4. 日运输里程合理性判断
       对于运单的运输时间,我们可以依据公司的运输特点,设定每日运输的里程范围,如果日运输里程超过设定值,则判断为运输异常项,并以此筛选出异常数值。


图: 发运里程和运输天数异常数据

       从上图我们可以看出,有部分数据的运达日期早于发车日期,此外还有大量的数据,其日行驶里程高于我们设定的阈值,如1天行驶5,300KM。以此为基础,我们可以识别出异常物流供应商。


图: 运输数据异常运单的运输商占比(运输商以颜色划分)

       该案例,我们通过对数据中关联字段的场景设计,从多个维度对业务状态的真实性进行解读。此外,通过制定相关的判定规则,可以迅速的将异常数据和离群数据从大量的基础数据中筛选出来。
       总结:围绕交通运输行业的数据分析服务,基于业财数据融合分析业务和财务上的风险点,并挖掘和寻找企业运营效率上的提升与优化空间。

四.电子商城应用场景分析
  场景描述:
       某电子商城的主要业务形式为分期购物的金融服务平台,用户在商场上购买商品时,可以向商城申请分期付款,经商城审批通过并收货后,用户按照约定的时间,定期向商城还款。作为金融服务平台,除商城自身资金发放贷款外,该商城还引进多家外部公司的资金用于向用户发放贷款。用户向商城还款后,由商城向相应的资方公司还款,对于未按时还款的用户,商城会收取约定比例的滞纳金,此外,部分逾期用户拖欠的贷款由商城自有资金代为偿还。
  场景难点:
1. 该商城为金融平台,还款逻辑复杂,商城既作为贷款出资方,又作为中间商,数据间存在强关联性,人工核对检查操作繁琐,工作量大,抽样数量占总样本比例低。
2. 数据量大且存储分散,还款数据分为用户向商场还款表(252余万条数据)和商城向资方还款表(118余万条数据),数据处理难度大。
3. 难以将各个数据库贯通,有效关联分析,验证公司现有财务收益的合理性。
  解决方案:
       在对公司业务场景和数据全面解读后,我们通过“订单号”建立订单明细表和用户还款表、订单明细表和资方还款表的关联关系,通过“订单号”+“还款期数”建立用户还款表和资方还款表的关联关系。以此为基准,我们可以开展数据一致性检验和数据合理性的分析。
1. 订单信息溯源与分析
       我们分别将用户还款数据和资方还款数据,同订单数据比对,用户还款数据中有76.71%可以同订单明细数据相匹配,另有23.29%的数据无法找到相应的订单;资方还款数据中,只有192笔数据(涉及24个订单)无法与订单明细数据匹配,占比不足0.001%。资方还款数据和实际订单一致性很高,而用户还款数据中有大量数据无法找到相应的订单来源。

         
            图: 用户还款表和订单明细表匹配比例(左)    图:资方还款表和订单明细表匹配比例(右)

2. 订单状态合理性判断
1) 用户还款数据校验
       用户还款数据中,有160余万条数据可以与订单明细信息匹配成功,我们根据订单明细表中的订单状态对数据进行分组解析,发现有1,485条数据(838笔订单,占比0.09%)为交易关闭订单或退货订单,但在用户还款数据中的状态为逾期未还且仍按日记录应缴滞纳金。


图: 用户还款数据滞纳金异常占比

2) 资方还款数据校验
       资方还款数据中,我们将用户还款数据与之相匹配,综合两个表的数据开展分析。在资方还款表中,我们发现有11,703条还款数据(占比0.99%),显示用户已按时还款,但在用户还款数据表并缺失的还款信息,同时依然计算这些还款订单的滞纳金,这些异常数据绝大部分(11,673个)集中于某一个特定的资方。


图: 资方还款数据异常占比

3) 不同数据用户还款比例对比
我们对资方还款数据和用户还款数据中的用户还款比例进行统计,发现与订单明细表相匹配的资方还款数据和用户还款数据,其用户还款订单比例分别为68.17%和71.19%,还款比例明显偏低。而用户还款表中占比23.29%,无法与订单明细表匹配的84万条数据,用户还款比例达到99.05%。由于订单表外与表内数据的用户还款比例差距明显,系统录入信息的真实性需要进一步的验证。


表: 不同数据属性的用户还款比例

3. 财务数据对业务数据的支持性分析
       我们以订单明细表的成交明细作为基础数据,通过关联用户还款表和资方还款表,可以实现对商城财务数据的多维度解读。
1) 月度资金数据概览
       我们选取订单明细表的商城自有资金贷款金额、资方还款表中由商城代还款而用户未还款金额作为商城的月度支出项;选取用户还款表中实际收取滞纳金、资方还款表中的商城分润和自营资金回款作为收入项。



       以此为基准可以计算商城的实际月收支情况,我们可以看出,该商城的月度支出要远大于月度收入。选取2018年1月到8月的数据,用该期的支出金额减去收入金额,商城资金是净支出2595万。此外,当期的利息分润为394万,实收滞纳金1359万,在不考虑商城资金成本的情况下,滞纳金带来的收益是利息收益的3.4倍。


图: 商城月度实际收支金额

2) 商城资金放款分析
       商城资金支出款项主要为自有资金的放款,我们将商城放款资金、外部资方的放款资金和商城实际完成的订单数量,三个数据结合分析,商城订单量大幅上涨的时间节点为2017年12月达到2.8万个,较11月上涨98.4%。商城的总放款资金和订单数量为强相关的关系,同时商城自有资金的放款比例并不稳定,18年放款占比在2.5~35%之间波动。


图: 商城月度放款资金和订单成交数量

3) 商城资金滞纳金分析
       根据前面的分析,该商城主要收入其实为滞纳金收入,全部已成交订单中,有23.29%数据为未还款数据,该部分产生的滞纳金为1.77亿元,占到期间应收滞纳金的81.41%,这部分滞纳金已占到当期贷款总额的16.5%,金额巨大且有偿还风险的滞纳金,给商城的财务健康蒙上一层阴影。
       对于逾期但已还款的订单,应收滞纳金4,042万,实际收取2,110万元占比52.22%,其余47.48%的滞纳金被商城减免。我们根据已偿还贷款的月度实收滞纳金和减免滞纳金分析,发现2018年1月之前,滞纳金减免比例低于4.8%,1月之后滞纳金减免比例维持较高水平,2018年7月滞纳金减免32.53%,为1月份后减免比例最低的月份,滞纳金的大比例减免值得我们进一步关注。

 
图: 月度实收滞纳金和减免滞纳金金额
       在电子商城的业务场景中,我们获取的数据主要为订单财务收入数据,针对这份数据,我们更多的是对不同数据库中数据进行整合,判断记录数据的真实性以及还款行为的合理性,此外,对财务的收支金额和滞纳金的减免进行统计,可以帮助项目团队深入理解复杂场景的资金流数据。
       总结:通过数据分析,实现对信息流的追溯,形成关系网络的可视化分析效果,辨识错链和断链,挖掘不合理与不真实信息与关系,有助于审计师和企业管理者对业务战略发展和风险把控上具有更多决策支持。

       信永中和数字服务,通过大数据技术,可以对企业的业务、财务和运营数据进行全面而有效的整合。我们收集的所有数字信息现在都可以用新的方式加以利用。通过将公司的全部数据,按照数据类别进行分组,可以将其下属子公司或业务板块的数据汇总到一起,一个问题模型解决的企业所有同类问题,而不同主体数据的横向对比更能凸显异常的数据,对于多业务线以及集团公司可以显著提高数据分析效率。

       信永中和数字服务赋予数据更多的价值,提供全流程数据解决方案和效率工具,赋能专业服务团队更好更全面的认知客户,适应新环境、拓展新业务。我们可以贯穿企业的各业务线,验证不同数据库存储数据的一致性;对数据进行分类、聚合,不同主体的数据与内部或公开市场数据对比,定位数据的差异性;根据专家经验或统计学原理,定义数据的合理区间或数据关联性,筛选异常数据;对数据进行加工,补充新的数据字段,深入分析。此外,采用数据分析方法,可以帮助专业团队降低审计成本,优化、提高工作效率,让团队精力聚焦到更深层面、更有价值的问题上。



    
BETWAY必威电竞