本福特定律,一种源于实际生活中的数据集首位数规律,近些年似乎在诸多数据欺诈识别方法中被捧上神坛。有人认为其有助于仅通过数据首位数分布规律即判断上市公司是否有财务造假嫌疑,更有甚者还有学术人员用之判断各国披露新冠患者数量的真实性。
本福特定律到底是什么,这种定律有何科学依据?本福特定律的适用范围如何,以及适用范围内的数据,如其符合本福特定律,又有多大概率意味着该数据集并非人为伪造的?本文只是简易论述,仅做抛砖之用,若能引玉就再好不过了。
本文约1600字,阅读时间约为5分钟
1
本福特定律释义
何为本福特定律?在十进制情况下,一个样本量足够大、且非人为干预的数据集合,其首位数字为n的概率为lg[(n+1)/n],其中lg为以十为底的对数。其应用更广泛的是首位数为1的概率,即lg2≈30.1%。本文并不讨论该定律的证明过程,感兴趣的投资者可自行检索相关论文。

本福特定律如何应用?国内很多相关概述性文章都有上述图片。经检索后,我们在华尔街日报(博客,微博)网站找到了该图片的出处,并支付了4美元才得以下载相关文章。文章的题目为“Accountants Increasingly Use Data Analysis to Catch Fraud”,是作者Jo Craven McGinty于2014年12月5日发布的。
不过这篇文章主要介绍的是对于一家呼叫中心的调查(call-center probe),文章仅在一个段落中提到“会计教授Dan Amiram等人展示了他们将本福特定律应用于公司损益表、资产负债表和现金流量表等公开数据的方法。例如,安然公司从2000年开始的欺诈性会计数据与本福特定律有明显不同。”
2
定律的应用范围
在华尔街日报这篇文章的结尾,作者也提到:“本福德定律并非灵丹妙药,这只是一种方法,它并不适用于所有的数据集。当它是一个很好的工具时,它只是简单地识别数据中的异常,这必须通过进一步的分析加以解释。在许多情况下,(数据首位数分布与本福特定律的)不一致性有合理解释。”
事实上,中和明略研究团队统计了2017-2019年的历年A股三张表数据,数千家上市公司全部财务数据集合的首位数分布确实是高度符合本福特定律的。但是,如果我们分别研究各家上市公司财务数据的首位数分布就会发现,涉嫌财务造假的上市公司,如康美康得,其与本福特定律的一致性并不低于甚至明显高于一些公认的优质上市公司。
我们分析了数篇文章的结论后认为,相较于试图通过“有限公开的会计数据的首位数实际分布律”分析“上市公司财务欺诈可能性”的投资者而言,本福特定律可能是一件更适宜于审计人员的工具。如审计人员可将被审计单位的会计记录所含有的全部数据信息视为数据集,这包括销售发票、购货发票、工薪单等等,并以此数据集实施本福特定律一致性检验。
不过,如果数据本身不符合随机性,而是至少部分数据存在一定规律的话,如公司面向C端且客户套餐大多以有限个既定价位为主,那么数据集的首位数就可能集中于某几个数字,其分布就很可能与本福特定律不大一致了。
3
分布的伪造难度
此外,因本福特定律受到了越来越多人的关注,也许欺诈者在虚构数据时就会尝试让捏造的数据更符合本福特定律。一些研究认为,因庞大的数据集往往具有复杂性且数据的生成常常是延续到会计期末的,因此构建虚假数据使其符合本福特定律是相当困难的。
然而,据我们判断,实际情况可能并非如此。即使公司数据不因套餐价格或商业惯例等存在明显首位数规律而适用于本福特定律一致性检验,公司也只需将构建的虚假数据视为一个整体并使其符合本福特定律就足够了,这是因为除虚假数据以外的真实数据本身就已经大概率符合本福特定律了。
不过,我们倒是可以为审计人员提供一种新思路以增强本福特定律的效力,即我们可以在不同进制下分析数据集首位数的分布规律。例如,当我们在四进制下分析数据集时,“首位数为1”的分布概率应接近于log(2/1)=50%(注:以4为底)。我们认为,捏造同时符合各个进制下本福特定律的数据要困难得多。
写到文章最后,我们还要提醒一点。如果会计记录并不连贯,即或者是变更主营后的新业务记录或者是新兴的数据集,那么捏造数据集就容易得多了。举例来说,我们可以在所有真实数据的基础上放大或缩小一个倍数(如最好理解的10倍),经变换后的数据集也会符合本福特定律。
本文首发于微信公众号:资本名侦探。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论