Devido a um curso que eu estou fazendo de Data Science, ouvi falar sobre essa Lei de Benford e fui atras dela, o que ela faz e para que serve?
Procurando mais sobre essa lei, se faz de uma probabilidade de haver fraude em uma série de dados onde o principio está na utilização do primeiro digito das amostras combinado a taxa de logaritmos, mas o calculo é bem simples, vamos a ela!
Primeiramente você precisará de uma base amostras grande (recomendável acima de 1.000 registros).
Vamos utilizar essa base do Wikipédia da lista de municípios no Brasil (https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_popula%C3%A7%C3%A3o) extraído no dia 22/07/2018.
O que é necessário é somente retirar o primeiro valor de cada amostra
Para isso utilizamos a formula em Excel na coluna F, iniciando na célula F2
=(ESQUERDA(E2;1)*1
ou em inglês
=(LEFT(E2;1))*1
E deverá ser feito isso com todas as amostras,
Após isso, deverá contar quantas vezes apareceram os registros do número 1 ao numero 9, para isso colocaremos em uma coluna iniciando o numero 1 na célula H3 até o 9 na célula H11
E utilizaremos a formula =CONT.SE
Na Célula I3 foi aplicado a formula abaixo
=CONT.SE(F:F;H3)
ou em inglês
=COUNTIF(F:F;H3)
Agora é somar todos os valores totalizando o numero de municipios utilizados (neste exemplo 5.570) e na coluna J é só ver a proporção do número (1 a 9) em relação ao total,
Para isso é feito a formula no Excel
=I3/$I$1
onde no I1 coloquei a SOMA(I3:I11)
Para comparar a Lei de Benford é utilizado a formula do LOG dentro do Excel
Na célula K3 foi utilizado =LOG(H3+1)-LOG(H3) que seria o Log(2) - Log(1) e assim fazendo para todos os números
E pronto só montar um gráfico e fazer a analise comparativa
Neste exemplo se notou que tem uma correlação de 0,996071 entre os dois percentuais que podemos afimar que não tem a probabilidade de "fraude" essa nossa amostra.
Mas se pegarmos o codigo do IBGE em vez da População (apenas para demonstração)
A correlação foi para 0,3956 e o resultado diz que tem uma interferência nesses dados que não é um comportamento padrão desses resultados, sendo uma tendência alta de fraude.
Caso queiram saber mais segue o link https://pt.wikipedia.org/wiki/Lei_de_Benford
E gostaria de ver a continuação da Lei de Benford com 2° Dígito? Só Clicar aqui!
Espero que tenham gostado pessoal!
Caso tenha alguma sugestão de outra técnica ou melhoria do conteúdo acima, poste aqui nos comentários.
Se gostou, curta e compartilhe este artigo para que todos saibam o que é possível fazer dentro do MS Excel.
Venha fazer o melhor curso EAD de Excel comigo! Clique e compare!
Abraços
Fabio Baldini
Link permanente
Top mestre, assunto muito interessante, acho que é aplicável a muitos estudos de casos.
Parabéns pelo artigo.
Sugiro dar uma olhada na série do Netflix “Era dos dados”, fala um pouco sobre o assunto.
Abraço
Danubens