Mesmo vivendo a era do big data e da inteligência artificial, antes de sair em busca das mais modernas ferramentas tecnológicas em análise de dados e machine learning dois fatores ainda se fazem necessários para garantir que se extraia de fato inteligência de um bando de dados: gestão dos dados internos de uma empresa e qualificação técnica dos encarregados por analisar estes dados.
Desenvolvendo a capacidade de questionar os dados
De forma simples, falar em gestão dos dados internos pode significar:
- Mapear dados e informações disponíveis;
- Identificar e qualificar as fontes destes dados e informações;
- Discriminar os dados em função da sua natureza (interno, externo, primário, secundário);
- Discriminar os dados em função da forma (quantitativo, qualitativo);
- Desenhar e colocar para funcionar um sistema de coleta de dados;
- Fazer a análise crítica da qualidade do dado coletado.
Mas o que caracteriza um bom dado?
Um bom dado, ou um dado consistente, é aquele que representa a realidade dos fatos.
Identificar situações atípicas nos registros (outliers quantitativos ou mesmo qualitativos), compreender a causa e a representatividade dos outliers, tratá-los (expurgar ou não dos registros) e identificar as relações entre dados são meios de criticar os dados.
Dando sentido à uma informação
Aqui quero chamar atenção ao fato de que de nada adianta ter os melhores softwares de análise se o analista não for capaz de captar a mensagem que os dados estão trazendo e dar sentido a elas, contextualizando-as no ambiente de negócio e capturando os efeitos de estratégias passadas em resultados do presente (e até do futuro).
Com o volume e variedade de informações acumuladas pelas empresas, simplesmente terceirizar a inteligência para uma tecnologia é um risco. O profissional que souber questionar e analisar dados, transformando-os em conhecimento acionável, pode ampliar a probabilidade de sucesso na sua próxima decisão.
A estatística é um ramo da matemática que reúne um conjunto de métodos para coleta, análise e interpretação de variáveis.
Com as ferramentas adequadas podemos quantificar fenômenos, confrontar grupos distintos, predizer resultados, enfim, analisar fatores de risco importantes e influentes nos resultados que, portanto, o ajudarão a tomar decisões de forma mais consciente, sem estar totalmente à mercê do output de um sistema de processamento ou análise de dados.
Conceitos fundamentais para construção da sua análise
Inicialmente, você precisa determinar para quais dados deseja olhar. Pode-se querer compreender as características de diferentes conjuntos, por exemplo:
- Itens produzidos em uma indústria por mês;
- Hospitais de uma determinada cidade;
- Consumidores que compram o seu produto e se manifestam nas redes sociais.
Estes conjuntos de elementos devem ter ao menos uma característica em comum para que possamos chamá-los de população ou universo estatístico.
É claro que, em muitos casos, se torna inviável estudar uma população – imagine conversar com todos os habitantes de um determinado estado do país, por exemplo.
Não temos como alcançar todos eles obviamente por fatores logísticos e econômicos, mas também podemos não alcançar a todos por não conhecer o todo.
Diante desta situação, toma-se como referência para análise um dado não da população, mas da amostra que, desde que selecionada de maneira correta, é perfeitamente capaz de representar as características daquilo que está em estudo.
Eis aqui a primeira face da análise de dados: esta informação é amostral ou populacional?
É importante lembrar que amostras estão sujeitas à margem de erro em sua leitura e o analista deve ter em mente portanto que estes dados podem divergir ligeiramente entre amostra e população. Por exemplo, se uma sondagem com margem de erro de 3% obtém 60% de preferência para a cor azul, significa que o índice real de preferência desta cor no universo estatístico se situa entre 57% e 63%.
Ter em mente este conceito é importante na leitura de dados especialmente quando comparamos duas amostras. Tomando como exemplo as pesquisas eleitorais, o termo “empate técnico”, amplamente utilizado nestes casos, é proveniente da leitura com base na margem de erro e teste de hipótese (outra ferramenta estatística fundamental à conclusão da qual falaremos adiante). Com o resultado podendo variar dentro de um determinado intervalo, a intenção de votos de dois candidatos pode se encontrar em superposição, por isso observar a margem de erro elimina o viés de conclusões precipitadas.
Observe a notícia abaixo:
“Levantamento realizado pela Associação Nacional dos Registradores de Pessoas Naturais (Arpen-Brasil) mostra que o último mês de janeiro teve a menor taxa de registro de nascimento desde 2002. No total, foram registrados 207.901 nascimentos, redução de 15,1% em relação ao mesmo período do ano passado, quando houve 244.974 registros.”
Um primeiro ponto a se entender é: esta notícia traz um dado populacional ou amostral? Se partirmos do princípio que há nascimentos não registrados este passa a ser um dado amostral (ou seja, 207.901 não é o total de nascimentos, mas o total de nascimentos que foram registrados).
Aqui é válido se perguntar ainda: será que esta redução vem de algum perfil específico de brasileiro? Ou ainda, será que esta taxa de queda se mantém em diferentes estados? O índice de queda de 15,1% representa o aumento total em um dado período estudo. No entanto, ao analisar diferentes localidades este índice passa a variar. Veja:
“Entre os estados, apenas Rondônia registrou alta, com um aumento de 3% nos nascimentos no período. No topo da lista com as maiores reduções estão Maranhão (-26%), Amazonas (-23,9%), Roraima (-23,1%), Piauí (-21,3%) e Mato Grosso (-20,8%)”
Um analista capaz de questionar estes números obterá resultados mais confiáveis com o auxílio de um teste de hipótese (ferramenta estatística utilizada para compreender se a diferença entre duas informações é real ou pode ser fruto da característica amostral do dado).
Existe diferença estatística comprovada na comparação da queda entre regiões? Podemos afirmar que a queda de 26% no Maranhão é superior à queda de 20,8% do Mato Grosso e, portanto, afirmar que no Maranhão está havendo menos nascimentos? Ao utilizar um teste de hipótese você calcula a probabilidade da diferença entre duas médias ou percentuais e irá validar estas suposições que os dados puros levantam para embasar a sua análise. É importante você saber que existe uma infinidade de testes de hipótese diferentes, um para cada fim e um para cada tipo de variável que está sendo estudada. Se escolher aplicar o teste errado a conclusão também poderá estar errada, então fique atento!
Descrevendo um contexto após compreendê-lo
O resultado referencial que a pesquisa utilizou para representar o Brasil – -15,1% – é uma medida de posição. Algumas métricas têm este objetivo: representar um número que possa “resumir” de forma adequada um conjunto de dados (neste exemplo as taxas de variação na natalidade de cada estado). Deixamos aqui três das principais: média aritmética, média ponderada e mediana.
Quando se observa, por exemplo, que seu conjunto de dados apresenta registros muito discrepantes, pode ser mais coerente o isso da mediana na análise, pois ela tende a neutralizar valores extremos, individuais e não significativos, já que seu cálculo se baseia no centro de todo o rol de dados.
A média, por sua vez, reflete o “peso” de cada valor observado dentro do conjunto, por isso estará mais sensível a valores distantes do centro dos dados. Mesmo que sejam exceção no conjunto, valores muito altos tendem a puxar a média para cima e valores muito baixos, carregam o valor médio para baixo. Esta medida é mais coerente quando há baixa variação de resultados.
Ainda que você escolha a medida de posição correta, é arriscado utilizá-la isoladamente para explicar por completo uma série numérica, pois os conjuntos se diferenciam por sua variabilidade.
Uma situação é no dia anterior você checar a previsão do tempo e ver que a estimativa é que a temperatura média no dia seguinte será de 22°, com 19° de mínima e 25° de máxima. Uma outra situação é a estimativa que a temperatura média no dia seguinte será de 22°, com 11° de mínima e 33° de máxima.
Veja que passar adiante uma informação apenas com uma medida de posição (média, neste caso) e passar uma informação incompleta: é deixar que se entenda que os dois dias serão iguais (já que têm a mesma média) e ocultar que em um dia o clima estará mais estável que no outro. Agregar ao momento da análise as medidas de dispersão ampliará o seu conhecimento acerca do que está sendo estudado. Entre as métricas de dispersão mais aplicáveis estão a amplitude e o desvio-padrão.
Por fim, completa o trio básico de medidas estatísticas descritivas o índice de correlação.
Em sua análise, podem surgir suposições e questionamentos sobre a relação de dependência entre duas variáveis, como por exemplo:
- Será que o tempo de estudo dedicado aumenta a nota da prova do aluno?
- Será que o número de defeitos em um produto diminui à medida que o funcionário recebe mais treinamentos?
Você pode rapidamente validar estas respostas através da análise de correlação, que nos permite mensurar o quanto duas variáveis estão correlacionadas. É importante apenas ressaltar que este coeficiente não representa uma relação estrutural de causa e efeito, ok?
Há diferentes métodos para o cálculo dos coeficientes de correlação e eles estão diretamente ligados ao tipo de dado que se está estudando (nominais ou escalares). Seja qual for o método o resultado deste cálculo sempre será um número entre -1 e 1 cuja interpretação se dá a partir de duas características:
- O “sinal”: se positivo representa uma relação em mesma direção (à medida que uma variável aumenta, a outra aumenta) e, se negativo representa uma relação em direções opostas (à medida que uma variável aumenta a outra reduz).
- E valor absoluto do número: quanto mais próximo de 1, mais forte a relação entre as duas variáveis.
Poderíamos aqui comentar sobre muitas outras ferramentas para incrementar e transformar sua análise de dados, mas esperamos com esta leitura ter contribuído na tarefa de auxiliá-lo a compreender que analisar números sem o cruzamento de informações e algumas ferramentas estatísticas básicas para comprovação de mudanças no cenário pode trazer um grande viés à sua tomada de decisão.
Isa Moema Antunes – especialista em marketing, inteligência e pesquisa de mercado e fundadora da Maena Inteligência Analítica.