Como otimizar sua análise de dados

Mesmo vivendo a era do big data e da inteligência artificial, antes de sair em busca das mais modernas ferramentas tecnológicas em análise de dados e machine learning dois fatores ainda se fazem necessários para garantir que se extraia de fato inteligência de um bando de dados: gestão dos dados internos de uma empresa e qualificação técnica dos encarregados por analisar estes dados.

Desenvolvendo a capacidade de questionar os dados

De forma simples, falar em gestão dos dados internos pode significar:

  • Mapear dados e informações disponíveis;
  • Identificar e qualificar as fontes destes dados e informações;
  • Discriminar os dados em função da sua natureza (interno, externo, primário, secundário);
  • Discriminar os dados em função da forma (quantitativo, qualitativo);
  • Desenhar e colocar para funcionar um sistema de coleta de dados;
  • Fazer a análise crítica da qualidade do dado coletado.

Mas o que caracteriza um bom dado?

Um bom dado, ou um dado consistente, é aquele que representa a realidade dos fatos.

Identificar situações atípicas nos registros (outliers quantitativos ou mesmo qualitativos), compreender a causa e a representatividade dos outliers, tratá-los (expurgar ou não dos registros) e identificar as relações entre dados são meios de criticar os dados.

Dando sentido à uma informação

Aqui quero chamar atenção ao fato de que de nada adianta ter os melhores softwares de análise se o analista não for capaz de captar a mensagem que os dados estão trazendo e dar sentido a elas, contextualizando-as no ambiente de negócio e capturando os efeitos de estratégias passadas em resultados do presente (e até do futuro).

Com o volume e variedade de informações acumuladas pelas empresas, simplesmente terceirizar a inteligência para uma tecnologia é um risco. O profissional que souber questionar e analisar dados, transformando-os em conhecimento acionável, pode ampliar a probabilidade de sucesso na sua próxima decisão.

A estatística é um ramo da matemática que reúne um conjunto de métodos para coleta, análise e interpretação de variáveis.

Com as ferramentas adequadas podemos quantificar fenômenos, confrontar grupos distintos, predizer resultados, enfim, analisar fatores de risco importantes e influentes nos resultados que, portanto, o ajudarão a tomar decisões de forma mais consciente, sem estar totalmente à mercê do output de um sistema de processamento ou análise de dados.

Conceitos fundamentais para construção da sua análise

Inicialmente, você precisa determinar para quais dados deseja olhar. Pode-se querer compreender as características de diferentes conjuntos, por exemplo:

  • Itens produzidos em uma indústria por mês;
  • Hospitais de uma determinada cidade;
  • Consumidores que compram o seu produto e se manifestam nas redes sociais.

Estes conjuntos de elementos devem ter ao menos uma característica em comum para que possamos chamá-los de população ou universo estatístico.

É claro que, em muitos casos, se torna inviável estudar uma população – imagine conversar com todos os habitantes de um determinado estado do país, por exemplo.

Não temos como alcançar todos eles obviamente por fatores logísticos e econômicos, mas também podemos não alcançar a todos por não conhecer o todo.

Diante desta situação, toma-se como referência para análise um dado não da população, mas da amostra que, desde que selecionada de maneira correta, é perfeitamente capaz de representar as características daquilo que está em estudo.

Eis aqui a primeira face da análise de dados: esta informação é amostral ou populacional?

É importante lembrar que amostras estão sujeitas à margem de erro em sua leitura e o analista deve ter em mente portanto que estes dados podem divergir ligeiramente entre amostra e população. Por exemplo, se uma sondagem com margem de erro de 3% obtém 60% de preferência para a cor azul, significa que o índice real de preferência desta cor no universo estatístico se situa entre 57% e 63%.

Ter em mente este conceito é importante na leitura de dados especialmente quando comparamos duas amostras. Tomando como exemplo as pesquisas eleitorais, o termo “empate técnico”, amplamente utilizado nestes casos, é proveniente da leitura com base na margem de erro e teste de hipótese (outra ferramenta estatística fundamental à conclusão da qual falaremos adiante). Com o resultado podendo variar dentro de um determinado intervalo, a intenção de votos de dois candidatos pode se encontrar em superposição, por isso observar a margem de erro elimina o viés de conclusões precipitadas.

Observe a notícia abaixo:

“Levantamento realizado pela Associação Nacional dos Registradores de Pessoas Naturais (Arpen-Brasil) mostra que o último mês de janeiro teve a menor taxa de registro de nascimento desde 2002. No total, foram registrados 207.901 nascimentos, redução de 15,1% em relação ao mesmo período do ano passado, quando houve 244.974 registros.”

Um primeiro ponto a se entender é: esta notícia traz um dado populacional ou amostral? Se partirmos do princípio que há nascimentos não registrados este passa a ser um dado amostral (ou seja, 207.901 não é o total de nascimentos, mas o total de nascimentos que foram registrados).

Aqui é válido se perguntar ainda: será que esta redução vem de algum perfil específico de brasileiro? Ou ainda, será que esta taxa de queda se mantém em diferentes estados? O índice de queda de 15,1% representa o aumento total em um dado período estudo. No entanto, ao analisar diferentes localidades este índice passa a variar. Veja:

“Entre os estados, apenas Rondônia registrou alta, com um aumento de 3% nos nascimentos no período. No topo da lista com as maiores reduções estão Maranhão (-26%), Amazonas (-23,9%), Roraima (-23,1%), Piauí (-21,3%) e Mato Grosso (-20,8%)”

Um analista capaz de questionar estes números obterá resultados mais confiáveis com o auxílio de um teste de hipótese (ferramenta estatística utilizada para compreender se a diferença entre duas informações é real ou pode ser fruto da característica amostral do dado).

Existe diferença estatística comprovada na comparação da queda entre regiões? Podemos afirmar que a queda de 26% no Maranhão é superior à queda de 20,8% do Mato Grosso e, portanto, afirmar que no Maranhão está havendo menos nascimentos? Ao utilizar um teste de hipótese você calcula a probabilidade da diferença entre duas médias ou percentuais e irá validar estas suposições que os dados puros levantam para embasar a sua análise. É importante você saber que existe uma infinidade de testes de hipótese diferentes, um para cada fim e um para cada tipo de variável que está sendo estudada. Se escolher aplicar o teste errado a conclusão também poderá estar errada, então fique atento!

Descrevendo um contexto após compreendê-lo

O resultado referencial que a pesquisa utilizou para representar o Brasil – -15,1% – é uma medida de posição. Algumas métricas têm este objetivo: representar um número que possa “resumir” de forma adequada um conjunto de dados (neste exemplo as taxas de variação na natalidade de cada estado). Deixamos aqui três das principais: média aritmética, média ponderada e mediana.

Quando se observa, por exemplo, que seu conjunto de dados apresenta registros muito discrepantes, pode ser mais coerente o isso da mediana na análise, pois ela tende a neutralizar valores extremos, individuais e não significativos, já que seu cálculo se baseia no centro de todo o rol de dados.

A média, por sua vez, reflete o “peso” de cada valor observado dentro do conjunto, por isso estará mais sensível a valores distantes do centro dos dados. Mesmo que sejam exceção no conjunto, valores muito altos tendem a puxar a média para cima e valores muito baixos, carregam o valor médio para baixo. Esta medida é mais coerente quando há baixa variação de resultados.

Ainda que você escolha a medida de posição correta, é arriscado utilizá-la isoladamente para explicar por completo uma série numérica, pois os conjuntos se diferenciam por sua variabilidade.

Uma situação é no dia anterior você checar a previsão do tempo e ver que a estimativa é que a temperatura média no dia seguinte será de 22°, com 19° de mínima e 25° de máxima. Uma outra situação é a estimativa que a temperatura média no dia seguinte será de 22°, com 11° de mínima e 33° de máxima.

Veja que passar adiante uma informação apenas com uma medida de posição (média, neste caso) e passar uma informação incompleta: é deixar que se entenda que os dois dias serão iguais (já que têm a mesma média) e ocultar que em um dia o clima estará mais estável que no outro. Agregar ao momento da análise as medidas de dispersão ampliará o seu conhecimento acerca do que está sendo estudado. Entre as métricas de dispersão mais aplicáveis estão a amplitude e o desvio-padrão.

Por fim, completa o trio básico de medidas estatísticas descritivas o índice de correlação.

Em sua análise, podem surgir suposições e questionamentos sobre a relação de dependência entre duas variáveis, como por exemplo:

  • Será que o tempo de estudo dedicado aumenta a nota da prova do aluno?
  • Será que o número de defeitos em um produto diminui à medida que o funcionário recebe mais treinamentos?

Você pode rapidamente validar estas respostas através da análise de correlação, que nos permite mensurar o quanto duas variáveis estão correlacionadas. É importante apenas ressaltar que este coeficiente não representa uma relação estrutural de causa e efeito, ok?

Há diferentes métodos para o cálculo dos coeficientes de correlação e eles estão diretamente ligados ao tipo de dado que se está estudando (nominais ou escalares). Seja qual for o método o resultado deste cálculo sempre será um número entre -1 e 1 cuja interpretação se dá a partir de duas características:

  • O “sinal”: se positivo representa uma relação em mesma direção (à medida que uma variável aumenta, a outra aumenta) e, se negativo representa uma relação em direções opostas (à medida que uma variável aumenta a outra reduz).
  • E valor absoluto do número: quanto mais próximo de 1, mais forte a relação entre as duas variáveis.

Poderíamos aqui comentar sobre muitas outras ferramentas para incrementar e transformar sua análise de dados, mas esperamos com esta leitura ter contribuído na tarefa de auxiliá-lo a compreender que analisar números sem o cruzamento de informações e algumas ferramentas estatísticas básicas para comprovação de mudanças no cenário pode trazer um grande viés à sua tomada de decisão.

Isa Moema Antunes – especialista em marketing, inteligência e pesquisa de mercado e fundadora da Maena Inteligência Analítica.

Deixe um comentário