logo
Top

Machine Learning e a interpretabilidade dos dados

Já reparou a notoriedade que o termo Machine Learning tem ganhado nos últimos tempos? Com a escalada da transformação digital, as aplicações desta tecnologia vêm crescendo de forma exponencial, nos mais diferentes setores da economia. Sistemas que contam com aprendizado de máquina estão mais presentes em nosso cotidiano do que podemos imaginar.

 

Ao mesmo tempo, ainda são muitos mitos e dúvidas sobre o assunto, principalmente em relação à interpretabilidade dos resultados. Afinal, o que rola por dentro do algoritmo quando ele está analisando variáveis, de que forma ele prioriza um dado em relação a outro e como ele interpreta e entrega um resultado relevante e assertivo? O fato é que o Machine Learning tem um grande potencial para melhorar produtos, processos, pesquisas e para resolver problemas reais, no entanto, nem sempre é claro interpretar de que maneira os algoritmos presentes nas máquinas chegam às suas previsões. E isso pode se tornar uma barreira para a adoção ainda mais massiva da tecnologia.

 

Conversamos com Monica Quast, cientista de Dados da UniSoma, para entender melhor sobre o assunto. Monica é bacharel em biologia e estatística, com pós-graduação em Ecologia pela Unicamp e já desenvolveu aplicações de Machine Learning para previsão de evasão de alunos do ensino superior, previsão de demanda em diferentes indústrias, classificação de mutações associadas à epilepsia, entre outros projetos.

Conceituando Machine Learning

Esta subcategoria da Inteligência Artificial é uma técnica que tem a capacidade de analisar, por meio de métodos estatísticos específicos, uma grande quantidade de dados e, com o suporte de algoritmos, é capaz de encontrar padrões no banco de dados, fazer determinações ou predições. Além disso, o próprio sistema é capaz de aprender e se retroalimentar com a análise de dados, executando as tarefas para as quais ele foi programado com uma precisão cada vez maior.

 

Contribuição para a tomada de decisões

Previsões baseadas em Machine Learning são feitas a partir da evolução de modelos estatísticos tradicionais, que têm como característica a interpretabilidade. “Isso quer dizer que eles não só geram uma previsão, como possibilitam interpretar o modelo no sentido de apontar quais fatores estudados mais contribuem para os resultados observados”, explica Monica.

 

Considere, por exemplo, a avaliação de vendas de um produto como resultado de investimento em diversos canais de marketing. Um modelo estatístico tradicional pode dizer qual canal foi mais importante e, assim, priorizar os investimentos e orientar a tomada de decisões.  No entanto, suas previsões não são tão precisas quanto um modelo de Machine Learning, principalmente na abordagem de problemas complexos, que tenham muitos fatores de interações entre eles. Por outro lado, Monica esclarece que “justamente por conta de sua complexidade, modelos de Machine Learning podem ser de difícil interpretação, ou seja, apesar de extremamente úteis para fazer previsões, não são tão simples de compreender quando se busca entender as relações entre fatores e resultados”.

 

Black box

Parte da dificuldade em relação à interpretabilidade de algoritmos de Machine Learning decorre da chamada black box, ou caixa preta, que corresponde a modelos que não podem ser interpretados. “Ainda que os dados entrem e as previsões saiam, não se tem ideia do que acontece lá dentro”, esclarece a cientista. Em outras palavras, existem as previsões, mas não se sabe como elas foram feitas e quais fatores têm maior influência nos resultados. Isso acontece porque são modelos complexos, que capturam relações que não são, necessariamente, lineares.

 

Este tipo de situação demanda uma visão crítica e um entendimento, principalmente por parte dos cientistas de dados, sobre o que está sendo feito na caixa preta, a fim de entender e os rumos que a tecnologia está tomando.

 

Interpretando modelos

 

 

 

Neste universo de Machine Learning, uma coisa é certeza: os avanços das técnicas estão acontecendo rapidamente, viabilizando previsões cada vez mais certeiras. Já imaginou um médico conseguir especificar qual dentre seus hábitos mais contribui para o aumento de probabilidade para determinada doença, com base na sua idade, histórico familiar e análise da sua rotina? Pois ele já pode, a partir de técnicas de interpretação para previsões individuais! E, em breve, você provavelmente será impactado por uma informação como esta. É o futuro acontecendo, aqui e agora.

 

 

Monica Quast é bacharel em biologia e estatística, com pós-graduação em Ecologia pela Unicamp e cientista de Dados da UniSoma