Atualmente há diversos estudos e pesquisas sociais realizadas com o apoio da aprendizagem de máquinas e de outros campos da inteligência artificial. Apresenta-se aqui, brevemente, três artigos que relatam aplicações de machine learning em pesquisa social. Um exemplo na área de saúde pública, outro em educação e o último em segurança pública.
Saúde pública
Machine learning já é amplamente utilizada para predição de diagnósticos, risco de mortalidade, predição de riscos e adversidades ao nascer, entre outros. No estudo Overachieving Municipalities in Public Health: A Machine-learning Approach[1] apresenta-se uma aplicação para identificar ideias e práticas que favoreçam a saúde pública. Artigo de Alexandre Chiavegatto (Departamento de Epidemiologia da USP) e outros que apresenta resultados de uma pesquisa com municípios brasileiros utilizando técnicas de machine learning e estatística.
Testaram vários algoritmos para predizer a expectativa de vida ao nascer. Após validação-cruzada, SuperLearner foi o algoritmo que apresentou melhor performance preditiva a partir de um conjunto de 60 variáveis socioeconômicas locais não controladas pelos órgãos de saúde, com dados do Censo de 2010 e do Ministério da Saúde.
Foi possível identificar quais municípios apresentavam expectativa de vida ao nascer menor que o predito pelas características socioeconômicas e os municípios que apresentavam essa expectativa maior que o predito. Atribui-se essa diferença às políticas de saúde. Ou seja, municípios que apresentam expectativa de vida ao nascer maior que o predito pelas características sociais das pessoas desse município, são municípios que empreendem ações/investimentos em saúde pública que provocam essa diferença. Os resultados indicam que esses municípios têm em comum investimentos em saúde primária, como atenção primária aos mais pobres, cobertura de vacinação e iniciativas multidisciplinares como o Programa/Estratégia Saúde da Família. Os investimentos em atenção secundária e terciária são menos impactantes, apenas mais relevantes para municípios que já possuem melhores taxas de expectativa de vida ao nascer.
Esse artigo apresenta um uso interessante de dados em saúde púbica, confirma literatura e pesquisas anteriores sobre a importância da atenção primária em saúde. Inova ao apresentar a possibilidade de pesquisa com grande quantidade de dados e variáveis, o que pode auxiliar na construção de políticas baseada em evidências e predições.
Educação
Uma das fortes áreas de aplicação de machine learning é na educação, principalmente em educação mediada por computador, geralmente a distância. Há inclusive o surgimento de uma subárea chamada de Mineração de Dados Educacionais. Dentre as várias aplicações encontra-se aquela que busca prever a permanência e desempenho de estudantes. Dentre muitos estudos nessa área, destaca-se o artigo Predicting students’ performance in distance learning using machine learning techniques[2], de 2004, já considerado antigo visto os avanços da área nos últimos anos, mas que à época alcançou um bom nível de precisão ou performance preditiva.
Os pesquisadores utilizaram dados de 510 estudantes da Hellenic Open University, testaram e treinaram algoritmos a partir de dados socioeconômicos como ocupação, número de filhos, habilidade com computador, entre outros; e dados avaliativos ao longo do curso como presença nos encontros virtuais e nota nas tarefas. Empreenderam uma série de treinos e testes e concluíram que o Naïve Bayesian Network (NBN) era o melhor aplicável a esse tipo de problema, alcançando 72.48% precisão, desfecho para saber se o estudante concluiria com sucesso o curso, ou se abandonaria/reprovaria. Estudos posteriores avançaram nessa discussão. Os autores Acharya e Sinha (2014) vão indicar que algoritmos do tipo árvore de decisão, por exemplo, são melhores aplicáveis para situações com grande número de dados e variáveis/características, o que hoje é muito mais aplicável visto o crescimento da educação a distância.
De qualquer forma, prevê permanência e desempenho de estudantes ao longo do período letivo pode servir como um eficiente instrumento de monitoramento, que permite aos agentes educacionais tomarem decisões e ações de auxílio e assistência a um grupo de estudantes ou a estudantes em específicas dificuldades, diminuindo evasão e melhorando o aprendizado. Esses estudos citados trabalham ainda com variáveis limitadas, e com capacidade explicativa menor que a preditiva, visto o que a literatura especializada fala sobre sucesso educacional. Variáveis como cor/raça, exposição à violência, situação asfalto/periferia, envolvimento parental entre muitas outras podem ser incluídas em pesquisas do tipo, tanto melhorando a precisão quanto a explicação, trazendo à essas pesquisas aspectos mais complexos da desigualdade social e escolar. Eis aqui uma oportunidade para a participação de cientistas sociais nesse campo de trabalho.
Segurança pública
O campo de estudo da segurança pública e criminologia já possuem um largo acúmulo de conhecimento sobre os mecanismos e fatores relacionados aos crimes e a violência. Já há uma expertise, inclusive quantitativa e estatística sobre o assunto. No artigo de Roman Marchant (Centro de Ciência de Dados da Universidade de Sydney) e outros, Applying machine learning to criminology: semi-parametric spatial-demographic Bayesian regression[3] há uma tentativa de potencializar e melhorar a previsão de modelos.
Com dados de segurança pública do estado de New South Wales, Austrália, eles utilizam regressão Bayesiana para construir modelos probabilísticos que geram probabilidade de ocorrência de crime ou características de populações e áreas sobre o qual se incide crimes. Para além disso, eles usam o algoritmo Markov chain Monte Carlo (MCMC) para melhorar o modelo e quantificar o nível de incerteza dos valores probabilísticos estimados.
A conclusão é de que o uso de modelo totalmente probabilístico, potencializado por técnicas de machine learning pode gerar resultados mais acurados, que podem ajudar sobretudo em realidades com limitados recursos na área de segurança pública. Eles conseguiram com sucesso predizer taxas de crimes em locais específicos e apresentar, de forma inferencial, os fatores associados aos crimes, em especial de assaltos, arrombamentos e furtos de veículos. Apontam sobretudo para fatores demográficos e espaciais, e indicam relação entre tipos de áreas urbanas e tipos de crimes específicos.
O desafio e a oportunidade
A breve apresentação desses três exemplos no uso de machine learning em pesquisas sociais serve para mostrar a potencialidade dessas tecnologias para a compreensão da vida social e orientação para políticas públicas. O mérito e eventuais fragilidades desses estudos só podem ser apontados por especialistas. Por aqueles que conhecem a teoria sociológica e literatura desses campos em específico, e, por aqueles que conhecem essas técnicas, métodos e aplicações. Ou seja, essas habilidades e especialidades acabam por se tornar uma demanda já no presente e sobretudo no futuro, ao cientista social, visto a era do big data e a crescente presença dessas culturas de pesquisa disputando o debate público e as decisões governamentais.
Notas
[1] Municípios que ultrapassam as expectativas em matéria de Saúde Pública: uma abordagem de aprendizagem por máquina (tradução livre).
[2] Prevendo o desempenho dos estudantes no ensino à distância utilizando técnicas de aprendizagem à máquina (tradução livre).
[3] Aplicação da aprendizagem mecânica à criminologia: regressão bayesiana semi-paramétrica espacial-demográfica (tradução livre).
Referências
ACHARYA, Anal; SINHA, Devadatta. Early Prediction of Students Performance using Machine Learning Techniques. International Journal of Computer Applications, v. 107, n. 1, p. 37-43. 2014.
CHIAVEGATTO FILHO, Alexandre Dias Porto. et al. Overachieving municipalities in public health: a machine-learning approach. Epidemiology, v. 29, n. 6, p. 836-840. 2018. DOI: 10.1097/EDE.0000000000000919.
MARCHANT, Roman. et al. Applying machine learning to criminology: semi-parametric spatial-demographic Bayesian regression. Secur Inform, v. 7, n. 1, p. 1-19. 2018. DOI: 10.1186/s13388-018-0030-x.
KOTSIANTIS, Sotiris; PIERRAKEAS, Christos; PINTELAS, Panagiotis. Predicting students’ performance in distance learning using machine learning techniques. Applied Artificial Intelligence, v. 18, p. 411-426. 2004. DOI: 10.1080/08839510490442058.
Como citar este texto:
SANTOS, Harlon Romariz Rabelo. Três exemplos da aplicação de machine learning em pesquisa social. Blog Observare: 2020. Disponível em: https://observare.slg.br/tres-exemplos-da-aplicacao-de-machine-learning-em-pesquisa-social/. Acesso em: dia mês abreviado. ano.
1 thought on “Três exemplos da aplicação de machine learning em pesquisa social”