Escola Politécnica da USP

usp.br

  • Aumentar tamanho da fonte
  • Tamanho da fonte padrão
  • Diminuir tamanho da fonte
Início Comunicação Notícias Doutorado do PCS propõe alternativas para a gestão de dados científicos

Doutorado do PCS propõe alternativas para a gestão de dados científicos

Diante do aumento do número de informações propiciadas pela internet, pesquisa busca ajudar no reuso de dados.

 

Os doutorandos do Departamento de Engenharia de Computação e Sistemas Digitais (PCS – Poli) Daniel Lins da Silva e André Batista, orientados pelo professor Pedro Luiz Pizzigati Corrêa, desenvolveram o trabalho intitulado “Data Provenance in Environmental Monitoring” (Proveniência de Dados no Monitoramento Ambiental), em que propõem um conjunto de sistemas para facilitar o reuso dos dados científicos gerados em pesquisas. O sistema proposto foi construído no contexto das pesquisas ambientais, mas sua aplicação pode ser considerada em variadas áreas do conhecimento.

“Nos últimos dez anos, com os avanços tecnológicos, houve geração de grande volume de dados — o chamado ‘dilúvio dos dados’, gerados por diferentes experimentos científicos”, explica Silva. Ele afirma que a abundância dos dados gera a necessidade de adequação dos processos e ferramentas computacionais utilizados pelos pesquisadores.

Para isso, o estudo propõe uma estratégia para a gestão da chamada proveniência dos experimentos científicos. Proveniência é o registro de todos os passos para criação ou manipulação de um conjunto de dados.

Silva destaca a importância de se conhecer a origem do dado e sua versão original, o “dado bruto”. No entanto, ele pontua que até a publicação de um estudo, este “dado bruto” é manipulado e processado diversas vezes. Dessa maneira, a confiabilidade da informação publicada com o objetivo de reutilização fica ‘desgastada’, pois não se conhece exatamente o processo que a gerou e nem os envolvidos no mesmo.

É nesse ponto que surge a proveniência: ela disciplina o processo de manipulação dos dados e permite ao pesquisador registrar o que foi feito. “Com a proveniência, avalia-se o dado e garante-se que ele tem confiabilidade e qualidade necessária para ser reutilizado”, diz Silva. Assim, torna-se possível o reuso dos dados já gerados.

Não se trata apenas de agilizar o processo científico, mas também de economizar recursos financeiros. “Se um grupo [de pesquisa] não tiver informações suficientes para garantir que um dado [já publicado] é de qualidade, ele vai preferir gastar mais um ano, mais alguns milhões para gerar o mesmo dado, que já existe, mas com a certeza de que ele é correto. [...] E isso é o que mais acontece hoje”, pondera Silva. “A partir do momento que se aumenta o reuso dos dados, evita-se que sejam gastos mais recursos para coleta de dados já disponíveis”, prossegue.

Premiação

O trabalho ganhou um prêmio como melhor artigo no 1º International Workshop on Data Science for Internet of Things, do 13th IEEE International Conference on Mobile Ad Hoc and Sensor Systems 2016, realizado em Brasília, em outubro.

André Batista considera que o trabalho antecipa um gargalo que os pesquisadores de ciência dos dados em Internet das Coisas logo vão enfrentar e, além disso, propõem uma estratégia para lidar com ela. “Enquanto a maioria dos artigos se preocupava com a geração e coleta dos dados, o nosso trazia a problemática diferente, a da gestão. Falamos em como se tratam os dados coletados e processados, para garantir o reuso destes dados. Então acreditamos que esse foi o diferencial para eles premiarem o trabalho.”

Daniel Lins da Silva ainda afirma que o prêmio mostra que a pesquisa tem relevância, e que eles estão no caminho certo. “O reconhecimento desta pesquisa é importante para nosso grupo de pesquisa, pois buscamos realizar estudos relevantes, que gerem resultados práticos tanto para a comunidade científica quanto para a sociedade”, conclui o pesquisador.

 

(Lázaro Campos Júnior | Jornalismo Júnior, com edição do Departamento de Comunicação da Poli).