Big data: Ciência busca mecanismos para garantir a qualidade das informações

No Brasil, uma pesquisa da Poli-USP definiu as bases de um software que ajudará na triagem das informações sobre biodiversidade.

Transformar a big data em uma ferramenta útil para a Ciência é o sonho de pesquisadores do mundo todo. No Brasil, uma das propostas neste sentido foi trabalhada pelo cientista da computação Allan Koch Veiga, em seu doutorado na Escola Politécnica da Universidade de São Paulo (Poli-USP). Ele desenvolveu um framework que irá possibilitar o desenvolvimento de softwares para facilitar a triagem das informações sobre biodiversidade coletadas por cientistas nos grandes bancos de dados.

“Este framework é um arcabouço conceitual usado para resolver um problema específico. Neste caso, precisávamos criar mecanismos que apontassem eventuais problemas de qualidade para que a informação pudesse ser gerida da melhor forma”, conta Veiga. O desafio não foi pequeno pois há várias décadas pesquisadores do mundo inteiro vêm armazenando e compartilhando informações sobre biodiversidade. “Temos hoje algo em torno de 800 milhões de registros de espécies, digitalizados e disponibilizados para qualquer pessoa usar”, conta.

É válido ou não? – Diante deste universo, o primeiro esforço da pesquisa foi investigar a forma como essas informações são compartilhadas pela comunidade científica nos bancos de dados. “A padronização, contudo, não consegue estabelecer a qualidade da informação. Ela define como deve ser expresso o nome científico de uma espécie, mas não indica ou verifica se o nome inserido pelo pesquisador no banco de dados está grafado corretamente”, exemplifica. Surgiu, então, o verdadeiro desafio da pesquisa.

“O problema inicial era justamente saber o que é qualidade de dado para um cientista”, diz Veiga. “Cada um tinha um conceito para alta e baixa qualidade, então tive de partir dessa definição conceitual para continuar o projeto, e cheguei

à constatação de que a qualidade é algo relativo, que varia de acordo com os objetivos da pesquisa, ou seja, depende de como o dado será utilizado”, prossegue.

Um dado, por si só, não pode ser classificado como de baixa ou alta qualidade porque pode ser útil para um determinado estudo e não servir para outro. Se um biólogo está fazendo a modelagem de distribuição de espécie, por exemplo, ele precisa saber exatamente onde a espécie ocorre, ou seja, é necessário ter as coordenadas geográficas. Mas se o pesquisador está apenas tentando descobrir se uma espécie ocorre dentro de um país, não há necessidade de saber as coordenadas.

Na prática – Como não é possível saber qual a necessidade de cada usuário individualmente, em seu framework Veiga desenhou um conjunto de ferramentas que poderão dar a resposta sobre a qualidade das informações, tanto para quem gera o dado como para quem consulta.

Para quem gera o dado, as ferramentas forneceriam um relatório que indicaria quando uma informação tem baixa qualidade e precisa ser aprimorada ou corrigida. Para quem consulta, as ferramentas trariam, por exemplo, todos os registros da espécie pesquisada, identificando quais são de alta qualidade e de baixa. “Isso será sinalizado para o pesquisador, e caberá a ele decidir se fará ou não o uso daquela informação. Além disso, o pesquisador pode alertar ao gerador do conteúdo se houver problemas na informação, como um erro de grafia ou ausência de coordenadas geográficas”, explica.

O framework já foi validado por Veiga. Parte do seu doutorado foi feita na Universidade de Harvard (EUA), onde ele aplicou a inovação em uma base de dados sobre biodiversidade. Nela, ele pode observar quais eram os dados de baixa e alta qualidade existentes nesse banco de dados. Hoje há uma negociação em curso para que seu framework seja implantado no banco de dados sobre a biodiversidade do Brasil, o Sistema de Informação Sobre a Biodiversidade Brasileira (SiBBr).

“Tínhamos pesquisas prévias que já apontavam para esse gargalo, mas Veiga colocou isso de forma clara, interessante, na forma de framework. Foi uma forma inovadora de lidar com o problema”, elogiou o orientador da pesquisa, Antonio Mauro Saraiva, docente do Departamento de Engenharia de Computação e Sistemas Digitais.

Sobre a pesquisa – A pesquisa de Veiga, intitulada “A conceptual framework on biodiversity data quality” foi realizada no âmbito do Núcleo de Pesquisa em Biodiversidade e Computação (BioComp), grupo multidisciplinar sediado na Poli. Para estudar o problema, Veiga dialogou com grupos de pesquisa de diversos países e se debruçou sobre a Global Biodiversity Information Facility (GBIF), um hub sediado na Dinamarca que concentra informações de bancos de dados sobre biodiversidade de vários países. O GBIF trabalha em parceria com outras organizações, como a Biodiversity Information Standards (TDWG), responsável por criar os padrões sobre os dados de biodiversidade. O trabalho deu origem a um artigo na PLOS, que pode ser lido na íntegra aqui.

Com as tags antonio-mauro-saraiva-64, noticias-gerais

ESCOLA POLITÉCNICA

FORMANDO ENGENHEIROS E LÍDERES

Big data: Ciência busca mecanismos para garantir a qualidade das informações

Menu

Acesso rápido