O que são Arquivos XML?

Fonte: https://www.revistas.usp.br/wp/noticias/o-que-sao-arquivos-xml/

O que são Arquivos XML?

Reproduzimos aqui trechos da matéria sobre Arquivos XML publicada pelo PUB IN [1] – Portugal, para melhor compreensão do tópico.

Antes de iniciarmos a marcação de texto em formato JATS-XML é essencial percebermos do que se trata.

Certamente o XML é uma expressão que é mais reconhecida pela comunidade. Por isso, iniciamos esta caracterização a partir da definição de XML.

O XML (Extensible Markup Language) é uma linguagem de marcação, que pode abarcar vários formatos. Um desses formatos é o JATS (Journal Article Tag Suite), que é a norma ISO Z39.96 e define um conjunto padrão de tags para marcar os metadados e o conteúdo dos artigos de revistas científicas. Por outras palavras, o JATS é um padrão internacional e aberto de comunicação científica que define o conjunto de elementos e atributos e identifica detalhadamente as estruturas, elementos bibliográficos, tabelas, textos, fórmulas, etc, que compõem os artigos, enriquecendo desta forma a semântica dos mesmos.

Esta norma define 3 modelos no JATS, denominados “Tag Sets”, para abarcar todo o ciclo de vida de um artigo, nomeadamente:

Componentes do JATS-XML

Um arquivo JATS-XML assume a seguinte estrutura:

  1. Front Matter (<front>) – associado aos metadados da revista e do artigo, nomeadamente, título da revista e título do artigo, autores e identificadores.
  2. Body Matter (<body>) – relativo a narrativa do artigo, o que inclui os parágrafos, as secções, figuras e gráficos, tabelas, equações e citações.
  3. Back Matter (<back>) – integra as notas, referências bibliográficas, apêndices e anexos.

Um arquivo JATS-XML é composto por tags, elementos e atributos. As tags são o conjunto de caracteres que formam um elemento, isto é, servem para marcar onde começa e termina o elemento. O elemento, por sua vez, é substantivo. Um atributo é utilizado para qualificar ou complementar a informação marcada pelo elemento que pertence. Para exemplificar vejamos o esquema seguinte:

Além de perceber os componentes do JATS-XML é também importante conhecer algumas regras básicas de aplicação, nomeadamente:

  • as letras minúsculas e maiúsculas são diferentes, isto é, a tag <p> é diferente da tag <P>;
  • a forma como abrimos um elemento, isto é, a tag de início, é a mesma que devemos utilizar para o fechar, sob o risco de o XML não considerar que o elemento foi fechado. Exemplo: se abrimos o elemento com <p> será fechado com </p>;
  • um elemento aberto dentro de outro tem de ser fechado antes do primeiro, isto é, se o elemento p foi aberto antes do elemento b, o p só pode ser fechado após o b. Exemplo: <p><b>Plataforma Integrada</b></p>.
  • os valores dos atributos surgem entre aspas duplas. Exemplo: <musica genero=”rock”>.

Vantagens da adoção do XML

A adoção do JATS-XML tem vindo a ser um requisito de indexação nas diferentes bases de dados e serviços externos e isto acontece porque se reconhece as vantagens que este formato acarreta, nomeadamente:

  • é um formato que é processado por máquinas e legível por humanos;
  • viabiliza a automatização dos processos, ao permitir a extração dos textos marcados e os metadados do artigo, como títulos, autores, resumos, palavras-chave, data de submissão e data de aceitação, que o identificam, e das referências bibliográficas que permitem efetuar cálculos de indicadores bibliométricos;
  • aumenta o número de leitores e o factor de impacto, já que os artigos publicados em JATS-XML podem ser processados por máquinas e pesquisáveis o que significa que podem ser acedidos, lidos e indexados pelos mecanismos de pesquisa. Assim, sempre que alguém pesquisar por uma palavra-chave que se encaixa no conteúdo do artigo, o mesmo aparecerá nos resultados de pesquisa.
  • a marcação do JATS é estrutural ou semântica e declarativa, o que facilita o processamento dos artigos;
  • sendo o JATS projetado para artigos, é um formato ajustável a forma como as revistas e os pré-prints são publicados;
  • há documentação variada disponível online sobre o conjunto de tags, com explicações e exemplos, assim como, várias recomendações de práticas;
  • existência de ferramentas para controlar a qualidade e para produção do ficheiro de saída disponíveis gratuitamente: texture, github, entre outros;
  • facilmente personalizável;
  • assume um padrão dinâmico, pelo que os editores e utilizadores podem solicitar novos recursos e alterações, através do site www.niso.org/standards-committees/jats.
  • o formato JATS-XML garante que os arquivos sejam legíveis ao longo do tempo, independentemente dos avanços tecnológicos, possibilitando a preservação digital;
  • interoperabilidade ao possibilitar a reutilização por vários sistemas;
  • capacidade de extração de vários formatos (html, pdf, epub) e de apresentação em diversos dispositivos, o que reduz custos e tempo de produção.

==REFERÊNCIA ==

[1] PUB IN. Informações Básicas sobre JATS-XML. Junho 2020. Disponível em: https://www.pubin.pt/apoio/o-que-e-jats-xml/ Acesso em: 14 abril 2021.

NOTA: O projeto Pub In, desenvolvido pela Universidade do Minho (UM) em colaboração com a Unidade de Computação Científica Nacional da Fundação para a Ciência e a  Tecnologia (FCT/FCCN) de Portugal, surge com o propósito de dar resposta à situação atual da publicação científica em Portugal, que se caracteriza pela gestão verticalizada ao nível da oferta de serviços editoriais (revistas científicas), pela insuficiente interoperabilidade entre si e outras plataformas de gestão editorial, não esquecendo a sua obsolescência, bem como pelo défice de competências de gestão editorial. Link: https://www.pubin.pt/sobre-2/