O que são metadados
Os metadados são marcos ou pontos de referência que permitem circunscrever a informação sob todas as formas, pode se dizer resumos de informações sobre a forma ou conteúdo de uma fonte.
O prefixo “Meta” vem do grego e significa “além de”. Assim Metadados são informações que acrescem aos dados e que têm como objetivo informar-nos sobre eles para tornar mais fácil a sua organização.
Os metadados têm tradicionalmente sido vistos como separados do núcleo duro da informação, ou seja a que está relacionada com as transações de negócio. O que não quer dizer que não sejam importantes. Definições e regras de negócio, detalhes de segurança, informação de domínios, tags XML são metadados.
Desde tempos antigos que esse tipo de informação é usada para classificar, organizar e pesquisar. Na antiga Suméria as placas de argila eram identificadas por fios coloridos conforme o tipo e arrumadas em prateleiras com indicações escritas ao lado. Os escribas romanos atavam molhos de documentos relacionados, etiquetavam-nos e penduravam-nos do teto!
O que agora é diferente é que a informação é eletrônica, dispersa e cresce a uma velocidade exponencial.
Exemplo de metadados no universo da gestão de arquivos baseada em papel: localização física, n.º de caixa, etiqueta de pasta, sistema de classificação. No mundo da imagem documental podem incluir tipo de documento, data, entidades com que se relaciona. Exemplos para a gestão documental poderiam ser autor, data, assunto, tipo de documento, n.º de versão.
A sua utilização estende-se no entanto a outros campos além da gestão documental. Por exemplo a tecnologia conhecida por “data warehouse” consiste em extrair e consolidar dados de múltiplas fontes numa base de dados que possa ser consultada de várias maneiras pelos utilizadores com ferramentas de suporte à decisão. Os metadados são neste contexto um instrumento essencial para a gestão do repositório e incluem informações como lista de conteúdo, origem dos dados, transformações (como filtragens ou cálculos efetuados na transferência para a localização atual), versão, modelos de dados,etc.
Os metadados podem ser estruturados ou não estruturados. Exemplo de não estruturados: o índice produzido por um sistema de indexação e pesquisa em texto integral. Estruturados são por exemplo um sistema de classificação de arquivo ou o dicionário de dados de um SGBD. Outro exemplo é a EDI que não poderia funcionar, com uma circulação diária de milhões de documentos entre empresas de todo o mundo se não fossem seguidos standards rigorosos de identificação dos chamados “transaction sets”.
No âmbito da Gestão Documental há uma distinção a fazer entre índices e metadados. Num sistema de indexação por descritores, os dados de índice são geralmente uma parte dos metadados. Num sistema de texto integral em que todos as palavras são parte do índice, este é muito mais vasto do que aqueles.
Podemos considerar que os metadados são instrumentos para a busca e recuperação da informação mas, no caso dos documentos têm uma função adicional do ponto de vista arquivístico: atender aos requisitos de administração, como por exemplo a determinação do ciclo de vida e portanto o prazo de retenção dos documentos, base para decisões sobre localização e meio de armazenamento, migração, etc.
Digamos que os metadados têm que ver mais com a gestão de registos “records management” e os índices com o acesso à informação. Ambos podem no entanto ser captados numa mesma fase das operações, normalmente designada de indexação. Esta é tradicionalmente a operação que ao longo do tempo fica mais cara em qualquer sistema de arquivo ou gestão documental quando feita manualmente. Para reduzir esses custos há várias técnicas que podem ser usadas.
- a leitura de OCR e/ou códigos de barras para documentos com origem em papel
- a captura de informação de cabeçalho dos documentos HTML ou tags de documentos XML
- a utilização de sw de classificação automática, especialmente interessante para e-mail
Finalmente não esquecer as potencialidades da integração com os sistemas “Line-of-Business” como os ERP pois em muitos casos os metadados necessários para a gestão dos documentos já existem nas bases de dados dessas aplicações e podem ser automaticamente capturados.
Aliás essa integração deveria ser sempre avaliada ao estabelecer um Plano de Arquivo e de Gestão Documental.
As tecnologias de Gestão de Documentos em forma eletrônica convergem: imagem, gestão documental, gestão de registos e arquivo, COLD/ERM e e-mail são cada vez mais componentes de soluções integradas ou são ligados a aplicações “line-of-business” . O que não é óbvio é que ocorra paralelamente uma integração dos metadados e esse é um dos importantes desafios que a industria enfrenta ao pretender ir ao encontro de uma estratégia ao nível empresarial. (*)
Os metadados descritos por Dublin Core podem ser definidos como conjunto de elementos de metadados planejados para facilitar a descrição de recursos eletrônicos. Eles são desenvolvidos a partir e em função de dados, por isto que é designado como “dados sobre dados” ou “informação sobre a informação”.
A ferramenta de Dublin Core é uma das que oferecem ampla oportunidade de uso para descrição de vários tipos de recursos envolvendo os mais variados formatos de documentos. As Instituições envolvidas na organização da informação em ambiente web, como a construção de bibliotecas digitais, base de dados, portais e sites, entre outros serviços, estão a deparar-se com a necessidade de implementar padrões de descrição de seus recursos eletrônicos.
A importância dos metadados para a web semântica está basicamente ligada à facilidade de recuperação dos dados, uma vez que estes terão um significado e um valor bem definidos. Nesse sentido, todos os documentos publicados na web devem ser catalogados.
A ficha catalográfica de uma obra (os metadados que serão acrescentados a ela) é um registo eletrônico que contém descrições desta e que permitem que se saiba do que se trata sem ter que se ler ou ouvir todo o seu conteúdo. O registo seria uma representação da obra. (#)
(*) http://www.dotecome.com/infoimagem/infoimagem/info35/35art3.htm(#) http://dublincore.org/metadata-basics/