Importação de documentos/metadados via procedimento tipo "batch"

De Wiki REDDES

Tabla de contenidos

Objetivo:

Importar uma quantidade grande de documentos no DSpace sem o uso da interface gráfica.

Biblioteca:

DSpaceImport.jar

Processo:

  1. Gerar uma árvore de diretórios contendo os documentos/metadados a serem importados com o programa br.bireme.dspace.imp.GenFileTree
  2. Importar a árvore de diretórios no DSpace com o programa br.bireme.dspace.imp.ImportTree.

Geração da árvore de diretórios

O DSpace requer a existência de uma estrutura de diretório específica para a importação local de documentos e metadados. Esta estrutura é composta de um diretório raiz (por ex: SimpleArchiveFormat) que contém tantos subdiretórios quantos forem os documentos a serem importados (1 diretório para cada arquivo).

Cada subdiretório usualmente contém 3 arquivos: o documento a ser importado, um arquivo texto nomeando os arquivos a serem importados (contents.txt) - usualmente um e um documento xml contendo os metadados (dublin_core.xml).

                                              SimpleArchiveFormat
                                                 |      |     |
                                                 |      |     |
                                               item_1 item_2 item_3
                                                        |
                                                      | | |
                                               fig1.jpg | dublin_core.xml
                                                        |
                                                      contents
 java -cp <path_to_library> br.bireme.dspace.imp.GenFileTree <inputdirs> 
                                                             <extension>[,<extension>] 
                                                             <outputdir> 
                                                             [--encoding=<str>] 
                                                             [--recursive]

onde:

<inputdirs> - conjunto de diretórios contendo os documentos a serem importados. Os diretórios devem ser separados por vírgulas.
<extension>[,<extension>] - extensões dos arquivos a serem importados separadas por vírgulas.
<outputdir> - diretório que conterá o diretório raiz SimpleArchiveFormat.
[--encoding=<str>] - codificação em que estão os nomes dos documentos. Parâmetro opcional.
[--recursive] - indica se a busca por documentos deve ser recursiva ou não. Parâmetro opcional, por padrão, a busca não é recursiva.

Importação da árvore de diretórios

 java -cp <path_to_library> ImportTree <inputDir> 
                                       <eperson> 
                                       <collectionHandle>

onde:

<inputDir> - diretório que contém o diretório raiz SimpleArchiveFormat
<eperson> - email do usuário do DSpace com permissão de escrever na coleção
<collectionHandle> - handle da coleção (previamente criada) que conterá os documentos a serem importados
Herramientas personales