IAHx - Recuperação de informação baseada em clusters

De Wiki REDDES

Tabla de contenidos

Resumo

Este artigo aborda a gestão de fontes de informação na Internet em busca de maior visibilidade para a informação referenciada nos Portais e Sites Acadêmicos da Internet, especialmente Bibliotecas Virtuais e OPACs (Catálogos Coletivos Online). Enfoca o desenvolvimento de interfaces de busca orientadas a facilitar o processo de recuperação da informação, com recursos de ordenamento por relevância da informação e clusterização. Considera-se o sistema iAHx de busca integrada com clusterização e a metodologia de gestão de fontes de informação da Biblioteca Virtual em Saúde e da SciELO, como exemplos.

Introdução

Nos últimos anos a Internet se consolidou definitivamente como a principal fonte para quem busca informação, seja informação acadêmica, de divulgação, comercial, de entretenimento ou de outra natureza. Para possibilitar e facilitar este processo de busca, praticamente todos os Portais e Sites da Web oferecem ferramentas, motores, mecanismos ou interfaces de busca que pretendem levar o usuário à informação desejada.

Há Sites especializados em buscar essa informação, como é o caso do Google, o buscador mais conhecido da Internet, e outros como o Yahoo, o Ask, o Lycos e, mais recentemente, o Amazon com seu mecanismo de busca A9. Os portais Buscadores surgiram logo após o aparecimento da Internet, com a intenção de prestar um serviço extremamente importante: a busca de qualquer informação na Internet, apresentando os resultados de uma forma organizada, e também com a proposta de fazer isto de uma maneira rápida e eficiente.

O que caracteriza um Site ou Portal Buscador é o funcionamento de seu motor de busca. Este motor rastreia a informação disponível na Web, periodicamente, navegando de página em página, ou de site em site, extraindo os documentos, as palavras, os termos que melhor representam a informação capturada, e então armazena os itens e dados desta informação em uma gigantesca base de dados que pode ser consultada pelos usuários através de uma interface de busca. Portanto, os Buscadores funcionam na dependência de coleções de fontes de informação não produzidas, geridas ou organizadas por eles. Sua especialidade é buscar em fontes de informação disponíveis na Internet, independente de quem provê estas fontes de informação. Assim, os buscadores se mostraram imprescindíveis para o fluxo de acesso à informação e a conquista de novos usuários e visitantes para os sites na Internet.

Comparando os Buscadores com outros tipos de Portais, sejam as Bibliotecas Virtuais, como a BVS - Biblioteca Virtual em Saúde (http://www.bvsaude.org), os Portais OPAC (Online Public Access Catalog – catálogos online de bibliotecas) como o Portal SIBI Net da USP - Sistema Integrado de Bibliotecas da Universidade de São Paulo (http://www.usp.br/sibi), ou ainda os Portais de Periódicos Científicos, como a SciELO – Scientific Electronic Library Online (http://www.scielo.org), todos têm sua interface e motor de busca com a mesma função, que é facilitar o acesso à informação, mas a diferença principal está no domínio da coleção de fontes de informação buscada. A BVS, o SIBI Net e a SciELO estão suportados, principalmente, por suas próprias coleções de fontes de informação, que são bases de dados referenciais, serviços de informação, acervos das bibliotecas, etc.

Há algum tempo não distante, podemos dizer que havia uma resistência em aceitar os Portais buscadores ou, no mínimo, uma relação de distância por parte dos provedores de Sites ou Portais acadêmicos. Por um lado tínhamos a limitação dos buscadores em localizar toda a informação disponível na Web, limitação dada pelo funcionamento do motor de busca que não alcançava aos conteúdos e informação disponíveis em páginas dinâmicas e, por outro lado, tínhamos os provedores de fontes de informação que não preparavam os seus conteúdos para serem recuperados pelos motores dos Buscadores.

Isidro Aguillo e outros autores mencionavam que os Buscadores cobriam apenas uma parte dos conteúdos e informação disponível na Web, deixando “invisível” uma parte considerável de informação correspondente ao que está em bases de dados, entre outros recursos e fontes de informação. Este cenário deveria fortalecer as interfaces de busca dos Portais Acadêmicos, que oferecem acesso à informação organizada em bases de dados, catálogos coletivos e outras fontes de informação referencial, considerada informação valiosa, até então não rastreada pelos motores de busca por não serem indexadas por estes motores.

Mas esta situação mudou e vem mudando de forma acelerada. Novos desenvolvimentos foram implementados nos motores de busca, foi criado o Google Schoolar, os recursos de apresentação dos resultados por relevância e a clusterização são tendências importantes que facilitam ainda mais a busca de informação na Internet, e, os Portais e Sites provedores de informação, em geral, passaram a organizar suas fontes de informação de forma a abrir esta informação para os diferentes motores de busca.

Amplia-se a percepção de que não basta que a informação esteja disponível na Internet, mas ela precisa ser identificada e localizada por diferentes interfaces e motores de busca. Portanto, é fundamental garantir que a informação e os conteúdos do Web Site estejam indexados e, conseqüentemente, visíveis para tantas interfaces de busca sejam possíveis.

Promovendo a visibilidade da informação

Com a percepção ampliada de que não basta que a informação esteja disponível na Internet, mas que ela precisa ser identificada e buscada por diferentes interfaces e motores de busca, é fundamental garantir que os conteúdos e informação armazenada nas coleções dos Portais ou Sites Web sejam indexados pelo Google, por outros Portais Buscadores e de serviços de informação, tantos quanto forem possíveis.

Citando o exemplo do Portal SciELO Brasil – Scientific Electronic Library Online, uma coleção de periódicos científicos brasileiros, até o ano de 2005 não era buscada pelo Google, a nível de textos completos dos artigos, embora operando em compatibilidade com o protocolo OAI (Open Archives Initiative), o que permitia livre acesso aos metadados da coleção de provedores de serviço Open Archives de todo o mundo.

A SciELO era parte da informação invisível para os Buscadores. A partir do ano de 2006, o Google Schoolar passou a indexar os artigos do Portal SciELO Brasil, graças a uma preparação dos dados que permitiu este processo. Com isso, o número de visitas ao Portal da SciELO Brasil, que em 2005 registrou uma média mensal em torno de 3 milhões de texto completo de artigos acessados, teve um incremento de 180%. Em 2008 a SciELO Brasil registra uma média mensal de 8 milhões de acessos ao texto completo de artigos, sendo que, cerca da metade destes acessos chegam via a busca no Google Schoolar.

Atualmente, um artigo SciELO pode ser recuperado por diferentes interfaces e motores de busca, inclusive pelo interface de busca do próprio Portal SciELO, como ilustrado na figura 1.

(colocar aqui a figura)

Mas, a ampliação da visibilidade da informação na Internet não é possivel sem que haja inovação e desenvolvimento nos sistemas de informação. Neste sentido, é importante que estes desenvolvimentos sejam baseados em uma arquitetura da fonte de informação e construção de redes de fontes e fluxos de informação baseadas em componentes, protocolos e processos que maximizam as possibilidades de operação na Web.

O modelo metodológico da SciELO e da Biblioteca Virtual em Saúde (BVS) aplica este conceito em uma arquitetura baseada em três camadas ou níveis separados de processamento:

- Nível dado – contém os arquivos ou bases de dados com os registros de conteúdos. Os arquivos de dados estão acessíveis e são baseados em protocolos de acesso aberto para serem indexados por diferentes buscadores (indexadores);

- Nível índice – contém os arquivos de índices para recuperação da informação (dado). Essa camada pode ser representada por diferentes indexadores aplicados aos mesmos arquivos de dados;

- Nível interface e webservices – em geral opera em páginas Web e acessa os índices para recuperação e navegação nos conteúdos. As interfaces são ilimitadas, tanto em quantidade quanto em formato de apresentação, e podem ser portáveis para navegadores Web, telefonia móvel, TV digital etc. É neste nível que se disponibiliza o dado usando protocolos padrões da Internet, como RSS, XML e OAI, permitindo a sua indexação por outros motores de busca e interfaces.

Figura 2 – Representação de uma arquitetura de informação baseada em níveis de processamento

O que caracteriza esta arquitetura de fonte de informação é a independência dos níveis, os quais podem operar em diferentes servidores, diferentes sistemas computacionais, com diferentes designs e concepção de interfaces. É o mesmo conteúdo, a mesma informação, sendo disponibilizada em diferentes produtos e serviços de informação, e visível por diferentes interfaces de busca.

A aplicação desta arquitetura para desenvolvimento de produtos e serviços, aplicações, web sites e portais, permite estabelecer mecanismos de interoperabilidade entre diferentes aplicativos e sistemas de informação, baseado na componentização, baixo acoplamento ou independência entre os componentes dos aplicativos, portabilidade, etc. Encoraja e facilita a reutilização de serviços e produtos de informação, assim como a re-fatoração ou melhoria contínua no seu desenvolvimento.

Para as Bibliotecas Virtuais, OPACs e outros Portais de Informação, esta arquitetura, especialmente o nível de webservices, não somente abre as suas coleções de conteúdos e fontes de informação para outras interfaces e motores de busca na Internet, mas possibilita o acesso integrado a conteúdos e informação disponíveis por outros provedores de fontes de informação, a partir de suas próprias interfaces de busca. Concretamente, o Portal SIBI-Net da Universidade de São Paulo pode, se quiser, incluir a coleção SciELO para ser recuperada em sua interface de busca, de forma integrada com as coleções e acervos de suas bibliotecas.

Novos recursos de busca na Internet

Conectar os usuários com o conteúdo que eles precisam, quando precisam, não é mais opcional. É uma necessidade que precisa ser atendida através das interfaces e motores de busca que operam em sites e portais da Internet.

Os usuários têm à sua disposição uma variedade e quantidade imensuráveis de fontes de informação a ser buscada na Internet, além de uma grande opção de interfaces com diferentes tipos de recursos e sofisticação nos processos. Estes usuários esperam, cada vez mais, resultados de alta qualidade para a sua busca, e interfaces que os ajude a encontrar a informação que estão procurando de maneira precisa, rápida, fácil e organizada.

Ao mesmo tempo, esta realidade coloca um novo problema para os usuários em geral, que precisam aprender a usar e a distinguir entre os diferentes tipos, qualidade e fontes de informação.

A maioria dos buscadores, sites e portais da Internet, incluindo as bibliotecas virtuais e OPACs, oferece uma interface com recursos de metapesquisa ou metabusca, o que permite o usuário submeter uma expressão de busca para ser processada em várias fontes de informação (bases de dados), simultaneamente.

Entretanto, devido aos diferentes tipos de conteúdos das fontes de informação, estruturas de campos de dados e formatos variados de apresentação da informação, uma grande parte das Bibliotecas Virtuais e OPACs ainda não apresenta o resultado desta busca de forma integrada, em uma única lista. E, outros nem sequer oferecem o recurso de metabusca. O usuário precisa entrar em fonte por fonte de informação para ter acesso à informação recuperada em cada fonte de informação. O Google e outros buscadores não têm este problema, e por esta razão, entre outras, o ambiente dos usuários de bibliotecas acadêmicas tem mudado drasticamente nos últimos anos, e os motores de busca da Internet têm se tornado a ferramenta preferível no lugar dos catálogos coletivos e bibliotecas virtuais para encontrar informação.

Tradicionalmente, o resultado de busca em serviços de informação especializada é mostrado em um ordenamento cronológico reverso (a partir da data mais recente), como padrão, com a possibilidade de ser alterado para nome de autor, título, revista ou outros campos de dados, dependendo do tipo da fonte de informação.

A hierarquização do resultado da busca por relevância foi introduzido nas interfaces de busca como recurso para ordenar a seqüência de apresentação dos registros (ou referências) na lista de resultado, representando uma tentativa de separar o joio do trigo. O algoritmo usado para fazer o ranking por relevância está concebido para determinar que documento ou documentos melhor se aproximam ao assunto representado pela expressão de busca do usuário. Os diferentes motores de busca e interfaces usam diferentes algoritmos de ranking, normalmente não revelados. Assim, pode haver diferença de ranking de um sistema para outro, dentro de um mesmo conjunto de informação, o que mostra claramente que a relevância está nos olhos de cada um dos sistemas, segundo observou Jacsó, em 2005.

A metabusca com a apresentação do resultado em uma única lista, ordenada por relevância, consolidou o sucesso dos Buscadores na Internet. Entretanto, como muitos autores já afirmaram, a evolução da Web muda este cenário constantemente e, a necessidade de melhor apresentação dos resultados recuperados em milhões, depois bilhões, de páginas Web não estruturadas e não classificadas se tornou obvia. Surge um novo recurso que contribui para a organização mais eficiente do resultado de uma busca com opções que ajudam o refinamento da busca, chamado de clustering em inglês, e de clusterização ou agrupamento em português.

A clusterização é a classificação de objetos em diferentes grupos, ou mais precisamente, o particionamento de um conjunto de dados em subgrupos (clusters). Atualmente, um dos sistemas de pesquisa com clusterização mais conhecido e aplicado é o da empresa Vivisimo. Como exemplo de aplicação de uma busca integrada, com apresentação de resultado por relevância e com clusterização, apresentamos a experiência da Biblioteca Virtual em Saúde, que tem uma interface de busca suportada pelo sistema iAHx, também inspirado no modelo de clusterização do Vivisimo.

iAHx - sistema de busca integrada com clusterização

O iAHx é um sistema de pesquisa integrada que foi desenvolvido pela BIREME com o objetivo de aperfeiçoar o mecanismo de apresentação do resultado de busca da Biblioteca Virtual em Saúde e de sua coleção de fontes de informação, possibilitando visualizá-lo de forma integrada, individualizada e ordenada por diferentes critérios e clusters.

Alguns motivos impulsionaram o desenvolvimento do iAHx. Do lado do usuário havia uma excessiva quantidade de passos (ou cliques) até chegar à informação demandada; uma curva de aprendizagem lenta em função das diferentes interfaces oferecidas para busca nas fontes de informação que fazem parte da coleção da BVS, além dos variados formatos de apresentação do resultado da busca, praticamente um formato para cada fonte de informação; e uma oferta de serviços diferenciados e não uniformizados. Do lado do provedor do Portal, um alto custo de operação e atualização dos sistemas; alta dependência do serviço de capacitação de usuários para uso eficiente dos recursos de busca oferecidos; e, principalmente, não atendia ao modelo conceitual de arquitetura da informação em 3 níveis de processamento.

Na figura a seguir é apresentado um exemplo de aplicação do sistema iAHx em uma coleção de informação bibliográfica, com os recursos de clusterização, relevância e outros.

O exemplo de busca (aleitamento materno Brasil) apresentado na figura 2 foi processado em toda a coleção da Biblioteca Virtual em Saúde, que inclui as fontes de informação destacadas no quadro ao lado direito da figura; o resultado da busca (564 referências bibliográficas) está apresentado em ordem de relevância, ou seja, os documentos que mais se aproximam da busca são mostrados nas primeiras páginas (de 10 em 10) e não por ordem de data mais recente como era no modelo anterior. Podemos notar que a primeira referência apresentada para esta busca é do ano de 2003 e a segunda do ano de 2008. O usuário tem a opção de mudar a ordem de apresentação do resultado, se desejar, para uma ordem cronológica reversa ou normal.

Ao lado esquerdo da figura está a clusterização do resultado para esta busca. Os clusters definidos para a coleção da BVS estão mostrados no quadro em destaque. A clusterização do resultado funciona basicamente para organização do resultado da busca, mas é, além disso, um recurso excelente para o refinamento da busca. Ao clicar em um dos itens de determinado cluster, por exemplo, o item “promoção da saúde” dentro do cluster assunto, antecipadamente o usuário já sabe que será apresentada uma lista de 43 documentos relacionados à esta nova busca (aleitamento materno no Brasil com o assunto promoção da saúde). O sistema novamente clusteriza e reorganiza o resultado da busca refinada (43 referências de documentos). Este processo é repetido para cada busca.

Figura 4 – Nova clusterização do resultado da busca refinada

O sistema de recuperação iAHx já está em uso em alguns Portais de serviços de informação do contexto da Biblioteca Virtual em Saúde. Basicamente as etapas do processo para a implantação do sistema considerando apresentação dos resultados de forma integrada e clusterização são:

- Seleção das fontes de informação que serão integradas no sistema e identificação dos principais elementos de dados, principais serviços que podem ser associados, etc.

- Definição da lista de elementos que serão apresentados como clusters no resultado da busca. É importante observar que os clusters não são, necessariamente, um espelho dos principais campos de dados das fontes de informação incluídas no sistema de busca. Os clusters podem ser montados em função de um conjunto de dados ou características que definem o cluster, por exemplo, pode-se apresentar um cluster por nível de evidência de um documento mesmo que este dado não esteja registrado na fonte mas possa ser gerado através da ánalise automatizada de um conjunto de elementos presentes na fonte de informação.

- Padronização dos valores de elementos comuns entre as fontes de informação, por exemplo, se todas as fontes possuem um elemento que indica qual o idioma do documento este valor deve ser padronizado, neste caso se for utilizado a norma ISO teriamos os valores "pt" para Português, "es" para Espanhol e etc.

- Conversão dos dados das fontes em formato XML seguindo um schema pré-definido. O XML resultado desta conversão deverá conter um subconjunto de metadados que serão apresentados no resultado.

- Criação de mecanismos que garantam a atualização destas fontes de informação. Por exemplo se a fonte de informação esta em servidor externo deve-se criar uma forma, de preferência automática, para a coleta periódica destes dados (harvesting).

- Indexação dos metadados: uma vez coletados os metadados em formato XML, será realizado a indexação e clusterização dos elementos. O índice resultante deste processo ficará disponível através de Webservices em um servidor central.

- Disponibilização da interface de consulta: este módulo é responsável em fazer a comunicação com os Webservices disponibilizados no processo anterior e apresentar a informação em formato de páginas Web para o usuário realizar as consultas e aplicar os filtros no valores dos clusters.

Considerações finais

Considerando o lado dos usuários que buscam informação na Web, espera-se que as interfaces de busca sejam eficientes para atraí-los para o uso dos recursos disponíveis, e retê-los para que continuem usando os recursos. (Wu LL; Chung YL; Chen PY, 2008)

De fato, a era digital traz grandes mudanças para os sistemas de recuperação de informação, para os usuários e para os ambientes onde os usuários interagem com os sistemas. Traz também desafios aos usuários para recuperar a informação de forma eficiente e atender às suas necessidades e objetivos. (Xie H - 2008)

Para o mundo das Bibliotecas Virtuais e OPACs são dois grandes desafios ou duas importantes necessidades: disponibilizar os seus conteúdos (fontes de informação) para que estejam visíveis para diferentes interfaces de busca, incluindo os Buscadores como Google, e desenvolver sua própria interface de busca para localização da informação dentro da sua coleção. (Mi J & Weng C - 2008)

Os recursos de relevância e de clusterização estão presentes nos novos desenvolvimentos de interfaces de busca na Web, mas há um grande espaço para aprimoramento e inovações. A aplicação de clusters no processo de busca ainda está muito limitado à estrutura dos campos de dados das fontes de informação. Entretanto, podemos determinar outros clusters de acordo com a área temática da coleção de fontes de informação buscada, ou ainda, permitir que o próprio usuário defina os clusters de seu interesse. Certamente veremos estas inovações em muito pouco tempo.

Para os Portais e Sites Acadêmicos brasileiros, principalmente as Bibliotecas Virtuais e OPACs, é importante definir uma nova arquitetura para suas fontes de informação, com integração a partir de recursos de busca e navegação que se aproximam dos recursos utilizados pelos Sites e Portais Buscadores.

Bibliografia

AGUILLO, Isidro. Internet invisible: Los contenidos son la clave. CINDOC-CSIC, 2003. http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf

Wu LL; Chung YL; Chen PY (set 2008) - Motivation for using search engines: a two-factor model. J Am Soc Information Sci Technol, vol 59 n 11, pp 1829-1840.

Xie H (jun 2008) – Shifts in information-seeking strategies in information retrieval in the digital age. A planned-situational model. Information Research - an International Electronic Journal, vol 13 n 2, pp 22.

Mi J & Weng C (mar 2008) – Revitalizing the library OPAC: interface, searching, and display challenges. Information Technol Libraries, vol 27 n 5, pp 5-22.

Jacsó P. (2005). As we may search – comparison of major features of the Web of Science, Scopus, and Google Schoolar citation-based and citation-enhaced databases. Current Science, vol 89 N 9, pp 1537-47, (available at: www.ias.ac.in/currsci/nov102005/contents.htm )

Jacsó P. (2007) – SAVVY Searching – clustering search results. Part I: web-wide search engines. Online Information Review, vol 31, n 1, pp 85-91.

Jacsó P. (2007) – SAVVY Searching – clustering search results. Part II: search engines for hihhly structured databases. Online Information Review, vol 31, n 2, pp 234-241.

Espadas J, Calero C, Piattini M. (set 2008) – Web site visibility evaluation. J Am Soc for Information Science and Technology, vol 59 n 11, pp 1727-1742

Koshman S., Spink A., Jansen BJ. (dec 2006) – Web searching on the Vivisimo search engine. J Am Soc. Information Sci Technol. Vol 57, n 14, pp 1875-1887

Herramientas personales