terça-feira, 5 de outubro de 2010

Recuperação de informação baseada em clusters

ABDALA, Carmen Verônica Mendes; Andrade, Vinícius Antônio de. Recuperação de informação baseada em clusters. Revista USP. São Paulo, n.80, p.50-61. Dez/fev 2008-2009.

Os buscadores ainda são imprescindíveis para a busca e recuperação da informação. Eles nasceram logo após o aparecimento da internet com o objetivo de coletar, organizar e mostrar os resultados da pesquisa de forma rápida e eficiente. Atualmente há uma infinidade de buscadores, tais como: Google, Cadê, Yahoo entre outros. Todos eles têm suas próprias regras para avaliar a relevância dos sites que indexa, e essa e essa relação de relevância pode ser mais bem elaborada através do esforço de quem cria o site. E neste momento que entram os padrões web, as boas práticas de desenvolvimento que permite criar uma melhor relação entre a informação compartilhada e consumida por usuários e por máquinas (como os mecanismos de busca) com meta-informação, consumida principalmente por máquinas (robôs de buscas), mas que foram criadas para serem eficientes para pessoas.

A recuperação é feita por aranhas ou web crawlers que são programas que navegam pela Internet independentemente indexando cada palavra-chave que encontram no hipertexto das páginas que analisam. Depois de indexada toda página se movem para todas as demais páginas referidas (linked) pela página indexada, reiniciando o processo a cada nova página. A função primordial das aranhas é analisar e indexar toda a Internet. São, portanto, neutras com relação ao conteúdo que analisam. Estes robôs criam os bancos de dados sobre os quais funciona grande parte dos mecanismos de buscas. Quando as aranhas buscam suas informações não aleatoriamente pelas páginas da Internet, mas por meio de consultas a outros mecanismos de buscas, dizemos que se trata de uma meta-aranha ou mecanismo de meta-busca.

Atualmente há um esforço enorme dos arquitetos de informação em organizar para o usuário no site de forma que ele fique fácil de usar e fácil de encontrar a informação que ele precisa. Em alguns casos o arquiteto de informação participa também da criação de tesauros e/ou ontologias para relacionar a informação dentro de domínios específicos de significado e as relações entre estes. E isso tudo para melhorar a encontrabilidade (findability) da informação em um web site. Isso é chamado de meta informação.

Como os buscadores são mais fáceis e ágeis para a busca e recuperação da informação, as bases de dados estão implantando recursos que permitem a apresentação dos resultados por relevância e clusterização que são tendências importantes que facilitam o encontro da informação. A clusterização é uma arquitetura que permite a classificar objetos de diferentes grupos ou a partição de um conjunto de dados em subgrupos (cluster).

A Biblioteca Virtual em Saúde (BVS) adotou em sua coleção de fontes de informação a possibilidade de ver os resultados de forma integrada, individualizada e ordenada por diferentes critérios e clusters. Este recurso permite que o usuário reduza o numero de interações para se obter o resultado final através de otimização de recursos como a redução de cliques ou menus e modelo de arquitetura compatível com os principais buscadores da internet.

Nenhum comentário: