La disponibilidad de una creciente capacidad de computo y de memoria ha propiciado el desarrollo de la tecnología de búsqueda de información a partir de términos. El paradigma es google, que se ha convertido en la puerta de entrada al inmenso repositorio de información parcialmente estructurada que es Internet.
Extendiendo este modelo, se están desarrollando sistemas que plantean los sistemas de recuperación de información a partir de términos como interfaces de acceso a grandes bases de datos con información estructurada. Imaginemos que todas las bases de datos de una gran corporación, o de la Administración, sirviesen de fuente para generar los índices inversos de un sistema de recuperación de los objetos de una base de datos tradicional (tablas, atributos, y valores), y que deseamos encontrar si un determinado número de teléfono figura en el repositorio. Con un enfoque tradicional buscaríamos en el catálogo de la base de datos los campos susceptibles de contener un número de teléfono, y lanzaríamos consultas SQL para ver si figura el valor objetivo. Sin embargo, situando un motor de búsqueda que tenga los términos de los valores de todos los campos y de todas las tablas, como índices, y con la tecnología de los buscadores actuales, en cuestión de milisegundos tendremos una referencia a los objetos de la base de datos que contengan dicho valor, en nuestro ejemplo el teléfono.
Este blog nace con el objetivo de recoger información de iniciativas y proyectos que aborden el problema de la sobrecarga de información en el acceso a grandes bases de datos estructuradas mediante la utilización de la tecnología desarrollada en el ámbito de los sistema de recuperación de información.
lunes, 16 de abril de 2007
Indexación por términos y datawarehouse
Etiquetas:
Datawarehouse,
Information Retrieval,
OLAP,
Vectorial Term Theory,
VLDB
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario