Friday, July 27, 2012
¿Cómo los motores de búsqueda de trabajo: Rastreo + indexación
Un motor de búsqueda funciona, en el siguiente orden: 1) Rastreo, 2) Rastreo Profundo La búsqueda en profundidad (DFS), 3) Rastreo fresco Búsqueda primero en amplitud (BFS), 4) de indexación; 5) Búsqueda.
Motores de búsqueda de trabajo mediante el almacenamiento de información sobre un gran número de páginas web, que se recupera de la propia WWW. Estas páginas son recuperadas por un rastreador web (también conocido como araña) - un navegador web automatizado que sigue cada vínculo se ve, las exclusiones se pueden hacer mediante el uso de robots.txt. El contenido de cada página son analizados para determinar la forma en que deben ser indexados. Los datos sobre las páginas web se almacena en una base de datos de índice para su uso en consultas posteriores. Algunos motores de búsqueda, como Google, almacenar toda o una parte de la página de origen (en adelante, una memoria caché), así como información sobre las páginas web, mientras que algunas tiendas cada palabra de cada página que encuentra, tales como AltaVista. Esta página en caché siempre contiene el texto real de la búsqueda, ya que es la que se indexan en realidad, por lo que puede ser muy útil cuando el contenido de la página actual se ha actualizado y los términos de búsqueda ya no están en ella.
Este problema puede ser considerado como una forma leve de linkrot, y el manejo de Google de que aumenta la facilidad de uso para satisfacer las expectativas del usuario que los términos de búsqueda será en la página web devuelta. Esto satisface el principio de mínima sorpresa ya que el usuario normalmente espera que los términos de búsqueda que en las páginas devueltas. Una mayor relevancia de búsqueda hace que estas páginas en caché muy útil, incluso más allá del hecho de que pueden contener datos que pueden no estar disponibles en otros lugares.
Cuando un usuario entra al motor de búsqueda y hace una consulta, por lo general dando a las palabras clave, el motor busca el índice y provee una lista de páginas web mejor juego de acuerdo a su criterio, por lo general con un breve resumen que contiene el título del documento y, a veces partes del texto. La mayoría de motores de búsqueda reconocen el uso de los términos booleanos AND, OR y NOT para especificar aún más la búsqueda. De una función avanzada de búsqueda de proximidad, que permite definir la distancia entre las palabras clave.
La utilidad de un motor de búsqueda depende de la relevancia de los resultados que da la espalda. Si bien puede haber millones de páginas Web que incluyen una palabra o frase en particular, algunas páginas pueden ser más relevantes, popular, o de autoridad que otros. La mayoría de los motores de búsqueda emplean métodos para clasificar los resultados para el "mejor" los primeros resultados. ¿Cómo un motor de búsqueda decide qué páginas son las personas más afines, y en qué orden los resultados deben consignarse en, varía mucho de un motor a otro. Los métodos también cambian con el tiempo como los cambios de uso de Internet y las nuevas técnicas evolucionan.
La mayoría de los motores de búsqueda en la web son empresas comerciales con el apoyo de los ingresos por publicidad y, como resultado, algunas emplean la práctica controversial de permitir a los anunciantes pagar dinero para que sus listas un puesto más alto en los resultados de búsqueda.
La gran mayoría de los motores de búsqueda están a cargo de empresas privadas que usan algoritmos propios y bases de datos cerrados, los más populares actualmente en Google, MSN Search y Yahoo! Search. Sin embargo, la búsqueda de fuente abierta la tecnología de motores no existe, como Dig, Nutch, Señas, Egothor, OpenFTS, DataparkSearch, y muchos otros.
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment