sábado, julio 26, 2008

Google tiene 1 Trillon de paginas indexadas... ¿Cuál es el secreto de este suceso?

Ayer (Viernes 25 de Julio 2007) a en la mañana, el blog oficial de Google anuncio que este motor de búsqueda tan popular alcanzo un trillon (1,000,000,000,000) de URL's únicas de Internet almacenadas en sus sistemas.

No es solo imponente la cantidad de información que Google tiene "indexada" (indexed) en su base de datos, sino que también la cantidad es intimidante para los motores de búsqueda que desean competir con Google. Uno de los detalles más interesantes de esa entrada (en el blog de Google) es que ellos realmente no saben cuantas paginas "tiene" Internet, solo han llegado a 1 trillon de paginas únicas, pero ellos siguen revisando cada pagina, y almacenando y siguiendo cada URL que encuentran sucesivamente.

"¿Me darian $1 por cada URL que tiene Google indexado?"

Lo mas interesante quizás, es que las URL's son Infinitas, haciendo que encontrar paginas web únicas, sea algo realmente dificil de encontrar.
¿Por que las URL son infinitas? Imagínate un calendario web, que por cada día del mes tiene un URL para el día siguiente y el día anterior, si estamos en el día lunes, y seguimos el URL para el día siguiente obviamente caemos en el día martes, pero martes tiene un URL para el día anterior y otro para el día siguiente, si seguimos el URL para el anterior caemos en lunes, y podemos seguir nuevamente el del día siguiente.... eeeeeennnn fin, el ejemplo es claro, ciertas URL's son infinitas y no todo lo que esta en la web puede ser indexado. Tampoco se indexaran páginas que no sean útiles, como paginas de error 404 por ejemplo, mucho depende de la utilidad/calidad del contenido que se encuentra en la pagina web... pero eso también es dificil de definir.

¿Cuantas paginas web únicas tiene Internet?, nadie sabe... ni la misma gente de Google. Lo que si se sabe es que la cantidad de información y contenido crece a un ritmo exponencial. Pero eso no detiene a Google, porque su objetivo siempre ha sido "indexar toda la información mundial". Siempre y cuando Google honre esa meta no dejara de crecer nunca.
Por eso mismo, otro punto interesante del logro de Google, es la calidad o mas bien, la escalabilidad de su sistema de búsqueda e indexado. Es admirable que aun con 1 trillon de URL únicas, realizar una búsqueda Google tarde apenas un par de milisegundos. ¿Se han fijado que casi todos los productos de Google son algún tipo de "plataforma"? por ejemplo: Google (el buscador) es una plataforma para anuncios (Adsense). Para que los productos de Google sirvan como una plataforma, siempre hay que pensar en "Escalabilidad": ¿Como hago para que mi producto/sistema, tenga oportunidad para crecer y adaptarse?.
Ese es el secreto de este suceso:
"La escalabilidad hace que un sistema tenga éxito, siempre."

Sunsetting Sr. Byte.

El Sr. Byte ha estado más de 5 años inactivo. Digamos que estaba en " code freeze ". Pero ahora es el último release. Quizas no...