Milhões de pessoas usam o Google a cada hora para encontrar as informações das quais precisam. E ele sempre acerta. Como isso pode ser possível? Usamos o Google, mas como ele funciona? O que está por trás do melhor buscador do mundo?
Esse artigo é resultado de uma pesquisa detalhada sobre o algorítimo PageRank. Evitamos ao máximo a matemática para que todos possam entender.
1. Os artigos acadêmicos
Ao defender uma idéia, você precisa de argumentos. Caso contrário, sua idéia terá pouco valor ou será pouco aceita. Esses argumentos são, em sua maioria, outras idéias, já comprovadas.
Da mesma forma, outras pessoas poderão utilizar a sua criação como base. É assim o tempo todo na ciência. Os artigos contém citações de outros trabalhos, usados como argumentos. E também são citados por outros pesquisadores. É como se fosse uma teia. E você pode saber o quão popular é seu trabalho através do número de pessoas que se refere a ele. Com os sites acontece a mesma coisa.
2. As páginas da web
Larry e Sergey, fundadores da Google, perceberam que é relativamente fácil saber para onde sua página (ou artigo) aponta. Basta lê-la! O desafio é saber quem aponta pra você.
O problema é praticamente impossível de ser resolvido no mundo real dos artigos acadêmicos. Mas na Internet a coisa muda, pois os sites estão repletos de links. Bastaria "ler" uma página automaticamente e sair seguindo esses links, como um robô. E eles levariam a outras páginas, que levariam a outras, e outras... Em pouco tempo você poderia ter a Internet inteira em casa e poderia saber quem andou citando aquele seu site sobre ovelhas.
Juntos, os dois amigos criaram um utilitário, de nome Backrub. A função dele era vasculhar a rede mundial procurando links. Ainda não havia busca.
Devido à falta de recursos, o Backrub foi obrigado a rodar em computadores de todo o tipo, por isso se tornou extremamente estável. O hardware de baixo custo acabou se tornando uma vantagem, pois muitos computadores "fracos" unidos em cluster se mostraram mais eficientes do que as supermáquinas das "concorrentes". E mais baratos.
3. A Busca
Satisfeitos com seu "monstrinho" (que consumia quase toda banda de internet da universidade), os amigos viram que ele poderia ir além. Larry Page criou um pequeno algorítimo, que buscava por palavras apenas nos endereços das páginas. Na época, quem dominava o mercado de busca era o AltaVista. Ele procurava por termos em toda página. Surpreendentemente, os resultados do BackRub quase sempre eram mais relevantes!
O Algorítimo evoluiu, e se tornou o que hoje é conhecido por PageRank. E uma curiosidade: ao contrário do que muitos pensam, a patente do PageRank pertence à Stanford, não à Google.
4. O ataque dos spammers
A medida que o Google crescia e ganhava popularidade, aumentava a disputa por boas posições nos resultados de busca. O spam de links - nome dado à prática de obter links para ganhar destaque em buscadores - crescia à medida que sites falsos eram criados se aproveitando de uma falha crucial no PageRank, que dava o mesmo valor a todos os links. Na prática, isso significava que ter seu site em destaque no www.google.com e tê-lo em uma home-page desconhecida correspondiam à mesma coisa.
O PageRank também falhava por precisar de um banco de dados completo, com todas as páginas da web, para funcionar. De tempos em tempos era preciso atualizar os servidores da Google para só então calcular a nova pontuação (ou o novo PageRank) de cada site. Uma clara desvantagem em uma Internet que muda a cada segundo.
5. O Google contra-ataca
Pouco a pouco, a sabotagem estava acabando com a qualidade dos resultados. A resposta veio em dois nomes: Freshbot e Hilltop.
O Freshbot foi uma nova versão do robô responsável por percorrer a web. Com a inovação, os sites passaram a ser adicionados à busca de forma ininterrupta. Inicialmente, os freshbots trabalharam em conjunto com os antigos robôs, mas mais tarde acabaram os substituindo. A velocidade com que as páginas eram atualizadas aumentou. E aumentou muito. Agora era quase impossível prever se "aquele" link do www.algumacoisa.com.br ajudou a melhorar a colocação de sua página.
Hilltop foi uma mudança radical no PageRank, introduzida por Krishna Bharat. Como principal alteração, cada link passou a ter seu próprio "valor". Esse número é basicamente da semelhança de conteúdo entre os sites e da importância (PageRank) de cada site. Assim, um link do www.adobe.com passou a valer muito mais do que um link do www.algumacoisa.com.br, pois existem mais links apontando para a Adobe (PageRank 10) do que para o AlgumaCoisa. Da mesma forma, um link no adobe.com terá mais valor ao apontar para um site de informática do que para um site de músicas. Produzir resultados adulterados ficou quase impossível.
Desde então, a qualidade da busca tem aumentado, mas pouco se sabe a respeito do PageRank atual. O algorítimo é mantido em segredo pela empresa, ainda que muitos dos elementos aqui explicados ainda se façam presentes.