Dicas e discussões sobre criar sites criação de site e otimização para buscadores google yahoo msn

Tags: site criar msn sites yahoo google busca mecanismos
21/07/2006 10:40
De: Tio_Wlad (wbh@wbh.com.br)
IP: 201.78.24.159

Otimização de sites

Informações sobre a Google                 Home
Atualmente, a Google é a máquina de busca mais estudada e conhecida de todas. Duas são as razões principais para explicar esse fenômeno:
1) a Google é a máquina de busca mais utilizada do mundo (seja diretamente, em um dos sites da própria Google, seja indiretamente, em um dos vários sites que utilizam resultados fornecidos pela Google); por isso, ela atrai a atenção de todos os que se interessam por Search Engines 2) por ter sido projetada e implementada no meio acadêmico (enquanto as outras desde cedo tomaram um rumo comercial), a Google teve vários documentos a respeito de sua estrutura divulgados. Mesmo nos dias atuais, em que a Google tornou-se mais orientada a lucro, é possível encontrar literatura técnica escrita por vários dos pesquisadores da Google (por exemplo, experimente fazer uma pesquisa por [Krishna Bharat]); embora não haja garantia de que esses trabalhos tenham sido efetivamente implementados, é provável que o algoritmo tenha incorporado ao menos algumas das novas propostas apresentadas pelos pesquisadores.
Tradução para o português de "A Anatomia de uma Máquina de Busca Hipertextual em Larga Escala"
Aqui a Google nasceu para o mundo. Na conferência anual WWW de 1998, Sergey Brin e Lawrence Page, os fundadores da Google, apresentaram um trabalho relatando as características da Search Engine que haviam projetado. O paper foi separado em sete partes, seguindo a divisão do trabalho original. O trabalho inteiro é interessante, mas de particular importância são a Seção 2, em que os autores mencionam pela primeira vez o conceito de PageRank, e a Seção 4, em que fazem uma descrição detalhada da arquitetura geral da Google (que provavelmente sofreu poucas modificações desde então).
 
Esse documento é uma tradução do original em inglês The Anatomy of a Large-Scale Hypertextual Web Search Engine The Anatomy of a Large-Scale Hypertextual Web Search Engine
Sergey Brin and Lawrence Page
{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305
Resumo
Nesse paper, apresentamos Google, um protótipo de uma máquina de busca em larga escala que faz uso intensivo da estrutura presente em hipertextos. Google é projetada para rastrear e indexar eficientemente a Web e produzir resultados mais satisfatórios do que sistemas existentes. Um protótipo com bancos de dados de textos completos e hiperlinks de pelo menos 24 milhões de páginas está disponível em /google.standford.edu Projetar uma máquina de busca é uma tarefa desafiante. Máquinas de busca indexam dezenas ou centenas de milhões de páginas web, contendo um número comparável de diferentes termos. Elas respondem a dezenas de milhões de pesquisas todos os dias. Apesar da importância de máquinas de busca em larga escala na internet, muito pouca pesquisa acadêmica tem sido feita a esse respeito. Além disso, por causa do rápido avanço da tecnologia e do crescimento acelerado da web, criar uma máquina de busca hoje é muito mais difícil do que três anos atrás. Esse paper fornece uma descrição detalhada de nossa máquina de busca de larga escala - a primeira descrição desse tipo de que se tem notícia até o presente.
Além dos problemas de se adaptar as técnicas de pesquisa tradicionais a essas escalas gigantescas, existem outros desafios técnicos a serem enfrentados, referentes à utilização, para aprimoramento dos resultados, das informações adicionais presentes nos hipertextos.
Outro problema abordado é como lidar com o fato de que novas informações, na forma de hipertexto, podem ser livremente publicadas por qualquer pessoa.
Palavras-chave: World Wide Web, Search Engines, Information Retrieval, PageRank, Google Características do sistema.
A Google apresenta duas importantes características que a ajudam a produzir resultados de alta precisão. Em primeiro lugar, ela faz uso da estrutura de links da Web pra calcular uma medida de qualidade para cada página; essa medida é chamada PageRank, e está descrita com detalhes em [Page 98]. Em segundo lugar, a Google utiliza informações contidas em links para melhorar o resultado das pesquisas.
2.1 PageRank: trazendo ordem para a Web
O grafo de citações (links) da web é um recurso importante que tem sido pouco usado pelas máquinas de busca. Nós criamos alguns mapas que contêm 518 milhões de hiperlinks, uma amostra significativa do total. Esses mapas permitem um rápido cálculo do "PageRank" de páginas da web, uma medida objetiva de sua importância em citações, que guarda boa correlação com a idéia subjetiva que as pessoas têm de importância. Graças a essa correlação, PageRank é uma excelente maneira de priorizar os resultados de pesquisas por palavras-chave. Para temas populares, uma pesquisa que examina apenas os títulos das web pages retorna resultados admiráveis, quando os mesmos são ordenados por PageRank (demo disponível em google. stanford.edu). Para as pesquisas que avaliam todo o texto dos documentos, como ocorre no sistema principal da Google, PageRank também é de grande utilidade.
2.1.1. Descrição do cálculo do PageRank
A técnica acadêmica de citações literárias tem sido aplicada à web, principalmente por meio da contagem de citações (links) a uma determinada página; essa técnicao fornece uma aproximação da importância ou qualidade de uma página.
PageRank é uma extensão dessa idéia, com algumas diferenças: os links não são considerados todos iguais; é feita uma normalização do número de links em cada página.
PageRank é definido da seguinte forma:
Assumimos que existam páginas T1, T2, ..., Tn que contenham links apontando para a página A (ou seja, as páginas T fazem citações à página A). O parâmetro d é um fator redutor que pode assumir valores entre 0 e 1; nós usualmente estabelecemos d como 0.85 (há mais detalhes sobre d na próxima seção). C(A) representa o número de links que existem na página A. O PageRank da página A é dado pela expressão:
PR(A) = (1-d) + d [PR(T1)/C(T1) + PR(T2)/C(T2) + ... + PR(Tn)/C(Tn)]
Observe que os PageRanks formam uma distribuição de probabilidades através de páginas web; assim a soma dos PageRanks de todas as páginas web é igual a um.
PageRank ou PR(A) pode ser calculado utilizando-se um simples algoritmo iterativo, e corresponde ao eigenvector principal da matriz normalizada de links da web. Ademais, o PageRank de 26 milhões de páginas pode ser calculado em algumas horas, utilizando-se uma estação de trabalho de médio porte. Há muitos outros detalhes que estão além do escopo desse trabalho.
2.2 Explicação intuitiva
PageRank pode ser interpretado como o modelo de comportamento de um usário. Nós supomos que existe um "usuário aleatório", a quem se fornece uma página aleatório, a partir da qual ele clica aleatoriamente; tal usuário nunca clica o botão "back", mas em algum momento ele se cansa do conteúdo da página que está visitando e requisita outra página aleatória. A probabilidade de que esse usuário aleatório visite determinada página é o PageRank dessa página. Além disso, o fator redutor d é a probabilidade, em cada página, de que o usuário aleatório se canse e requisite outra página aleatória.
Uma variação importante é atribuir o fator d apenas a uma página, ou a um grupo de páginas. Isso permite personalização e torna quase impossível enganar deliberadamente o sistema, a fim de se conseguir maiores rankings. Há outras extensões de PageRank, ver [Page98].
Outra explicação intuitiva é que uma página terá alto PageRank se houver muitas páginas apontando para ela, ou se houver algumas páginas de alto PageRank apontando para ela. Intuitivamente, é fácil aceitar que páginas que são freqüentemente citadas em muitos outros pontos da web são merecedoras de uma visita; por outro lado; se uma página não é de alta qualidade, ou se for um link quebrado, é pouco provável que a homepage do Yahoo! aponte para ela. PageRank trata essas duas situações, e todas as outras situações intermediárias, por meio da propagação recursiva de pesos através da estrutura de links da web.
2.2 Texto âncora
O texto dos links é tratado de maneira especial pela nossa search engine. A maioria das máquinas de busca associa o texto de um link com a página que contém o link; nós, além de fazer isso, associamos o texto com a página para a qual o link aponta. Isso apresenta algumas vantagens. Âncoras, freqüentemente, fornecem uma descrição mais precisa de páginas web do que as próprias páginas. Além disso, âncoras podem existir para documentos que não podem indexadas por uma search engine baseada em texto, tais como imagens, programas e bancos de dados; torna-se possível assim retornar páginas que não foram de fatos rastreadas (crawled). Vale notar que páginas que não foram rastreadas podem causar problemas, já que sua validade nunca foi verificada, antes de serem retornadas para os usários; pode ocorrer, inclusive, que a search engine retorne uma página que nunca tenha existido, mas que tenha links apontando para ela (contudo, como é possível ordenar os resultados, esse problema raramente acontece).
Essa idéia de propagação de texto-âncora à página à qual o link aponta foi implementada no World Wide Web Worm [McBryan 94], especialmente porque ela ajuda na pesquisa de informações não-textuais, e expande a cobertura da pesquisa a partir de um menor número de documentos baixados. Nós utilizamos texto-âncora principalmente para obter resultados de melhor qualidade. A utilização eficiente de textos-âncora é difícil, por causa das grandes quantidades de dados que vem ser processadas; em nossa amostra de 24 milhões de páginas, nós indexamos mais de 259 milhões de âncoras.
2.3 Outras peculiaridades
Além de PageRank e do uso de texto âncora, Google apresenta outras diversas peculiaridades. Primeiramente, ela tem informação sobre a localização de todos os hits (Nota do Tradutor: um hit significa que uma palavra-chave foi identificada num documento) e, por isso, faz uso intensivo da proximidade de palavras-chave, ao realizar as pesquisas. Além disso, Google presta atenção a alguns detalhes visuais da apresentação, como tamanho das fontes; palavras escritas em fontes maiores ou com negritos têm um peso maior que outras palavras. Ademais, o inteiro teor das páginas HTML fica disponível em um repositório próprio.

Google PageRank
Para se compreender o que é, e qual a importância do Pagerank, é necessário recordar um pouco da luta entre Search Engines e spammers que vem sendo travada desde que a internet tornou-se comercial.
Já se tornara evidente que (as SERPs mostravam isso), se se deixasse a cargo dos webmasters a tarefa de determinar qual o assunto abordado nas páginas (ou seja, se o ranking fosse determinado apenas por fatores on page - da própria página), os spammers facilmente dominariam os resultados. A Altavista introduziu o conceito de link popularity, pelo qual a avaliação de uma página passaria a levar em conta também fatores off page: quanto mais links apontassem para uma determinada página, melhor seria sua pontuação; os spammers logo descobriram uma brecha: eles se reuniam em grupos, criavam links entre si, e inflavam artificialmente a popularidade de suas páginas.
A Google levou adiante a idéia de que fatores off page deveriam determinar a importância de uma página. Mas, em vez de contar tão somente o número de links (que pode ser facilmente inflado) como fez a Altavista, a Google teve a idéia de atribuir diferentes pesos a cada link; a importância de cada link seria proporcional à importância da página em que o link estivesse inserido; e a importância da página seria proporcional à quantidade e importância dos links que ela recebesse.
A esse índice de importância de cada página foi dado o nome de PageRank, em homenagem a Larry Page, autor da idéia.
Clique o link para ler o paper original sobre PageRank, em formato PDF. Veja mais comentários sobre o paper na seção Fundamentos Matemáticos do PageRank.
O único fator que aumenta o PageRank de uma página são os links que apontam para ela, bem como o PageRank da página que contém o link; de acordo com a fórmula original, o PageRank de uma página é, após um desconto (se uma página tem 100 pontos de PageRank, apenas, digamos, 85 poderiam ser repassados), dividido igualmente entre todas as páginas linkadas na página.
Observe que uma página não perde seu PageRank, independente de quantos links contenha. O PageRank pode ser comparado a uma "capacidade de voto": quanto maior o PR de uma página, mais PR ela pode passar (maior será o PR das páginas linkadas); essa "capacidade de voto" é conquistada, ela também, por meio de votações de outros sites: a única maneira de se incrementar o próprio PR é conseguindo contribuições de PRs de outros sites.
Note que o cálculo de PageRank é recursivo: para saber meu PR, eu tenho que saber o PR das páginas que linkam para mim; mas o PR dessas outras páginas depende do meu próprio PR, já que eu posso ter links diretos ou indiretos para elas. O cálculo do PageRank é extremamente trabalhoso; leia mais sobre o cálculo do PageRank no link acima indicado de Fundamentos Matemáticos do PageRank.
A importância do PR decorre de sua aplicação (e por muito tempo somente a Google pôde fazer isso) no rankeamento de páginas. Comparemos as situações:
Antes do PR: para uma pesquisa por [palavra], a SE selecionava mil páginas que contivessem [palavra]; a SE levava então em conta fatores on page, tais como presença da palavra no título, presença da palavra em headers, contagem do número de palavras na página, posição das palavras no texto, etc., e atribuía a cada página uma pontuação. No caso da Altavista, essa pontuação poderia ser corrigida por um fator proporcional à link popularity, mas, como vimos, com o tempo esse fator tornou-se manipulável. Ao fim desse cálculo, a SE retornava para o usário aquelas mil páginas, em ordem decrescente de pontuação.
Com o PR: para a mesma pesquisa por [palavra], a Google, por hipótese, selecionaria as mesmas mil páginas (na prática, isso não ocorre); aplicaria os mesmos critérios para obter pontuações on page. A diferença é que essas pontuações seriam ao final corrigidas pelo PageRank: uma página de alto PageRank (ou seja, de alto conceito dentro da web) poderia ultrapassar várias outras que tivessem uma pontuação maior.
Obviamente, esse ordenamento depende de muitos outros fatores (no caso da Google, é certo que os textos âncoras apontando para as páginas têm grande peso no ordenamento); é óbvio também que a Google pode alterar os pesos dos fatores (inclusive e principalmente o peso do PageRank) conforme achar conveniente.
O fato é que o PageRank foi o principal fator do sucesso da Google. A Google tornou-se o que é hoje porque seus resultados agradavam os usuários; agradavam porque eram mais relevantes; e eram mais relevantes muito por causa do PageRank. Embora tenha certamente passado por muitos ajustes, até hoje, segundo a própria Google, "the heart of our software is PageRank" (o coração do software da Google é o PageRank).
Atualização de PageRank e Rankings
Breve Histórico
Até o final de 2002, as atualizações ocorriam da seguinte maneira:
Por um período de aproximadamente um mês, a Google soltava os googlebots na web; os bots coletavam novas páginas e novos links; todas as informações eram armazenadas nos servidores.
Ao final do ciclo, a Google reunia todas as informações e reconstruía completamente seus índices; novas páginas eram adicionadas, e todos os links eram levados em conta no cômputo do novo PageRank; uma vez concluídos os cálculos, o PageRank era atualizado e os rankings refletiam os novos índices.
Essa troca de índices era chamada de Google Dance. Era um dia aguardado por webmasters, que ansiavam por ver o resultado de seus trabalhos; após a dança, os resultados permaneciam quase estáticos até que o próximo ciclo se completasse. Uma tradição iniciada na Webmasterworld fez com que cada dança tivesse um nome de mulher, em ordem alfabética (tal qual os furacões). Veja aqui uma tabela com as datas das Google Dances; observe que a lista vai apenas até novembro de 2003.
A partir de 2002, a Google introduziu um novo robot, chamado freshbot. Enquanto a googlebot buscava dados para a atualização mensal, o freshbot ia atrás de informações recentes, em páginas e sites atualizados com maior freqüência. A função do freshbot era fazer pequenas alterações no índice e nos rankings, enquanto não se efetuava o recálculo mensal do PageRank.
Por ocasião da dança mensal, as mudanças já não eram tão bruscas, já que o freshbot já havia antecipado algumas alterações nos índices. Com o passar do tempo, o freshbot ficou cada vez mais ativo: as mudanças diárias no índice passaram a ser mais freqüentes e de maior impacto, reduzindo assim cada vez mais o impacto causado pela dança mensal.
Nota: os nomes dos User Agents dos bots da google eram os mesmos: googlebot; a única maneira de diferenciar o googlebot do freshbot é por meio dos respectivos IPs. Até hoje, parece existir diferentes tipos de googlebots; alguns têm nomes distintos (como o bot da Adsense, chamado Media-partners bot), outros são diferenciáveis apenas pela classe de IPs.
Reconhecendo a existência de deficiências no antigo algoritmo de PageRank, a Google, em novembro de 2003, num episódio que tornou-se conhecido como Update Florida, promoveu várias alterações na maneira como os resultados são apresentados aos usuários.
Entre as ações adotadas pela Google para evitar a manipulação dos rankings, incluiu-se justamente uma intensificação da ação dos freshbots, que praticamente assumiram o papel dos antigos googlebots. Isso quer dizer que os freshbots não apenas buscavam páginas recentes, com o propósito apenas de refinar os rankings, até a próxima dança; agora, os freshbots parecem ter o poder de dar um ranking permanente às páginas e links que encontram.
Com isso, a Google atingiu dois objetivos. Primeiro, consegue manter um índice permanentemente mais atualizado, o que agrada os usuários e era, desde o princípio, o objetivo dos freshbots. Segundo, ficou mais difícil para webmasters observar o efeito de suas técnicas (leia-se: tentativas de subir no ranking): anteriormente, como a atualização era mensal, os resultados de técnicas adotadas durante todo um mês apenas se refletiam ao final de cada ciclo, e portanto eram facilmente identificáveis e mensuráveis; agora, como as atualizações são praticamente diárias, é muito mais difícil saber quais técnicas deram resultado, quanto tempo demorou, etc. Ficou mais difícil manipular os resultados.
Dias Atuais
Atualização de PageRank: o valor de PR exibido ao público é atualizado muito pouco freqüentemente; houve uma atualização em outubro de 2004, após um período de aproximadamente três meses. Note, entretanto, que o PageRank atual, utilizado na determinação dos posicionamentos, é provavelmente atualizado com muito mais freqüência. Essa foi uma das medidas tomadas pela Google para combater spammers a partir da Update Florida.
Atualização dos rankings: o posicionamento dos sites nos rankings é alterado constantemente. Páginas podem subir e descer a cada vez que uma pesquisa é feita; novas páginas são introduzidas constantemente.
Observe, entretanto, que embora os rankings se alterem todos os dias, não há forma clara de se determinar quanto tempo uma alteração em sua página se refletirá em uma alteração no ranking (ou, de maneira inversa: se seu posicionamento se alterou hoje, não há como saber quando foram feitas as modificações que deram ensejo à alteração).
Igualmente, embora todos os dias surjam novas páginas nas SERPs, não há como determinar quanto tempo levará para que uma nova página específica seja mostrada. É certo, entretanto, que para ser introduzida no índice, a página deve ser visitada pela googlebot; e há consenso de que as chances de uma visita da googlebot são proporcionais ao PageRank da página antiga onde houve um link para a página nova.
A Google contra-ataca
Por volta de outubro de 2003, o quadro na indústria de SEO era o seguinte: para melhorar o ranking de meu site sobre venda de canetas, eu vou àquele site que fala de borboletas africanas, com várias páginas com PR7, e compro alguns links por algumas centenas ou milhares de dólares. Após alguns dias, meu site vai para a primeira página da Google. O comprador de links está feliz, o vendedor está feliz, e tudo segue adiante.
A Google, porém, não estava satisfeita. E demonstrou isso em novembro de 2003: na sua (então mensal) atualização do índice, grandes mudanças aconteceram; ficou evidente que a Google havia feito uma enorme mudança no algoritmo; diversas teorias conspiratórias surgiram (a mais citada: a Google havia rebaixado o ranking de vários sites comerciais às vésperas do Natal, no intuito de que eles passassem a pagar por AdWords). Leia uma das mais longas threads de Webmasterworld.com: the Florida Update.
O que a Google fez?
É evidente que houve bruscas alterações no algoritmo.
Em primeiro lugar, reconhecendo que PageRank agora podia ser comprado, a Google retirou muito do seu peso. Sites com PR6 e PR7 que ocupavam o topo do ranking perderam seus lugares para sites com PR5, 4 e 3; além disso, se antes havia grande semelhança entre resultados nas SERPs e resultados em allinanchor: , agora, passou a haver muitas discrepâncias. (Nota: as opiniões sobre a importância atual do PageRank variam muito; alguns dizem que "PR não vale mais nada", enquanto no outro oposto se diz que "PR é tão importante quanto antes"; a maioria das opiniões, entretanto, é no sentido de que houve diminuição no peso do PageRank, mas ele continua sendo o mais importante dos critérios de rankeamento.)
Várias outras alterações podem ter sido efetuadas; algumas de pequena monta, como, por exemplo mudanças no peso dado a cabeçalhos (h1, h2, etc), uso de fontes em negrito ou itálicas, etc.
Outras alterações, entretanto, podem ter sido mais radicais. Tornaram-se mais consistentes os rumores de que a Google introduziu o algoritmo Hilltop; outros webmasters viram evidências nas SERPs de que a Google estaria fazendo uso mais extensivo de análise de semântica para melhor classificar as páginas.
Evidentemente, a Google não se manifestou sobre o assunto.
Além de alterar o algoritmo, a Google restringiu a quantidade de informações passadas aos webmasters.
O PageRank gráfico, ou TBPR - Toolbar PageRank (exibido por meio da Google Toolbar passou a ser atualizado com muito menos freqüência. Em lugar das tradicionais atualizações mensais, a Google passou a fazer atualizações cada vez mais espaçadas; houve uma atualização geral em julho de 2004, e a seguinte veio apenas em outubro de 2004.
Vários webmasters reportaram que o valor do TBPR apresentado era errático. Por exemplo, páginas com PR7 passaram a PR4 ou 5, mesmo tendo havendo aumento no número de backlinks. Com isso, aumentou o número de casos em que sites de menor PR batiam sites de alto PR, mesmo para termos muitos competitivos.
Alguns sites perderam a capacidade de repassar PageRank. Sites de alto PR que vendiam "espaço publicitário" de repente não transmitiam mais PageRank; se anteriormente um link nessas páginas garantia alto PR, agora pouco ou nenhum efeito era notado, nem no valor do TBPR, nem no posicionamento nos rankings.
A Google passou a mascarar os backlinks de cada página. Uma pesquisa com o comando link:URI costumava retornar os links mais relevantes para a página, o que facilitava o trabalho de webmasters que estavam em busca de links; após a mudança (e até hoje), o comando parece retornar um sub-conjunto aleatório de backlinks. Além disso, tal qual ocorreu com o TBPR, as atualizações dos backlinks tornaram-se menos freqüentes.
Todas essas alterações tiveram o mesmo objetivo: dificultar a ação daqueles que procuram encontrar links a fim de melhorar o PageRank. Antes das alterações, era fácil encontrar as páginas de alto PR, descobrir quais links apontavam para elas, e tentar obter os mesmos links. Após essas alterações, o valor do PR exibido não é confiável, e a relação de links é aleatória; é muito mais difícil descobrir onde tentar obter um link.
Resultado: hoje, é muito mais difícil conseguir os links necessários para levar uma página ao topo do ranking.
Deficiências do PageRank
Apesar de ter colocado a Google em vantagem em relação às demais Search Engines, o algoritmo do PageRank tem algumas deficiências.
Na Seção 6.1 do documento original sobre PageRank, Sergei e Larry escreveram:
"Esses tipos de PageRank personalizados são virtualmente imunes a manipulações movidas por interesses comerciais. Para uma página conseguir um alto PageRank, ela deve convencer uma página importante, ou uma porção de páginas sem importância, a linkar para ela. No pior caso, poderemos ter manipulação na forma de compra de publicidade (links) em sites importantes. Mas isso parece estar sob controle, já que custa dinheiro..."
Eles estavam errados.
Em primeiro lugar, deve-se mencionar que o algoritmo tinha uma deficiência desde a origem: o PageRank era passado de página a página, independente do conteúdo das mesmas. Isso significa que um link da homepage da NASA transferia a mesma quantidade de PageRank, quer o link apontasse para um site sobre astronáutica (tópico correlato ao da página da NASA), quer o link apontasse para um site sobre filmes dos anos 50 na Chechênia. Assim, uma pessoa procurando aumentar seu PageRank tinha apenas que conseguir links em outras páginas de alto PR, sem se importar com o tópico das mesmas.
A título de curiosidade: por volta da mesma época em que Page imaginou o PageRank, outro pesquisador chamado J. Kleinberg estava desenvolvendo um trabalho chamado Authoritative Sources in a Hyperlinked Environment (fontes que sejam autoridade em ambientes de hiperlinks), que também analisava a estrutura de links para atribuir índices de relevância a cada página; a diferença era que, para calcular o "PageRank" de uma página, o algoritmo de Kleinberg considerava apenas os links contidos em páginas cujo tópico fosse similar ao da página sob análise.
O problema dessa técnica é que o grafo a ser analisado depende da [palavra-chave], e portanto deve ser montado em tempo real, para cada pesquisa; o projeto, que recebeu o nome HITS, não foi adiante porque não havia recursos tecnológicos suficientes para torná-lo comercialmente viável. Entretanto, alguns anos depois, a patente da HITs foi adquirida pela Teoma. Leia mais sobre Teoma e AskJeeves.
As pessoas aproveitaram-se da deficiência do algo do PageRank acima mencionada para manipularem seus rankings; na verdade, pode-se dizer que a Google foi vítima do seu próprio sucesso.
Antes da Google, a compra de espaço publicitário (links de texto ou banners) era comum, mas o principal objetivo do comprador era conseguir tráfego; ninguém se importava com PageRank.
Após seu explosivo crescimento, todos queriam ter bons rankings na Google. Com o tempo, ficou evidente que havia grande correlação entre o posicionamento de uma página no ranking e seu PageRank; mais e mais pessoas aprenderam que, para aumentar seu PageRank, a maneira mais fácil era obter links em outras páginas de alto PageRank.
Em pouco tempo, PageRank virou uma commodity. Webmasters compravam links interessados apenas no PageRank, e não na quantidade ou qualidade do tráfego que receberiam. Os links, que deveriam funcionar como meio de acesso a outras fontes interessantes de informação (esse era o espírito original do PageRank) passaram a ser objeto de compra e venda.
É bem verdade que muitos (a maioria) dos grandes sites não se envolveu nesse comércio de PageRank. Os .edus, .govs, as grandes corporações continuaram sua vida normalmente.
Entretanto, alguns grupos de sites rapidamente aderiram ao comércio de PageRank. Por exemplo, alguns grandes sites de alto PageRank que desde sempre venderam links, agora podiam inserir mais links em mais páginas, por um preço muito maior; um exemplo desse tipo de site é foxnews.com. Outros sites que se beneficiaram foram aqueles que, ao longo dos anos, publicaram informações úteis e relevantes, conquistaram merecidamente vários links, e subitamente viram-se detentores de uma mercadoria relevante chamada PageRank (vários sites na geocities enquadram-se aqui); muitas pessoas que nunca pensaram em ter qualquer retorno financeiro de seus sites informativos agora podiam faturar um bom dinheiro, vendendo PageRank.
Um caso que ficou notório foi o da searchking.com. Esse site atingiu PR7 em sua homepage, tinha excelentes rankings, e abertamente anunciava a venda de links, como forma de se conseguir PageRank e melhores rankings. A Google alterou o PR da SearchKing, que viu seu tráfego encolher. A SearchKing iniciou um processo judicial contra a Google - mas não ganhou; leia sobre o caso SearchKing (siga os links no pé da página).
O fato é que estava ficando cada vez mais claro que a Google precisava fazer correções no seu algoritmo.Conquistando PageRank Existe apenas uma maneira de se conseguir PageRank: por meio de links para sua página, os quais devem estar inseridos em páginas com algum PageRank e devem ser reconhecidos pelo bot. Tanto mais PageRank será transferido, quanto maior for o PageRank da página que contém o link e quanto menor for o número total de links na página.
Lembre-se de que PR é atribuída a cada página, e não a cada site. Costuma ocorrer que a homepage tenha PageRank maior que as páginas internas. Pode acontecer que a homepage tenha PR8, e que a página de links (onde seu link será inserido) tenha PR0, por ter tido seu acesso bloqueado aos bots.
Para se assegurar de que o link será reconhecido, procure usar a forma a href="w.seudominio.com".
Links codificados em javascript em geral não são reconhecidos.
Links que fazem acesso a bancos de dados podem ou não ser reconhecidos. Um link to tipo a href="w.outrodominio.com/?cid=200 (o número 200 faz referência a um registro em um banco de dados, onde estão armazenadas informações sobre o site a ser acessado, incluindo a URI) certamente não transferirá PageRank, pois o bot não consegue saber qual URI está sendo linkada.
Um link como a href="h.outrodominio.com/?sw.seudominio.com&p=20&q=X pode ou não ser reconhecido, dependendo: do PageRank da página em que o link está inserido; do número de parâmetros da URI.
A melhor forma, portanto, de se angariar PageRank é conseguir links em páginas com o mais alto PR possível e o menor número de links possível.
Lembre-se de que, como o montante de PageRank aumenta exponencialmente, uma página com PR4 tem muito mais que o dobro de PageRank de uma página PR2.
Links internos
O projeto original da Google não fazia, para cálculo do PageRank, nenhuma distinção entre links internos (que apontam para páginas dentro do mesmo domínio) e externos (que apontam para páginas em outros domínios). Assim, se a Página A contiver um link para a Página B de um mesmo domínio, a Página B estará recebendo PageRank da Página A; ainda, se a Página B contiver um link para a mesma Página A, essa estará tendo também um incremento de PageRank.
Isso quer dizer que uma outra maneira de se aumentar o PageRank total de um domínio é através da adição de novas páginas; os links que apontam para uma nova página transferem-lhe PageRank, que pode ser repassado para as páginas antigas.

1. Com que freqüência o Googlebot acessa as minhas páginas?
Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos na rede, é possível que a taxa pareça ser um pouco mais elevada dentro de intervalos curtos.
2. Como posso solicitar ao Google para não indexar determinadas partes do meu site?
O robots.txt é um documento padrão que informa ao Googlebot que ele não deve fazer o download de determinadas informações do seu servidor web. O formato do arquivo robots.txt é especificado na Norma de Exclusão para Robôs. Para obter instruções detalhadas sobre como evitar que o Googlebot indexe a totalidade ou parte do seu site, consulte a nossa página de Remoções. Lembre-se de que as alterações no arquivo robots.txt do seu servidor não serão refletidas imediatamente no Google. Elas serão descobertas e propagadas quando o Googlebot fizer a próxima indexação do seu site.
3. O Googlebot está indexando o meu site rápido demais. O que posso fazer?
Por favor, envie-nos o URL do seu site e uma descrição detalhada do problema. Inclua também uma parte do seu weblog que mostre os acessos do Google para que possamos rastrear rapidamente o problema.
4. Por que o Googlebot está solicitando um arquivo chamado robots.txt, que eu não tenho no meu servidor?
O robots.txt é um documento padrão que informa ao Googlebot que ele não deve fazer o download de determinadas informações do seu servidor web. Para obter informações sobre como criar um arquivo robots.txt, consulte a Norma de Exclusão para Robôs. Se você quiser simplesmente evitar as mensagens de erro de "arquivo não encontrado" no weblog do seu servidor, crie um arquivo vazio chamado robots.txt.
5. Por que o Googlebot está tentando fazer download de links incorretos do meu servidor? Ou de um servidor que não existe?
É certo que em qualquer momento você encontrará vários links na web que estão quebrados ou desatualizados. Quando alguém publica um link incorreto para o seu site (às vezes devido a erro de digitação ou de ortografia) ou não consegue atualizar os links para refletir as mudanças no seu servidor, o Googlebot tenta fazer o download de um link incorreto do seu site. Isso explica também porque você poderá receber acessos à uma máquina que nem é servidor web.
6. Por que o Googlebot está fazendo download de informações do nosso servidor "secreto"?
É quase impossível manter um servidor web em segredo por não haver links que levem a ele. Assim que alguém seguir um link que parte do seu servidor "secreto" e vai para outro servidor web, o seu URL "secreto" aparecerá na tag referrer e poderá ser armazenado e publicado no referrer log do outro servidor web. Portanto, se houver um link para o seu servidor ou página "secretos" em algum lugar da internet, é provável que o Googlebot e outros indexadores o encontrem.
7. Por que o Googlebot não obedece ao meu arquivo robots.txt?
Para economizar largura de banda, o Googlebot só faz o download do arquivo robots.txt uma vez por dia ou quando tivermos muitas páginas do servidor. Por isso, talvez demore um pouco até que o Googlebot saiba das alterações no seu arquivo robots.txt. Além disso, o Googlebot está distribuído em diversas máquinas. Cada uma delas mantém o seu próprio registro do seu arquivo robots.txt.
Sugerimos sempre que você verifique se a sua sintaxe está de acordo com as normas mostradas em h://. Uma causa comum de problemas é o fato de o arquivo robots.txt não estar localizado no diretório superior do servidor (por exemplo, www.myhost.com.br/robots.txt). Se o arquivo for colocado em um subdiretório, ficará sem efeito.
Além disso, há uma pequena diferença entre a maneira que o Googlebot trata o arquivo robots.txt e o que está previsto na norma do robots.txt (levando-se em consideração a diferença entre "deve" e "é obrigatório"). A norma diz que devemos obedecer à primeira regra aplicável, ao passo que o Googlebot obedece à maior (ou seja, à mais específica). Esta prática, mais intuitiva, corresponde àquilo que as pessoas normalmente fazem e o que elas esperam que nós façamos. Por exemplo, vamos considerar o seguinte arquivo robots.txt:
User-Agent: *
Allow: /
Disallow: /cgi-bin
É óbvio que a intenção do webmaster é permitir que os robôs indexem tudo, exceto o diretório /cgi-bin. Portanto, é isso que fazemos.
Para obter mais informações, veja as Perguntas Freqüentes sobre Robôs. Caso ainda tenha problemas, entre em contato conosco.
8. Por que aparecem acessos a partir de várias máquinas do Google.com.br, todos com o user-agent Googlebot?
O Googlebot foi projetado para ficar distribuído em diversas máquinas, visando melhorar o desempenho e a escala, à medida que a web crescer. Além disso, para reduzir a utilização da largura de banda, executamos diversos indexadores em máquinas localizadas próximas aos sites que estão sendo indexados na rede.
9. Vocês podem me informar os endereços IP a partir dos quais o Googlebot faz a indexação para que eu possa filtrar os meus registros?
O endereço IP usado pelo Googlebot pode mudar ao longo do tempo. A melhor maneira de identificar os acessos do Googlebot é através do user-agent (Googlebot).
10. Por que o Googlebot está fazendo várias vezes o download da mesma página do meu site?
Em geral, o Googlebot só deveria fazer download de uma única cópia de cada arquivo do seu site em cada indexação. Às vezes, porém, a indexação é interrompida e reiniciada, o que pode fazer com que sejam reindexadas as páginas que foram encontradas recentemente.
11. Por que não estão aparecendo no seu índice as páginas que o Googlebot indexou no meu site?
Não se assuste se você não conseguir localizar imediatamente no mecanismo de busca do Google os documentos que foram indexados pelo Googlebot. Os documentos são acrescentados ao nosso índice logo após serem indexados. Às vezes, porém, os documentos acessados pelo Googlebot não são incluídos por vários motivos (por exemplo, por se tratarem aparentemente de duplicatas de outras páginas da web).
12. Quais tipos de link o Googlebot segue?
O Googlebot segue links HREF e SRC.
13. Como posso impedir que o Googlebot siga os links das minhas páginas?
Para evitar que o Googlebot siga os links das suas páginas para outras páginas ou documentos, coloque a seguinte meta tag no cabeçalho do seu documento HTML:
NAME="Googlebot" CONTENT="nofollow">
Para obter maiores informações sobre meta tags, consulte #meta. Você pode ver também o que a padrão HTML diz sobre essas tags. Lembre-se de que as alterações no seu site não serão refletidas imediatamente no Google. Elas serão descobertas e propagadas quando o Googlebot fizer a próxima indexação do seu site.
14. Como posso informar ao Googlebot que ele não deve indexar um determinado link que leva para fora da minha página?
As meta tags permitem excluir todos os links que levam para fora da sua página, mas você também pode instruir o Googlebot para não indexar determinados links: basta adicionar rel="nofollow" no hiperlink. Quando o Google encontra o atributo rel="nofollow" nos hiperlinks, o respectivo link não recebe créditos durante a classificação dos sites nos nossos resultados de pesquisa. Por exemplo, o link
poderia ser substituído por
Esse link eu não garanto.

23/11/2006 12:36
De: Régia Albino (regialbino@globo.com)
IP: 201.58.134.217

Entrevista

Bom dia!
Sou estudante de jornalismo e estamos fazendo uma matéria para ser publicada em nossa revista e no jornal Hoje em Dia.
A matéria é sobre o mercado de criação de sites em BH.
Se possível, gostaria de obter respostas para as questões abaixo.
desde já, agradeço.
(caso respondam, favor informar o nome de quem respondeupara que possamos publicar o nome da empresa na matéria)
- Colher dados sobre quantidade de empresas dedicadas a criar sites na capital.
Número de usuários da rede, etc....
- Conversar com responsáveis por empresas para saber quanto custa criar
e manter um site, que tipos de ferramentas são oferecidas.
- Usabilidade, arquitetura de informação, questões formais: quais as últimas
tendências?
- Passo a passo da criação de websites.
- Buscar informações sobre o mercado do setor: é lucrativo? As empresas
têm mostrado interesse em fazer sites? Como é o retorno?
- Existem vagas para jornalistas nesse mercado? Ou o conteúdo é feito por
pessoas sem formação?
- Buscar casos, muitos personagens, de empresários que montaram sites e
melhoraram ou não seus negócios.
Seu IP: 54.162.250.227 (os IP's são armazenados por questões de segurança)
Seu nome:
Seu e-mail:
Assunto:
Mensagem:
  Não quero que meu e-mail apareça na mensagem (apenas o nome)