segunda-feira, 18 de fevereiro de 2013

Deep Web: viagem ao fundo da rede

Como este é um blog de jornalismo e tecnologia, e o site Sociotramas traz temas correlacionados, decidimos publicar um texto deles por aqui. A discussão interessa a todos: a informação da rede que não temos acesso, apesar dela estar lá na chamada Deep Web. Vale a pena conhecer mais sobre o assunto. 

Por Eduardo d’Ávila

"Há quem diga que vivemos na era da informação — e por isso mesmo é ela, a informação, a mais recente promovida ao status de necessidade básica, como abrigo, comida e água. A rede é hoje a fonte central de informação para grande parte da população do mundo e, justamente por sua variedade de conteúdos, tornou-se, em si, uma entidade complexa. Para navegar pela infomaré (neologismo criado por Gilberto Gil), é necessária a utilização de mecanismos de busca que rapidamente encontram informações desejadas e evitam a deriva online. Recentes investigações avaliam que há um vasto universo de informação debaixo do que conhecemos como a web convencional. Esse universo pouco explorado é denominado Deep Web ou Invisible Web.

O termo Deep Web (rede profunda) foi cunhado por Mike Bergman, criador da empresa de busca na web BrightPlanet, para designar justamente o conteúdo da rede não apreendido pelos sistemas convencionais de busca. Já o termo Invisible Web (rede invisível) foi cunhado pela Dra. Jill Ellsworth ainda em 1994 e usado para referir-se às páginas dinâmicas invisíveis aos olhos dos sistemas de busca.


A comparação da Deep Web com as fossas abissais parece legítima. Biólogos marinhos afirmam que tais profundidades oceânicas nas quais a luz solar não chega — e a pressão é tão alta que dificulta a exploração humana — representam cerca de 42% dos fundos oceânicos. Importante lembrar: a porção oceânica representa mais de 70% do planeta. A BrightPlanet, por sua vez, estima que a Deep Web tenha um tamanho 500 vezes maior do que a web de superfície. Para fins de compreensão numérica, é necessário relembrar que o Google, o principal — mas não o único — mecanismo de busca da web hoje, detém cerca de 8 bilhões de páginas encontráveis.

A mecânica dos sistemas de busca é simples: um software programado rastreia toda a rede coletando não só endereços de páginas como, também, informações sobre ela — tudo isso é baseado em dados inseridos em códigos específicos. Por vezes, os endereços são encontráveis; todavia, seus conteúdos permanecem selados. Alguns fatores contribuem para tal incapacidade de leitura de algumas páginas por parte dos mecanismos de busca. Porém, os principais seriam as dificuldades técnicas e decisões deliberadas, por parte do criador, de permanecer fora do radar da web. Um bom exemplo de tal decisão são as bibliotecas universitárias que requerem códigos de acesso à informação, restringindo o acesso ao banco de dados a alunos e professores e preferindo que os mecanismos de busca deixem de listar qualquer parte de seus conteúdos. Já um exemplo comum de dificuldade técnica é o das páginas baseadas em script, que não são facilmente lidas pelos sistemas de busca.

A princípio, é natural que se considere melhor manter-se apenas no território seguro dos resultados de mecanismos de busca como Yahoo, Bing e Google — uma vez que seus milhares de resultados sobre um tema já deixam o usuário médio estupefato. Todavia, não é muito fácil encontrar resultados relevantes nos citados mecanismos quando o assunto é um pouco mais complexo ou obscuro. É necessário pensar na Web como uma vasta biblioteca, do tipo que a informação deve ser garimpada e lapidada para, ao fim, tornar-se útil e relevante. Nesse ponto, os sistemas de busca não ajudam muito, já que ainda não existe uma tecnologia capaz de associar conteúdos perfeitamente por meio de morfologia ou de outros códigos — e que seus resultados representem tão pouco do conteúdo total da rede.

Também é necessário refletir sobre o acesso à informação e a ideia de que os meios de buscas na internet democratizam a informação. Se existe apenas uma maneira de buscar essa informação e acessá-la; se o modo de busca é falho e analfabeto em relação a uma grande extensão de códigos; e se, por isso, deixa eclipsado o território inexplorado da Deep Web, como podemos dizer que a informação na rede é livre?
Talvez a internet tenha se tornado, de fato, uma entidade tão complexa que sua compreensão só é possível por meio de cápsulas que englobam uns e outros conteúdos digeríveis por vez — como os sistemas de buscas, as redes sociais e outras plataformas de uso. Ainda há um longo caminho até a matriz da rede."

Referências interessantes para aprofundamento no tema:
Ellsworth, Jill H.; Ellsworth, Matthew V. 1994. The Internet Business Book. John Wiley & Sons, Inc.

Fonte: Sociotramas

Nenhum comentário:

Postar um comentário