Reflexões sobre a Deep Web

Tenho notado há certo tempo pessoas interessadas na chamada Deep Web. Investigando este termo no Google é possível encontrar um material extenso a respeito do assunto, desde artigos até imagens e vídeos. No entanto ao analisar estes materiais parece que existe uma incoerência na definição do termo Deep Web, pois muitas pessoas associam isto com informações de natureza ilegal.

Muitas pessoas acreditam que para acessar a Deep Web é necessário ter uma ferramenta chamada Tor em seus computadores. O Tor é uma solução que permite certo nível de anonimato na Internet e possibilita acessar sites não indexados por motores de busca como o Google ou Yahoo. Sites como a famosa Hidden Wiki podem ser acessados através do Tor. Digo que o Tor permite certo nível de anonimato, pois no Brasil a monitoração da Internet é feita de forma física nos grandes provedores, ou seja, 100% de anonimato não existe! Bom, mas o assunto que desejo focar é com relação à definição, explicação e detalhamento da Deep Web e em decorrência disso explicar o que é a Surface Web.

Na minha visão, conteúdos de natureza ilegal ou amorais fazem parte da “Dark Web” que também não é indexável por motores de busca por razões óbvias e também pelo fato de que muitos destes sites não desejam ser indexados para permanecerem no anonimato. A imagem abaixo exemplifica bem o que seria a Dark Web, neste contexto.

dark-web-ilustration

Na superfície temos os sites indexáveis pelos motores de busca como Google, Bing e Yahoo. Temos também os websites que fazem parte da bolha que isola o usuário.  Digo bolha, pois os motores de busca como o Google identificam mais dos seus gostos dia-a-dia eles só te fornecem sites que se encaixam no seu “gosto” (calculado por um algoritmo). Desta forma uma bolha é criada, ou seja, uma visão alternativa da Internet mais ou menos como o mito da caverna do filósofo Platão. Neste sentido, não temos acesso a Internet como um todo.

Abaixo da superfície do oceano, como indicado na figura, temos o que seria a Dark Web. Bom, poderíamos dizer que é a Deep Web, porém nos próximos parágrafos entenderemos por que a Deep Web é um termo muito mais amplo do que exemplificado na figura.

No entanto, para definir de maneira básica o que é a Dark Web esta figura é muito boa. Quero enfatizar o meu desejo em prover uma discussão e um compartilhamento de ideias aqui, pois sempre que tentamos definir algo deixamos algo de fora e estou com esta sensação neste momento. No caso a Dark Web compreende conteúdos de natureza ilegal como, por exemplo, a pirataria e outros assuntos amorais. No entanto como podemos observar na figura existem “hidden websites” ou “sites escondidos”.

assange

Um site pode estar escondido por uma série de motivos e ao mesmo tempo não ter absolutamente nada de ilegal. Para ilustrar, temos websites de pessoas que desejam permanecer anônimas ou que desejam maior privacidade na Internet além de pessoas ligadas aos direitos humanos ou denunciantes como, por exemplo, Julian Assange do Wikileaks que precisa do anonimato na rede mundial de computadores para salvaguardar sua vida.

O que eu quero deixar  claro aqui é que “Deep Web” é um termo muito mais amplo.  A imagem que eu gostaria de utilizar aqui para a Deep Web e Surface Web é a de um grande iceberg conforme ilustrado abaixo. A parte maior do iceberg que está abaixo da superfície é um grande conglomerado de material seja ele qual for. Você caro leitor, acessa a Deep Web ou a parte de baixo do iceberg com uma frequência tremenda e talvez não saiba disso.

surface-web-deep-web

Na academia o termo “Deep Web” são informações não acessíveis pelos motores de busca. Estas informações não são acessíveis porque os dados para serem extraídos precisam ser acessados através da submissão de um web form, formulários em HTML. Por isso, a Deep Web também é conhecida como “Hideen Web” ou “Web Escondida”. Páginas dinâmicas que são criadas na hora a partir de um resultado de certa pesquisa realizada através de um formulário (web form) fazem parte da Deep Web.

Web form ou simplesmente formulários é o principal artefato para realizar consultas em um banco de dados na Internet. Veja a figura abaixo.

web-form-webmotors

Um site de busca de carros, por exemplo, só entrega as informações de um carro específico somente se um formulário for preenchido, escolhendo a marca, modelo, ano etc. Um motor de busca como o do Google ainda não tem inteligência para preencher um formulário e com isso ter acesso aos dados de um carro. Os formulários de pesquisa estão relacionados com outros domínios além do de carro, como por exemplo, hotéis, empregos, previsão do tempo, bases científicas, sites educacionais, cinema, música, eventos, entre outros. Pelo fato de tais informações nos mais diferentes domínios não estarem disponíveis para fácil indexação através dos motores de busca elas são consideradas como fazendo parte da Deep Web.

Uma definição mais clara da Deep Web é provida pelos pesquisadores Jayant Madhavan, Loredana Afanasiev, Lyublena Antova e Alon Halevy  que escreveram um artigo intitulado “Harnessing the Deep Web: Present and Future”. Neste artigo eles dizem que a Deep Web “refere-se ao conteúdo por trás dos formulários em HTML”. O interesse crescente de empresas e também da academia de forma geral na Deep Web é pelo fato que esta é a maior fonte de dados estruturados em toda a Internet, conforme observados pelos autores.

Bom agora vou trazer alguns números para  exemplificar tamanha grandiosidade: A Deep Web é 2000 vezes maior que a Surface Web, não há estimativas apuradas do real tamanho. De acordo com pesquisas realizadas, na Internet hoje em dia existe por volta de 25 milhões de formulários HTML sendo que o número de banco de dados na Internet está por volta de 2,6 milhões. Outro ponto interessante é que 95% da Deep Web estão estimados como de ordem de natureza pública, ou seja, não há direitos autorais sobre este conteúdo.

Todo este conteúdo está para ser explorado e por possuir uma semântica e descrição dos dados/informações de forma abrangente é de grande valor. Deste modo, sistemas de busca com uma grande acurácia poderiam ser criados para realizar buscas de forma semanticamente correta. Um exemplo seria, “Desejo encontrar um médico cardiologista em São Paulo para a próxima terça-feira a partir das 15 horas” e com isso o motor de busca traria os resultados. Este é somente um exemplo do potencial da Deep Web e como ela pode contribuir  para o advento da próxima geração da Internet chamada de Web 3.0.

Um grande problema na Deep Web e em indexar todo este conteúdo que estão armazenados em banco de dados é com relação à heterogeneidade dos formulários de busca, pois nem sempre estes formulários possuem uma etiqueta ou label descrevendo o campo/input por exemplo. Outro problema é a dicotomia entidade/valor onde o nome do campo no formulário está como o primeiro valor no input.

Os problemas mencionados acima, entre outros lançam um verdadeiro desafio na construção de algoritmos para os crawlers que tenham inteligência para preencher um formulário de maneira correta e com isso extrair dados com qualidade. Iniciativas como a do Google Chrome de identificar e preencher um formulário automaticamente para o usuário tem a ver com o fato de que tais informações a serem informadas em cada input de maneira correta possibilitam retornar dados de um banco de dados. Assim, as informações de como preencher um formulário de maneira correta são retornadas para o Google e com isso seus técnicos utilizam na implementação de crawlers mais inteligentes.

Com esta breve explicação do que seria a Deep Web podemos voltar nossa atenção para a Surface Web que são páginas estáticas indexadas e visíveis pelos motores de busca. Como nos primórdios da Internet que uma página era constituída apenas de um documento em HTML, sem consulta a banco de dados etc é parte de uma visão do que seria a Surface Web. A Surface Web é esta camada com dados estáticos visíveis aos motores de busca. Neste ínterim, um website pode ter uma camada na Surface Web (página inicial, página de contato, etc.) e uma camada na Deep Web como, por exemplo, formulários e banco de dados, páginas geradas dinamicamente conforme uma busca realizada por um usuário etc.

Bom espero ter esclarecido um pouco sobre o que é a Deep Web. Este assunto é interessante e importante pois com o passar do tempo vai ocupar cada vez mais as ideias e pesquisas dentro da T.I.

Dúvidas, críticas, sugestões ou querendo discutir o assunto utilize o formulário abaixo.