You are on page 1of 18

UNIVERSIDAD PERUANA LOS ANDES

FACULTAD DE INGENIERA
ESCUELA PROFESIONAL DE
INGENIERA DE SISTEMAS Y COMPUTACIN

DEEP WEB
NIVEL ACADMICO

: PRIMER CICLO

ASIGNATURA

: TECNOLOGAS DE LA INFORMACIN Y
COMUNICACIN

CATEDRATICO

: MG. WAGNER VICENTE RAMOS

ESTUDIANTES

:
Hinojosa Laura Mark Antony
Caja Ventura Jhon
Castillo Gavino Jhonatan

HUANCAYO 2015

Contenido
INTRODUCCIN............................................................................................................... 3
DEEP WEB....................................................................................................................... 4
CAPITULO I...................................................................................................................... 4
FUNDAMENTOS DE LA DEEP WEB.................................................................................4
1.1.

CONCEPTOS................................................................................................... 4

1.2. CARACTERISTICAS............................................................................................. 4
1.3. VENTAJAS........................................................................................................... 5
1.4. DESVENTAJAS.................................................................................................... 5
CAPTULO II..................................................................................................................... 7
LA DEEP WEB............................................................................................................... 7
2.1

MITO O REALIDAD........................................................................................... 7

2.2

YA SABEMOS NAVEGAR..................................................................................8

2.3

PONER EN MARCHA NUESTRO ANONIMATO....................................................8

2.4 APLICACIONES DE LA DEEP WEB.........................................................................8


2.5 NO ES SEGURO................................................................................................... 9
CAPITULO III.................................................................................................................. 10
MTODOS DE PROFUNDIZACIN................................................................................10
4.1 TOR................................................................................................................... 10
4.2 BITCOIN............................................................................................................. 11
4.3 WEB CRAWER.................................................................................................... 11
CAPITULO IV.................................................................................................................. 12
INFLUENCIA CIBERNTICA.......................................................................................... 12
4.1 ESPIONAJE........................................................................................................... 12
4.2 CMO ACCEDER A LA DEEP WEB?.....................................................................13
Precauciones que se debe tomar :.........................................................................13
Navegar sin dejar rastro:........................................................................................14
Cmo hacerlo?...................................................................................................... 14
CAPITULO V................................................................................................................... 14
INTERNET PROFUNDO................................................................................................ 15
5.1 ORIGEN............................................................................................................. 15
5.2 TAMAO............................................................................................................ 15
5.3 DENOMINACIN................................................................................................. 16
5.4 RASTREANDO EL INTERNET PROFUNDO............................................................16
5.5 RECURSOS DEL INTERNET PROFUNDO..............................................................17

INTRODUCCIN
Cuando hablamos de la Internet profunda, hablamos a vez de un espacio ms libre, ms
abierto pero no tan neutral como la Internet comercial que todas conocemos. Dicen las
malas lenguas que en este espacio podremos encontrar sicarios a sueldo, venta directa
de drogas, armas..., todo lo que la comn mente podra tachar de deleznable. Aunque la
teora conspirativa suene a ciencia ficcin, hay veces en que las malas lenguas no estn
demasiado alejadas de la realidad.
Hoy buscar informacin en Internet puede llegar a convertirse en una experiencia poco
agradable, puede recuperarse gran cantidad de informacin irrelevante y no encontrar lo
que necesita. No slo porque hay que saber cmo utilizar los llamados buscadores o
mquinas de bsquedas tradicionales para obtener el mximo provecho, sino porque
stos apenas indizan una pequea parte de todo lo que la red puede ofrecer. Buscar
informacin utilizando los buscadores tradicionales puede ser comparado con arrastrar
una red en la superficie de un ocano. No podr obtener muchos peces de aguas
profundas.
La empresa BrightPlanet sostiene, merced a un estudio basado en datos recogidos entre
el 13 y el 30 de marzo de 2000, que la disponibilidad de informacin pblica en el llamado
Deep Web o Web Profundo es alrededor de 550 veces mayor que en el Web Superficial
(Surface Web), lo que comnmente llamamos World Wide Web.
El Web Profundo almacena pginas dinmicas que se obtienen en respuesta a
interrogaciones directas a bases de datos; almacena documentos en formatos especficos
diferentes de HTML, como por ejemplo pdf, doc, software, audio, videos, entre otros. La
mayor parte de esta informacin no se recupera utilizando los buscadores tradicionales.
En este trabajo se pretende dar a conocer qu es el Deep Web o Web Profundo y mostrar
algunas de las herramientas que existen en la actualidad para acceder a la informacin
que en l se encuentra.

DEEP WEB
CAPITULO I
FUNDAMENTOS DE LA DEEP WEB

1.1. CONCEPTOS

La Deep web o en espaol internet profunda es una porcin presumiblemente muy grande
de la Internet que es difcil de rastrear o ha sido hecha casi imposible de rastrear y
deliberadamente, como lo es el caso del Proyecto Thor, caso en el cul ha sido hecha de
sta manera va usando mtodos poco convencionales, cmo con la prosificacin con
muchos proxy`s, el no utilizar direcciones de Internet, sino cdigos y el utilizar el
pseudodominio de nivel superior unin, la cual fue creada por la Armada de los Estados
Unidos como una prueba y ahora es aprovechada por delincuentes cibernticos.

1.2. CARACTERISTICAS

a) Posee entre 400 y 500 veces ms informacin que la Web normal


b) Entorno al 95% de la web profunda es de informacin accesible al pblico,
es decir, no hay que pagar nada por ella.
c) Hay ms de 200 mil millones de sitios web asociados a la Deep Web
d) La relacin contenido-calidad es de alrededor de un 1000% respecto de la
web superficial.
e) Las pginas funcionan bajo software que protege su identidad, como puede
ser TOR.

1.3. VENTAJAS

El inmenso potencial de las redes y el inters por saber quines estn detrs del
teclado realizando todo tipo de actividades, ha dado pie a que las personas
protejan su identidad y as, que lleven a cabo al mximo su libertad de expresin
de manera annima.

El anonimato va ms all de "hackear" a usuarios, el

anonimato real permite que las personas se expresen sin riesgos. La Red
Profunda, es una herramienta muy til para el gobierno ya que sirve para
monitorear crmenes, terrorismo y actividades ilcitas. Tambin, podemos navegar
libremente por ella sin que se guarden los datos de lo que vemos y visitamos.
Existe una gran cantidad de informacin que slo lo podemos encontrar en lo
profundo como:

Investigaciones cientficas
Libros censurados por el gobierno y libros normales
Directorios
Venta de productos

1.4. DESVENTAJAS

En la Red Profunda hay demasiadas cosas como para contarlas, el contenido de esta
supera por mucho al de la que normalmente conocemos y en ella vas a encontrar desde
lo bueno y til hasta lo asqueroso y detestable.

Lamentablemente, al ser una red muy grande, sin restricciones y annima, hay una gran
posibilidad de encontrar contenido como:

Pornografa de todo tipo


Imgenes grotescas
Videos de crmenes
Piratera
Contratacin de personas para asesinatos
5

Venta de armas y drogas


Trfico de rganos

Teniendo en cuenta los aspectos anteriores, podremos hacer un juicio de los peligros y
beneficios que supone la Red Profunda. La decisin es personal y no debemos dejar que
las opiniones de los dems influyan en nuestra decisin. Es cierto que es peligroso pero si
se toman las precauciones necesarias y no se ingresa a archivos desconocidos o de
aspecto peligroso, no se encontrarn contenidos indeseables.

CAPTULO II

LA DEEP WEB
2.1 MITO O REALIDAD

Lejos de las posibles conspiraciones cibernticas, centrarnos el artculo en las


posibilidades reales y positivas de la Deep Web. La Deep web o Internet profunda son
redes que escapan a los buscadores ms conocidos de la superficie, de ah su nombre.
Sus pginas, manuales, documentos..., no estn indexados y necesitamos usar
programas especficos para poder acceder a ellas. Son las bases de datos no indexadas,
son redes que no quieren mantener comunicacin con la Internet comn, son las entraas
de la red, los suburbios. No se trata de un dogma de fe, algo supuesto e intangible; en el
2000 se hablaba de 7.500 Tera Bytes de informacin! Impresionados? Bien. Pues sabed
que la Universidad de Berkeley, California, estima que actualmente la Internet Profunda
debe tener unos 91.000 Tera Bytes. Tal vez la forma ms sencilla, aunque poco original de
explicar este fenmeno, sea el iceberg. Es un excelente smil; claro y conciso.
Se dice que la Deep web no se navega, se bucea, y es comn sentirse perdido las
primeras veces; se trata de un ejercicio nuevo en un elemento conocido, y eso genera
cierta confusin y tendencia a abandonar el intento. Los principales problemas con los
que tropezamos son los siguientes:
No sabemos cules son los enlaces de inters ni sabemos cmo llegar a ellos.
Tambin es comn que al intentar acceder a un servicio de la Deep web, este se
encuentre cado, perdido o muerto.
Hay que tener en cuenta que el mantenimiento de estas pginas, foros, chat, servicios.
No es tan habitual como el de una pgina web comercial, la de un peridico de xito o la
de un blog conocido en la Internet comn, pero como todo en esta vida, no tenemos ms
que seguir buscando, curioseando e incluso fisgando para poder encontrar cuales son
esos buenos enlaces.

2.2 YA SABEMOS NAVEGAR

Cuando nos adentramos en los suburbios de nuestras ciudades, acostumbramos a


hacerlo con cautela, paseamos con alguien que conozca el terreno, por ejemplo, o al
menos, buscamos informacin de primera mano sobre lo que pretendemos explorar. Lo
mismo deberamos hacer al entrar a la Deep web.
Son muchos los servicios y programas que nos permiten bucear por ella y aunque TOR
es una de los ms conocidos y es sobre el que har hincapi en este artculo, tambin es
cierto que existen algunos otros y que funcionan igual de bien, o incluso mejor que TOR.
Cabe mencionar tambin dos grandes redes que aunque menos conocidas son igual de
importantes: Freenet o i2p.
Tenemos que hacer la eleccin correcta en base a nuestras necesidades ya que todas
han sido desarrolladas con diferentes propsitos. Es comn pensar, de hecho as lo hago
yo, que la idea romntica y hacker del anonimato es una de las ms importantes
convicciones a la hora de acceder a este tipo de redes.

2.3 PONER EN MARCHA NUESTRO ANONIMATO


La gente que busca preservar el anonimato de su identidad en la red (tanto si es en la
onion web como en la Internet comercial) usa servicios que estn en la red TOR. Todas y
cada una de nosotras tenemos la posibilidad de desplegar servicios ocultos en nuestros
servidores con una relativa facilidad. A la hora de instalar un Hidden Service web tenemos
que hacer unas configuraciones muy simples en los ficheros de configuracin de TOR.

2.4 APLICACIONES DE LA DEEP WEB


La lista de beneficios de usar la red TOR para navegar en internet no es que sea
muy larga, pero las ventajas que obtenemos son importantes. Algunas de las
ventajas obtenidas son las siguientes:

Poder navegar annimamente en la red. Nuestra identidad estar


completamente oculta. Ni nuestro proveedor de internet podr saber las
pginas web que hemos visitado.

El trfico que generamos viajar de forma cifrada. Por lo tanto

la navegacin es ms segura.
Acceder a la totalidad de contenido ubicado en la llamada Deep web.
Acceder a contenidos web que estn bloqueados geogrficamente.

2.5 NO ES SEGURO
Aunque los suburbios y el anonimato pueden ser un excelente caldo de cultivo de
acciones deleznables, tambin se gestionan contracciones por parte de los usuarios de
estos bajos fondos.
As pues, cuando Freedom Hosting permita que redes de pederastas montaran sus
servicios dentro de sus servidores, Anonymous, al igual que otros muchos, pens que eso
no se poda permitir y se lanz uno de los mayores ataques colectivos que se han dado
en la Internet oculta: #opDarknet Dicha accin fue un xito y cayeron servicios importante
de pederastia como lo fue TORpedo.
Los integrantes de Anonymous lo comunicaron tanto en The house of anonymous como
en la Internet comercial. Con esto no quiero decir que todo lo que se hace en los
suburbios sea bueno o sea malo, quiero decir que el anonimato y sus posibilidades son
una herramienta ms, no un modo moderno de ser impune.

CAPITULO III

MTODOS DE PROFUNDIZACIN

4.1 TOR
The Onion Router, en su forma abreviada Tor, es un proyecto cuyo objetivo principal es el
desarrollo de una red de comunicaciones distribuida de baja latencia y superpuesta sobre
internet en la que no se revele la identidad de los usuarios (anonimato a nivel de red)
adems de mantener la integridad y el secreto de la informacin mientras esta viaja a
travs de ella. Por este motivo se dice que esta tecnologa pertenece a la llamada Deep
web.
El uso de este tipo de herramientas est bastante extendido en las activistas polticas. El
uso de los proxyes camufla tu rastro en Internet y adems te permite saltarte algunas de
las restricciones que, como es bien conocido, algunos gobiernos imponen sobre la red y
su uso. TOR permite preservar tu privacidad dentro de las web que visitas, permite ocultar
los destinos en lnea de nuestros ISPs y por ltimo y no por ello menos importante nos
permite saltarnos filtros de censura en Internet. Pero es importante saber que TOR fue
diseado para preservar tu privacidad en una capa de red pero no lo fue para preservarla
en tus comunicaciones en lnea. Por lo que no debera ser utilizado para enviar
informacin a servicios web que usen una canal de comunicacin inseguro (http).
TOR ofrece un software para conectarnos a los diferentes proxyes de su red. Para ello es
necesario acceder a su web en la Internet comercial y descargarnos el software en forma
de bundle o instalarlo en GNU/Linux usando el gestor de paquetes de nuestra distribucin
favorita.
En los dos casos se recomienda la instalacin del Vidalia, su panel de administracin, as
como Polipo, nuestro propio PROXY. Y en caso de que elijamos la segunda forma de
instalacin tendremos que instalar el plugin ProxyFoxy para Firefox, en el primer caso el
navegador en formato de Bundle ya dispone de la gestin de proxy necesaria para red
TOR usando la extensin de Firefox TOR Buttom.
10

4.2 BITCOIN
Mercados ilegales estn alojados en servidores que son exclusivos para usuarios de TOR.
En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se
utiliza la moneda digital llamada Bitcoin, que tiene sus orgenes en 2009, pero que se ha
vuelto todo un fenmeno desde 2012, que se intercambia a travs de billeteras digitales
entre el usuario y el vendedor, lo que hace que sea prcticamente imposible de rastrear.
Existen muchos mitos acerca de la internet profunda. El internet profundo no es una
regin prohibida o mstica de internet, y la tecnologa relacionada con ella no es malvola.
Ya que en ella tambin se alberga lo que ahora se conoce como AIW (Academic Invisible
Web: internet acadmica invisible por sus siglas en ingls) y se refiere a todas las bases
de datos que contienen avances tecnolgicos, publicaciones cientficas, y material
acadmico en general.

4.3 WEB CRAWER


Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la
totalidad de internet en busca de las posibles respuestas, sino que busca en su propia
base de datos, que ha sido generada e indizada previamente. Se utiliza el trmino araa
web (en ingls web crawler) o robots (por software, comnmente llamados "bots")
inteligentes que van haciendo bsquedas por enlaces de hipertexto de pgina en pgina,
registrando la informacin ah disponible.
El contenido que existe dentro de la internet profunda es en muy raras ocasiones
mostrado como resultado en los motores de bsqueda, ya que las araas no rastrean
bases de datos ni los extraen. Las araas no pueden tener acceso a pginas protegidas
con contraseas, algunos desarrolladores que no desean que sus pginas sean
encontradas insertan etiquetas especiales en el cdigo para evitar que sea indexada. Las
araas son incapaces de mostrar pginas que no estn creadas en lenguaje HTML, ni
tampoco puede leer enlaces que incluyen un signo de interrogacin. Pero ahora sitios web
no creados con HTML, o con signos de interrogacin estn siendo indexados por algunos
motores de bsqueda. Sin embargo, se calcula que incluso con estos buscadores ms
avanzados solo se logra alcanzar el 16% de la informacin disponible en el internet
profunda. Existen diferente tcnicas de bsqueda para extraer contenido de la internet
11

profunda como libreras de bases de datos o simplemente conocer el URL al que quieres
acceder y escribirlo manualmente.

CAPITULO IV

INFLUENCIA CIBERNTICA
4.1 ESPIONAJE
Desde la existencia del internet como fuente de informacin pblica, esta gigantesca red
mundial nos ha proporcionado el contacto y la comunicacin global, pero con el transcurrir
de los aos al desarrollarse nuevas tecnologas, el espionaje ha crecido de la mano del
internet, es por esta razn que muchas personas (en especial hackers) se han dedicado a
sacar a la luz informacin confidencial de los gobiernos (especialmente las potencias
mundiales) como una manera de protesta, con el fin de mostrar la realidad a la gente y de
alguna manera recapacitar sobre los actos que la humanidad desconoce.
Los casos ms conocidos que se han suscitado ltimamente son:

Julian Assange.- Es el creador y director de la organizacin Wikileaks, en la que se lo


acusa por haber filtrado y citado en esta pgina muchos secretos del gobierno, bancos y
empresas de EE.UU, que perjudicaban a los ciudadanos, que buscaban enriquecer ms
al gobierno mediante la estafa. l revel aquella informacin y por eso que el gobierno lo
busca para su detencin inmediata. En la actualidad Julian Assange se encuentra en la
embajada de Ecuador en Londres. Donde el Estado americano no puede hacer nada para
su realizar su detencin.

12

Edward Snowden.- Es un consultor tecnolgico, ex informante de la CIA (Central


Inteligence Agency) y la NSA (National Security Agency), en el ao 2013
Snowden hizo pblicos algunos documentos de estado concernientes a
proyectos de la NSA (National Security Agency) y software de vigilancia
electrnica como el PRISM y XKeyscore utilizados para espiar las acciones de
otros Estados, al revelar dicha informacin pone en jaque mate la supuesta
integridad del estado.

4.2 CMO ACCEDER A LA DEEP WEB?

Para acceder a la Deep Web debemos estar totalmente preparados frente a lo que
podamos encontrar, por ms inocente que sea el motivo por el cual accedamos a ella no
puede daar y cambiar nuestra manera de pensar totalmente. Es recomendable no
acceder ni aventurarse en este lado del internet.
A continuacin, ser necesaria una serie de pasos que se debe seguir si se quiere tener
una navegacin segura. Para acceder a la Deep Web, se preguntarn a que se debe
tanta seguridad, pero es necesaria por diferentes razones, principalmente porque ah
todos los dominios son de tipo .onion, esto quiere decir que solo ciertas personas tienen
permiso pueden acceder tranquilamente a esta red, para todos los dems es necesaria
esta seguridad para no ser rastreados y que sus datos personales sean usados por
diferentes operativos para fines totalmente desconocidos.

A continuacin, se pondrn a su disposicin todos los pasos y precauciones que se debe


tomar antes de ingresar a este sitio.
Precauciones que se debe tomar :

Usar un equipo con un sistema operativo avanzado (Linux)


Cubrir la Web Cam en su totalidad, esto se debe a la existencia de espas

cibernticos
Apagar el micrfono, recomendable Desconectarlo
Asegurarse con un firewall seguro y activo
Si es posible se podra congelar la mquina
13

Usar una cuenta de pc que no sea tuya, sino una extra


No compartir en la Deep web ninguna informacin mucho menos el E-mail

Navegar sin dejar rastro:


Necesitamos un nuevo proxy o un navegador que cambie nuestra direccin IP, para
no dejar rastro de nuestra ubicacin al momento de sumergirnos en la Deep Web, el
navegador recomendado es Tor Browser Bundle

Cmo hacerlo?
Hacerse con el programa es sencillo una vez descargado, lo extraemos, ejecutamos
normalmente y Listo, automticamente se abrir una ventana similar a la del
navegador Mozilla Firefox, nadie dentro de la Deep web, no puede rastrear con este
programa, tendremos una seguridad total, lo siguiente seria conseguir links de la
Deep Web para investigar lo oscuro que esta posee, los cuales no aparecern en
esta monografa ya que es un trabajo que sirve para informar mas no para provocar.

4.3 PARA QUIENES FUE CREADA LA DEEP WEB?


La Deep web fue formada para realizar actividades ilcitas, todos los humanos hemos
tenido en un momento de la vida pensamientos macabros, pero est en nosotros en dejar
el mal atrs porque sabemos las consecuencias a las que nos llevaran estos actos, para
todos aquellos que el controlarse no existe en su vocabulario la Deep web les ayuda a
formar grupos vandlicos annimamente asegurando su identidad (ya que es ms fcil
cometer actos violentos sin ser descubierto).
Aquellas personas tienen un concepto muy deformado de pensar, esta gente tiende a ser
extremista y esta inclinada a la violencia en todas sus formas. Entre sus gustos
encontramos adiccin por el GORE, JAILBAIT y pornografa feticheetc.
Conociendo el contenido en la Deep web es indiscutible que no es para nosotros, lo nico
que se puede hacer es intentar olvidar que existe esto, ir con cuidado mientras se navega
diariamente.

14

CAPITULO V
INTERNET PROFUNDO
5.1 ORIGEN

La principal causa de la existencia del internet profundo es la imposibilidad de los motores


de bsqueda (Google, Yahoo! Bing, etc.) de encontrar o indexar gran parte de la
informacin existente en internet. Si los buscadores tuvieran la capacidad para acceder a
toda la informacin entonces la magnitud de la internet profunda se reducira casi en su
totalidad.
No obstante, aunque los motores de bsqueda pudieran indexar la informacin del
internet profundo esto no significara que esta dejar de existir, ya que siempre existirn
las pginas privadas. Los motores de bsqueda no pueden acceder a la informacin de
estas pginas y solo determinados usuarios, aquellos con contrasea o cdigos
especiales, pueden hacerlo.

5.2 TAMAO
El internet profundo es un conjunto de sitios web y bases de datos que buscadores
comunes no pueden encontrar ya que no estn indexadas. El contenido que se puede
hallar dentro de la internet profunda es muy amplio.
Se estima que el internet profundo es 500 veces mayor que el internet superficial, siendo
el 95 % de esta informacin pblicamente accesible.
El internet se ve dividido en dos ramas, El internet profundo y la superficial. El internet
superficial se compone de pginas estticas o fijas, mientras que la web profunda est
compuesta de pginas dinmicas. Las pginas estticas no dependen de una base de
datos para desplegar su contenido sino que residen en un servidor en espera de ser
recuperadas, y son bsicamente archivos HTML cuyo contenido nunca cambia.
Todos los cambios se realizan directamente en el cdigo y la nueva versin de la pgina
se carga en el servidor. Estas pginas son menos flexibles que las pginas dinmicas.
Las pginas dinmicas se crean como resultado de una bsqueda de base de datos. El

15

contenido se coloca en una base de datos y se proporciona solo cuando lo solicite el


usuario.
En 2010 se estim que la informacin que se encuentra en la internet profunda es de
7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que
se puede encontrar en la internet superficial. En comparacin, se estima que la internet
superficial contiene solo 19 terabytes de contenido y un billn de documentos individuales.
Tambin en 2010 se estim que existan ms de 200 000 sitios en la internet profunda.
Estimaciones basadas en la extrapolacin de un estudio de la Universidad de California
en Berkeley especula que actualmente la internet profunda debe tener unos 91 000
Terabytes.

5.3 DENOMINACIN
Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede acceder
por medio de la World Wide Web que los buscadores de uso general no pueden, debido a
limitaciones o deliberadamente, agregar a sus ndices de pginas webs.
La Web profunda se refiere a la coleccin de sitios o bases de datos que un buscador
comn, como Google, no puede o quiere indexar. Es un lugar especfico del internet que
se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la
identidad de uno, a menos que uno lo dese.
Bergman, en un artculo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencion que Gil Ellsworth utiliz el trmino Web invisible en
1994 para referirse a los sitios web que no estn registrados por algn motor de
bsqueda.

5.4 RASTREANDO EL INTERNET PROFUNDO


Los motores de bsqueda comerciales han comenzado a explorar mtodos alternativos
para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido
por Google en 2005) y OAI son mecanismos que permiten a los motores de bsqueda y
otras partes interesadas descubrir recursos de la internet profunda en los servidores web
16

en particular. Ambos mecanismos permiten que los servidores web anuncien las
direcciones URL que se puede acceder a ellos, lo que permite la deteccin automtica de
los recursos que no estn directamente vinculados a la Web de la superficie.
El sistema de bsqueda de la Web profunda de Google pre-calcula las entregas de cada
formulario HTML y agrega a las pginas HTML resultantes en el ndice del motor de
bsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al
contenido de la Web profunda. Este sistema se realiza utilizando tres algoritmos claves:
La seleccin de valores de entrada, para que las entradas de bsqueda de texto acepten
palabras clave.
La identificacin de los insumos que aceptan solo valores especficos (por ejemplo,
fecha).
La seleccin de un pequeo nmero de combinaciones de entrada que generan URLs
adecuadas para su inclusin en el ndice de bsqueda Web.

5.5 RECURSOS DEL INTERNET PROFUNDO


Los recursos del internet profundo pueden estar clasificados en las siguientes categoras:

contenido de acceso limitado: los sitios que limitan el acceso a sus pginas de una
manera tcnica (Por ejemplo, utilizando el estndar de exclusin de robots o captcha, que
prohben los motores de bsqueda de la navegacin por y la creacin de copias en cach.

contenido dinmico: las pginas dinmicas que devuelven respuesta a una pregunta
presentada o acceder a travs de un formulario, especialmente si se utilizan elementos de
entrada en el dominio abierto como campos de texto.

contenido no enlazado: pginas que no estn conectadas con otras pginas, que
pueden impedir que los programas de rastreo web tengan acceso al contenido. Este
material se conoce como pginas sin enlaces entrantes.

contenido programado: pginas que solo son accesibles a travs de enlaces


producidos por JavaScript, as como el contenido descargado de manera dinmica a partir
de los servidores web a travs de soluciones de Flash o Ajax.

17

sin contenido HTML: contenido textual codificado en multimedia (imagen o video)


archivos o formatos de archivo especficos no tratados por los motores de bsqueda.

web privada: los sitios que requieren de registro y de una contrasea para iniciar
sesin

web contextual: pginas con contenidos diferentes para diferentes contextos de


acceso (por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegacin
anterior).

18

You might also like