[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

evitar que google muestre archivos pdf del server



Holas

En un servidor donde tenemos una pequeña (y vieja) intranet se
publican a los usuarios algunos documentos de procedimientos internos
y otras cosas.  Ultimamente hemos notado que google muestra en los
resultados de busqueda algunos de esos documentos.  No es informacion
altamente confidencial, pero tampoco es necesario que google la
muestre en sus busquedas.

Lo ideal seria proteger el acceso con una validacion previa de los
usuarios, pero esto seria modificar el sitio como tal, lo cual
realmente no vale la pena, ya que seguira publicado hasta que su
reemplazo este listo (estan en ese desarrollo, pero no se
especificamente cuando sera tal cosa).  Busco entonces establecer
controles desde el mismo servidor web, o desde el firewall.

Investigando he encontrado que con un robot.txt puede definirse que
deseo y que no deseo que sea indexado por google.  Tambien he
modificado el mime en apache para que no permita la lectura en linea
del archivo sino que obligue su descarga, para luego proceder a
renombrar el directorio que contiene los documentos, para evitar el
acceso a los mismos por medio del cache de google.

Lo anterior solo aplica para controles directos desde apache.  No se
si podria implementar algo complementario en el firewall o si usando
un proxy inverso puedo agregar algun control para esa situacion

Pueden ustedes algunos otros metodos adicionales para evitar por medio
del servidor que esos archivos puedan ser encontrados sin que se
conozca explicitamente su ruta?

Muchas gracias a todos.

«Existen dos cosas infinitas:
el universo y la estupidez humana... y no estoy muy seguro de la primera» :
Albert Einstein


Reply to: