Varios Como se crea un PDF que no permita a los bots leer el texto para indexarlo , algo asi como que se cree el PDF no como texto sino como imagen ?

Temas trasversales entre versiones de Windows y otros temas.
No se tiene control del server para hacer un Noindex .
Bueno, entonces sube los archivos a un s3 de amazon o algun servicio y configuras las politicas del bucket, si lo quieres privado o no, si quieres que se indexen los archivos o no, si quieres generar una url prefirmada, cada x tiempo para que solo sea accesible cuando el usuario inicie sesion, lo puedes restringir por pais, ip, etc.
 
En las clases de que comparto de seguridad de la información, comienzo con esta frase,
No se vayan a comprar un martillo para matar un mosquito, y es eso, no se inventen un problema para buscan una solución.
Toda solución es simple, y si no lo es, entonces no la solución o no se entiende el problema.
Quiere tener un pdf seguro que sea de difícil captación, fácil, Adobe y Phanton Pdf se lo hacen, se llama seguridad adicional es un apartado de seguridad mejorada, que es eso? es la vinculación de un documento XML que se sube con el archivo pdf o se anexa donde este el documento, no se puede imprimir, modificar o "leer OCR" o copiar o indexar, si no quiere los archivos por separado le dice crear contenedor seguro que hace un pdf 2.0 el cual funciona como un matioska file, sirve para que el documento en el caso que sea descargado se vincule a un certificado digital el cual bloquea el archivo impidiendo que sea leído u/o abierto por los lectores pdf, si esta porque la gente no lo usa, porque la gente rara vez compra un programa legal y que todos los crack o activadores remueven esas opciones. que, si lo lee ilove pdf o pdf24, no, no lo pueden hacer porque el archivo tiene 2 cadenas de datos cifrados la del tipo de archivo y la de HOLA SOY UN DOCUMENTO SEGURO aseguramiento de la capa Acceso a objetos de id. lógica (XObjects), al lector le salta un mensaje que no lo puedo leer porque no es un archivo PDF y al OCR o editor le sale un mensaje que dice no existe caracteres legibles en el documento y poque un web si la puede leer, pues por XML que le da el permiso a ese host y si le tomo captura y lo paso a texto claro eso lo va a poder hacer, pero cuando realice la captura el documento va una opacidad y los datos no van a hacer de todo legibles.
 
En las clases de que comparto de seguridad de la información, comienzo con esta frase,
No se vayan a comprar un martillo para matar un mosquito, y es eso, no se inventen un problema para buscan una solución.
Toda solución es simple, y si no lo es, entonces no la solución o no se entiende el problema.
Quiere tener un pdf seguro que sea de difícil captación, fácil, Adobe y Phanton Pdf se lo hacen, se llama seguridad adicional es un apartado de seguridad mejorada, que es eso? es la vinculación de un documento XML que se sube con el archivo pdf o se anexa donde este el documento, no se puede imprimir, modificar o "leer OCR" o copiar o indexar, si no quiere los archivos por separado le dice crear contenedor seguro que hace un pdf 2.0 el cual funciona como un matioska file, sirve para que el documento en el caso que sea descargado se vincule a un certificado digital el cual bloquea el archivo impidiendo que sea leído u/o abierto por los lectores pdf, si esta porque la gente no lo usa, porque la gente rara vez compra un programa legal y que todos los crack o activadores remueven esas opciones. que, si lo lee ilove pdf o pdf24, no, no lo pueden hacer porque el archivo tiene 2 cadenas de datos cifrados la del tipo de archivo y la de HOLA SOY UN DOCUMENTO SEGURO aseguramiento de la capa Acceso a objetos de id. lógica (XObjects), al lector le salta un mensaje que no lo puedo leer porque no es un archivo PDF y al OCR o editor le sale un mensaje que dice no existe caracteres legibles en el documento y poque un web si la puede leer, pues por XML que le da el permiso a ese host y si le tomo captura y lo paso a texto claro eso lo va a poder hacer, pero cuando realice la captura el documento va una opacidad y los datos no van a hacer de todo legibles.
Entonces no me compro un martillo sino un lanzacohetes, entendido.
 
Bueno, entonces sube los archivos a un s3 de amazon o algun servicio y configuras las politicas del bucket, si lo quieres privado o no, si quieres que se indexen los archivos o no, si quieres generar una url prefirmada, cada x tiempo para que solo sea accesible cuando el usuario inicie sesion, lo puedes restringir por pais, ip, etc.

En las clases de que comparto de seguridad de la información, comienzo con esta frase,
No se vayan a comprar un martillo para matar un mosquito, y es eso, no se inventen un problema para buscan una solución.
Toda solución es simple, y si no lo es, entonces no la solución o no se entiende el problema.
Quiere tener un pdf seguro que sea de difícil captación, fácil, Adobe y Phanton Pdf se lo hacen, se llama seguridad adicional es un apartado de seguridad mejorada, que es eso? es la vinculación de un documento XML que se sube con el archivo pdf o se anexa donde este el documento, no se puede imprimir, modificar o "leer OCR" o copiar o indexar, si no quiere los archivos por separado le dice crear contenedor seguro que hace un pdf 2.0 el cual funciona como un matioska file, sirve para que el documento en el caso que sea descargado se vincule a un certificado digital el cual bloquea el archivo impidiendo que sea leído u/o abierto por los lectores pdf, si esta porque la gente no lo usa, porque la gente rara vez compra un programa legal y que todos los crack o activadores remueven esas opciones. que, si lo lee ilove pdf o pdf24, no, no lo pueden hacer porque el archivo tiene 2 cadenas de datos cifrados la del tipo de archivo y la de HOLA SOY UN DOCUMENTO SEGURO aseguramiento de la capa Acceso a objetos de id. lógica (XObjects), al lector le salta un mensaje que no lo puedo leer porque no es un archivo PDF y al OCR o editor le sale un mensaje que dice no existe caracteres legibles en el documento y poque un web si la puede leer, pues por XML que le da el permiso a ese host y si le tomo captura y lo paso a texto claro eso lo va a poder hacer, pero cuando realice la captura el documento va una opacidad y los datos no van a hacer de todo legibles.

Se estan agregando variables al escenario. La posibilidad de elegir a donde subir los PDFs no es una opcion .

Los PDFs se tienen que subir a una plataforma especifica, que solo acepta adjuntar PDFS, de la que no se tiene ningun control, y tiene el indexamiento de robots de buscadores totalmente abierto. La pregunta es : como evitar que el contenido de esos PDFs sean indexados por los buscadores en este contexto especifico.
 
  • Me gusta
Reacciones: yancampo
Se estan agregando variables al escenario. La posibilidad de elegir a donde subir los PDFs no es una opcion .

Los PDFs se tienen que subir a una plataforma especifica, que solo acepta adjuntar PDFS, de la que no se tiene ningun control, y tiene el indexamiento de robots de buscadores totalmente abierto. La pregunta es : como evitar que el contenido de esos PDFs sean indexados por los buscadores en este contexto especifico.
Entonces lo unico que puede hacer es subir los pdf ya asegurados, en mi caso que trabajo con el estado me toca subir lo de mi contrato a secop, y estos pdf suben con cifrado de anticopiado y registro de datos seguros (no se pueden ni duplicar ni leer ni imprimir), ES IMPOSIBLE NO INDEXAR SIN ACCESO AL SERVIDOR EN CUESTION. como hago para prender un carro en cali si las llaves estan en bogota y el carro en un garaje donde las llaves estan en neiva.
 
Entonces lo unico que puede hacer es subir los pdf ya asegurados, en mi caso que trabajo con el estado me toca subir lo de mi contrato a secop, y estos pdf suben con cifrado de anticopiado y registro de datos seguros (no se pueden ni duplicar ni leer ni imprimir), ES IMPOSIBLE NO INDEXAR SIN ACCESO AL SERVIDOR EN CUESTION. como hago para prender un carro en cali si las llaves estan en bogota y el carro en un garaje donde las llaves estan en neiva.
En post anteriores otro Lanero sustenta que generalmente los bots de los buscadores no se toman la tarea de extraer texto que esta como imagen para indexarlo y que al crear los PDF como imagen y no como texto podria aumentar la probabilidad que no se indexaran.

Concuerdas ?
 
  • Me gusta
Reacciones: WORKAHOLIC
En post anteriores otro Lanero sustenta que generalmente los bots de los buscadores no se toman la tarea de extraer texto que esta como imagen para indexarlo y que al crear los PDF como imagen y no como texto podria aumentar la probabilidad que no se indexaran.

Concuerdas ?
asi si es si está en modo imagen con una resolución menor a 150pp los bots lo descartan si eso ud le incluye un metadato de confidencial con adobe o phantom pdf, sería poco probable que funcione.
 
  • Me gusta
Reacciones: juanitapregunta
Se estan agregando variables al escenario. La posibilidad de elegir a donde subir los PDFs no es una opcion .

Los PDFs se tienen que subir a una plataforma especifica, que solo acepta adjuntar PDFS, de la que no se tiene ningun control, y tiene el indexamiento de robots de buscadores totalmente abierto. La pregunta es : como evitar que el contenido de esos PDFs sean indexados por los buscadores en este contexto especifico.
No son variables, ya que no das información sobre el contexto completo ni las limitaciones y lo que han hecho acá es darte supuestos a un problema que planteaste sin tener el scope completo
 
  • Me gusta
Reacciones: juanitapregunta
No son variables, ya que no das información sobre el contexto completo ni las limitaciones y lo que han hecho acá es darte supuestos a un problema que planteaste sin tener el scope completo
En el 1er post esta el marco de limites .

Aparte de crear el PDF como imagenes hay alguna otra forma de evitar que los bots indexen en este contexto especifico ?
 
En el 1er post esta el marco de limites .

Aparte de crear el PDF como imagenes hay alguna otra forma de evitar que los bots indexen en este contexto especifico ?
Si no tienes acceso al servidor o a la configuración o el código de la app lo único que se me ocurre es encriptar con contraseña, pero tendrías que verificar si les sirve de esa manera y si la app lo soporta.

La otra opción si tienes esta app como un subdiminio el cual puedas verificar y manejar, podrías usar las herramientas de cada buscador para dar de baja el sub dominio o la extensión de archivos

Esas son todas las opciones, hace algún tiempo se podía agregando una capa ocr al archivo pdf, pero esto deja el archivo editable, dificulta la indexacion pero cualquiera lo podría editar
 
Si no tienes acceso al servidor o a la configuración o el código de la app lo único que se me ocurre es encriptar con contraseña, pero tendrías que verificar si les sirve de esa manera y si la app lo soporta.
Se podria encriptar con contraseña la escritura del PDF pero no la lectura.

La otra opción si tienes esta app como un subdiminio el cual puedas verificar y manejar, podrías usar las herramientas de cada buscador para dar de baja el sub dominio o la extensión de archivos
No entendi esta parte, lo que dices es solicitarle manualmente al buscador que no indexe el contenido de esos archivos porque infringe alguna norma de confidencialidad o derechos de autor o algo asi ?
 
No, supongamos que tienes algo como documentos.laneros.com, si tienes acceso a los dns, puede verificar la propiedad del dominio y con eso puedes solicitar que no indexe las extensiones que requieras, en google con google search console, bing webmaster, pero esto lo tienes que hacer cada 6 meses.

Lo de encriptar, lo puedes hacer con OCR, puedes dejar el texto legible, pero bloqueado para leer como codigo.
 
  • Me gusta
Reacciones: juanitapregunta
No, supongamos que tienes algo como documentos.laneros.com, si tienes acceso a los dns, puede verificar la propiedad del dominio y con eso puedes solicitar que no indexe las extensiones que requieras, en google con google search console, bing webmaster, pero esto lo tienes que hacer cada 6 meses.
No el dominio no es mio . No se tiene control sobre el dominio, CDN, server, ni nada por el estilo, es una plataforma externa controlada por otra gente .

Lo de encriptar, lo puedes hacer con OCR, puedes dejar el texto legible, pero bloqueado para leer como codigo
OCR lo he usado para hacer que el texto de imagenes scaneadas sea seleccionable y legible por programas , pero no se como hacer lo que tu dices.

En que web o que programa permite hacer lo que dices ?
 
1693932298902.png


Esto es lo que tiene el adobe acrobat de base al proteger con contraseña.
 
Ver el archivos adjunto 569090

Esto es lo que tiene el adobe acrobat de base al proteger con contraseña.
Hace años no uso Adobe Acrobat, como es el nombre especifico del programa del que tomaste ese Screenshot ? Adobe acrobat reader, Adobe Acrobat pro ???

Creeria que la cosa va a ser poner una contraseña de escritura e impresion (Que al parecer inhabilita que los bots puedan leer) y para mas sabor que construya el PDF como imagen no como texto .

Sabes sin con ese Adobe Acrobat se le puede decir que guarde el PDF como imagenes ?
 
Hace años no uso Adobe Acrobat, como es el nombre especifico del programa del que tomaste ese Screenshot ? Adobe acrobat reader, Adobe Acrobat pro ???

Creeria que la cosa va a ser poner una contraseña de escritura e impresion (Que al parecer inhabilita que los bots puedan leer) y para mas sabor que construya el PDF como imagen no como texto .

Sabes sin con ese Adobe Acrobat se le puede decir que guarde el PDF como imagenes ?
Es el Adobe Acrobat Pro DC 2021.

La verdad no recuerdo si lo puede convertir a "solo imágenes", sin embargo en las propiedades de seguridad del documento, cuando se protege, puedes optar por ajustar diferentes niveles incluidos los de búsqueda, metadatos, impresión, copyright, etc.
 
  • Me gusta
Reacciones: juanitapregunta
Es el Adobe Acrobat Pro DC 2021.

La verdad no recuerdo si lo puede convertir a "solo imágenes", sin embargo en las propiedades de seguridad del documento, cuando se protege, puedes optar por ajustar diferentes niveles incluidos los de búsqueda, metadatos, impresión, copyright, etc.
Fui disque a bajar el free trial, pero es de esos free trial que hay que meter los datos de la tarjeta para poder bajarlo :( .

Esta opcion pinta como buena , permite asignar contraseña de escritura y tambien rasteriza el documento, que supongo debe aportar a que los bots no vean texto sino imagen . Ya lo probre y efectivamente el buscador del browser no encuentra nada el texto .

1693984889423.png



Esta es otra opcion pero si Rasterizado: https://www.konwerter.net/es/EncryptPDF/
 
Última edición:

Los últimos temas