Varios Como se crea un PDF que no permita a los bots leer el texto para indexarlo , algo asi como que se cree el PDF no como texto sino como imagen ?

Temas trasversales entre versiones de Windows y otros temas.

juanitapregunta

Babea la almohada
16 Feb 2006
4,729
Muchachos como se evita que los bots indexen los PDF ? he visto que hay PDFs que no dejan seleccionar el texto , y se comportan como imagenes , pero no se como se llama ese "subformato" de PDF . ( Y no se si al guardarlos como imagen los bots ya no pueden leer el texto)

He chismoseado ilovepdf , smallpdf , pero no veo una opcion para esto :unsure:

Nota: NO se tiene el control de la plataforma a donde se subiran, ni se puede elegir otra.
 
Última edición:
Lo más sencillo para eso sería convertir las páginas del pdf a imágenes jpg.
Tu dices convertir el documento de texto a imagenes y luego esas imagenes a PDF ?

Podria ser pero sin son varios documentos de texto se vuelve engorroso .

No habra algo asi como una web o programa que se le diga que deshabilite la opcion de que el PDF sea interpretado como texto
 
Tu dices convertir el documento de texto a imagenes y luego esas imagenes a PDF ?

Podria ser pero sin son varios documentos de texto se vuelve engorroso .

No habra algo asi como una web o programa que se le diga que deshabilite la opcion de que el PDF sea interpretado como texto

Esta herramienta de pronto le puede servir:


1693588754777.png
 
Eso es perder el tiempo, (ejemplo de) facebook reconoce texto en cualquier imágen, no tiene nada de raro que sea PDF, imágen o no.

1693589554143.png


Lo único que se me ocurre es proteger el archivo para que solo se pueda abrir con contraseña.


Tony.
 
Eso es perder el tiempo, (ejemplo de) facebook reconoce texto en cualquier imágen, no tiene nada de raro que sea PDF, imágen o no.

Ver el archivos adjunto 568773

Lo único que se me ocurre es proteger el archivo para que solo se pueda abrir con contraseña.


Tony.
Lastimosamente no oseria viable ponerle una contraseña de lectura, crees que con una contraseña de escritura evitaria la indexada del bot ?

O si se crea como imagen selecionando que desactive el OCR (No se si esto se pueda) no inabilitaria la indexada del bot ? :unsure:
 
Lastimosamente no oseria viable ponerle una contraseña de lectura, crees que con una contraseña de escritura evitaria la indexada del bot ?

O si se crea como imagen selecionando que desactive el OCR (No se si esto se pueda) no inabilitaria la indexada del bot ? :unsure:

Si el bot tiene acceso al PDF yo creo que no hay nada que hacer. Podrá usar cualquier algoritmo que reconozca el texto por un lado o por el otro (cómo imágen o cómo texto). Ponerle protección de impresión o esas cosas de pronto pueda dificultar un poco más el proceso, pero no creo que sea infalible.

Ya del otro lado, sería poner un firewall que bloquee los bots (al menos al acceso al PDF) 🤷‍♂️

Pero eso ya es otro camello.


Tony.
 
  • Me gusta
Reacciones: juanitapregunta
Si el bot tiene acceso al PDF yo creo que no hay nada que hacer. Podrá usar cualquier algoritmo que reconozca el texto por un lado o por el otro (cómo imágen o cómo texto). Ponerle protección de impresión o esas cosas de pronto pueda dificultar un poco más el proceso, pero no creo que sea infalible.

Ya del otro lado, sería poner un firewall que bloquee los bots (al menos al acceso al PDF) 🤷‍♂️

Pero eso ya es otro camello.


Tony.
Nopi los PDFs deben ser de acceso publico , lo que se necesita es que los bots de los buscadores no indexen el texto interno de los PDFs
 
Ya debe haber robots apoyados con IA y computadores cuánticos para desencriptar archivos protegidos melodeando la web, asi que cada vez mas pailander la seguridad...
Ya es necesario averiguar el proximo numero primo de los conocidos para ver si actualizan los protocolos de encriptación, lo que usamos ya debe ser un "piece of cake" para los mejores piratas informáticos
 
Efectivamente, de nada sirve que no se pueda seleccionar el texto, si tú puedes leer el texto cualquier herramienta de OCR lo podrá leer, aunque si puedes guardarlo como imágenes tal cual comentaban más arriba, añade una capa más de complejidad y pese a que igual manera los bots podrán leerlo, solamente lo van hacer los que cuenten con esta capa de complejidad extra en su desarrollo.
 
  • Me gusta
Reacciones: juanitapregunta
Nopi los PDFs deben ser de acceso publico , lo que se necesita es que los bots de los buscadores no indexen el texto interno de los PDFs

Si la idea es que buscadores como Google no encuentren el documento al escribir una frase exacta de lo que contengan, solo con que el PDF sea de imagen (como mostraron más arriba) estarías bien. Por lo general, no se pone un algoritmo para que lea cada documento que hay en internet, sea de imagen o de texto (que puede que alguien lo haya hecho, sí, pero lo veo más como algo personal). Si es solo texto, pues sí, se indexa tarde o temprano, pero de imagen no tanto.

Ya otra cosa es tomar el PDF en particular y hacerle un proceso de OCR. Contra eso no hay nada que hacer. Si alguien se toma la molestia de descargar el documento, no le va a pesar quitarle bloqueos de impresión o de escritura, incluso de acceso. En internet hay infinidad de herramientas para eso.

En resumen, si el temor es que Google o similares arrojen el PDF en sus resultados, la probabilidad es mínima. Si la intención es que después de tener el documento se haga algún proceso para que herramientas digitales no puedan acceder al contenido, nada que hacer.
 
  • Me gusta
Reacciones: juanitapregunta
Por que tanto enredo, si tienes acceso al servidor, en el archivo robots.txt puede poner el archivo o carpeta que no quieres que indexen los motores de busqueda, por se super cuidadosa con eso por que puedes dar de baja todo el dominio
Exacto, eso mismo iba a decir.
Solo sería crear un .htaccess en el directorio donde van a estar los archivos bloqueando a los buscadores y el listado de documentos.

Bueno.. y por qué no quieres que se indexe?

Para mi es muy mala práctica subir documentos y que se permita a los buscadores indexar, sabe cuanta información uno no encuentra con la cédula o nombre de la persona solo porque universidades, instituciones públicas o empresas suben archivos a los servidores sin protección. Inclusive yo he encontrado hasta actas de juntas directivas o información de empresas.
 
Última edición:
  • Me gusta
Reacciones: juanitapregunta
Por que tanto enredo, si tienes acceso al servidor, en el archivo robots.txt puede poner el archivo o carpeta que no quieres que indexen los motores de busqueda, por se super cuidadosa con eso por que puedes dar de baja todo el dominio

Exacto, eso mismo iba a decir.
Solo sería crear un .htaccess en el directorio donde van a estar los archivos bloqueando a los buscadores y el listado de documentos.



Para mi es muy mala práctica subir documentos y que se permita a los buscadores indexar, sabe cuanta información uno no encuentra con la cédula o nombre de la persona solo porque universidades, instituciones públicas o empresas suben archivos a los servidores sin protección. Inclusive yo he encontrado hasta actas de juntas directivas o información de empresas.
No se tiene control del server para hacer un Noindex .

Y precisamente los del server tienen esa mala practica que dices de permitir indexar todos los documentos a los bots.

Bueno.. y por qué no quieres que se indexe?
Es contenido reservado del que no se tiene interes que sea indexado.
 
Es contenido reservado del que no se tiene interes que sea indexado.
Y si son reservados, ¿para qué los publican en Internet? Póngalos en una Intranet, en un fileserver, en un Sharepoint, en algún repositorio que requiera autenticación para acceso. Sería lo obvio. PE: las EPS publican resultados de exámenes a los cuales sólo los usuarios con credenciales tienen acceso, pero no los buscadores 🤷‍♂️
 
Puedes agregar contenido que aún no haya sido indexado por los motores de búsqueda a un archivo robots.txt para evitar que se muestre en los resultados de búsqueda.
 
Y si son reservados, ¿para qué los publican en Internet? Póngalos en una Intranet, en un fileserver, en un Sharepoint, en algún repositorio que requiera autenticación para acceso. Sería lo obvio. PE: las EPS publican resultados de exámenes a los cuales sólo los usuarios con credenciales tienen acceso, pero no los buscadores 🤷‍♂️

Puedes agregar contenido que aún no haya sido indexado por los motores de búsqueda a un archivo robots.txt para evitar que se muestre en los resultados de búsqueda.
No se tiene control del server para hacer un Noindex .
 

Los últimos temas