El PDF tiene texto ilegible al copiar y pegar

Question

2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000

26

El PDF tiene texto ilegible al copiar y pegar

Estoy intentando copiar y pegar un texto de un archivo PDF.

Sin embargo, cada vez que pego el texto original es un enorme lío de caracteres confusos. El texto tiene el siguiente aspecto (esto es sólo un pequeño extracto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Lo he probado tanto en el lector de PDF de Adobe como en el de Foxit. Hice un ‘Guardar como texto’ en Adobe Reader y el archivo de texto resultante es el mismo texto confuso.

¿Alguna idea de cómo puedo conseguir que este texto no sea ilegible? (Aparte de teclear manualmente… hay mucho texto que extraer).

Fuente

ngm http://superuser.stackexchange.com/users/17281

Respuestas (11)

Preguntas relacionadas

10

Quitar o evitar que la barra lateral se abra por defecto en Adobe Reader 280

19

¿Cómo comparar las diferencias entre dos archivos PDF en Windows? 209

12

¿Cómo puedo convertir Markdown con sabor a Github en un PDF? 159

9

¿Combinar/fusionar archivos PDF en Windows? 137

6

Habilitar TLS 1.1 y 1.2 para clientes en Java 7 50

acatalept http://superuser.stackexchange.com/users/17281 · Answer 1 · 2011-04-08 14:40:29 +0000

La forma más sencilla de evitarlo es abrir el archivo en una versión reciente de Google Chrome con el plugin de lectura de PDF incorporado. Entonces puedes usar la función de búsqueda de Chrome para encontrar el texto, y copiar y pegar funciona correctamente.

Me gustaría votar el comentario de pipitas sobre la respuesta de Shiki, pero no tengo las credenciales :( El problema puede ser codificación de fuentes personalizada, no codificación. En Acrobat, haga clic en Archivo -> Propiedades, a continuación, haga clic en la pestaña Fuentes para ver la codificación, y la ficha de Seguridad para ver si está encriptado.

Nick Olszanski http://superuser.stackexchange.com/users/17281 · Answer 2 · 2012-03-18 14:36:54 +0000

4

2012-03-18 14:36:54 +0000

Hay otra manera muy fácil de hacer una solución :)

Simplemente imprime el documento usando CutePdf, Adobe 2 Pdf printer o cualquier cosa similar. La conclusión es que tienes que imprimir en formato pdf.

En muchos casos esto eliminará fácilmente el problema.

Fuente

Nick Olszanski http://superuser.stackexchange.com/users/17281

Daniel http://superuser.stackexchange.com/users/17281 · Answer 3 · 2010-05-18 22:18:44 +0000

Descubrí este problema con los PDF que creé, y creo que he localizado el origen del problema: el uso de Vista Previa de Mac OS X para reducir el tamaño del archivo PDF.

Había creado algunos filtros de cuarzo utilizando Colorsync Utility para comprimir las imágenes en los PDFs para reducir el tamaño total del archivo de los PDFs con imágenes. Tal como se describe aquí: http://www.macosxhints.com/article.php?story=20031106133852693

He descubierto que puedo copiar y pegar fácilmente el texto del archivo PDF original (sin comprimir), pero después de ejecutar ese PDF a través de un filtro de reducción de tamaño de archivo que he creado, el PDF comprimido resultante no copia y pega claramente (sale como las cadenas que has publicado).

Sin embargo, al pasar el mismo PDF original por la función Documento > Reducir tamaño de archivo de Adobe Acrobat Pro, el PDF comprimido resultante puede copiar y pegar texto con éxito.

Por lo tanto, esto no es del todo útil en su caso, suponiendo que su archivo PDF fue recibido desde otro lugar y no puede llegar a la versión original, si es que efectivamente fue comprimido de alguna manera. Pero esa podría ser la explicación - que el archivo fue manipulado de alguna manera en un esfuerzo por reducir el tamaño del archivo.

Esto podría ser útil para los creadores de contenido que se encuentren con problemas similares al copiar y pegar texto desde PDFs - ¡tenga cuidado al usar los filtros Quartz de OS X para reducir sus PDFs!

–edit– También he notado este problema al combinar PDFs con Vista Previa. Los dos PDFs de origen se pueden copiar y pegar sin problemas, pero cuando se arrastra una página de un archivo al otro, y luego se guarda el PDF combinado, el texto en el documento combinado no se puede copiar/pegar. Estos son dos documentos generados al mismo tiempo con Filemaker Pro 11 en Mac - no puedo imaginar que tengan diferentes codificaciones o algo así.

Gavin Miller http://superuser.stackexchange.com/users/17281 · Answer 4 · 2013-01-03 20:36:58 +0000

3

2013-01-03 20:36:58 +0000

Solución que me ha funcionado:

Subir el documento a Google Drive/Docs
Google lo importará (a partir de 2013) como un PDF
Abrir la vista del PDF y elegir Archivo > Abrir con > Google Docs
Tardará aproximadamente un minuto en exportar el documento

Los resultados no fueron perfectos, pero me permitieron llegar al 80% del camino y proporcionarme suficiente texto como para no tener que reescribirlo todo.

Fuente

Gavin Miller http://superuser.stackexchange.com/users/17281

user210118 http://superuser.stackexchange.com/users/17281 · Answer 5 · 2013-03-24 23:59:49 +0000

SOLUCIONADO: (me ha funcionado en Windows 8, Acrobat XI, Office 2010)

Opción 1:

Imprimir desde Acrobat usando “Microsoft XPS Document Writer” La salida es: “su nombre de archivo.oxps”
Abra “…oxps” con XPS Viewer. *(ver enlace de descarga en los comentarios de abajo)
Imprime en PDF (Acrobat PDF, o CutePDF), utilizando la máxima resolución (600 DPI).
Abrir con Acrobat y utilizar la opción OCR (Searchable Image (Exact)).

¡BINGO!

Comentarios:

Si utiliza la resolución más alta y la opción Searchable Image (exact), guardará su texto sin perder su aspecto limpio. Una resolución baja hará que su texto sea legible, pero de aspecto cutre.
Descargue Microsoft XPS (archivos): http://www.microsoft.com/en-us/download/details.aspx?id=11816
Si no sabes qué es el OCR, o dónde encontrar Searchable Image (exact), o cómo imprimir usando “Microsoft XPS Document Writer”, POR FAVOR, búscalo en Google por tu cuenta, para tus mejores experiencias.

\N - Descargue sólo si no tiene XPS instalado.

Opción 2:

Haz lo mismo, pero guarda como imagen (png, tiff, …), luego tendrás que combinar todas las páginas de nuevo en un archivo “PDF”.

Reuti http://superuser.stackexchange.com/users/17281 · Answer 6 · 2011-10-26 18:58:50 +0000

Uno de mis usuarios acaba de reportar el mismo problema (el PDF fue creado con Distiller para Windows), que el texto copiado es sólo texto confuso y no podía buscar dentro de un documento. He probado en mi Mac y no he encontrado ningún problema. Resultó que yo utilizaba la aplicación de Vista Previa de Apple, mientras que él utilizaba Adobe Reader en su máquina Windows. Entonces probé Adobe Reader en mi Mac y me encontré con el mismo efecto. A mí me parece:

Adobe Reader está coqueteando y buscando en el texto guardado.
Apple’s Preview copia y busca después de aplicar el vector de codificación.

No puedo asegurar esto, pero explicaría mi observación. Y efectivamente permitiría hacer todo tipo de codificación al guardar archivos combinados/reducidos como se describe en otro post aquí: con Vista Previa se puede volver a sacar el texto.

Primero pensé que sería más lógico codificar el subconjunto de fuentes incrustadas como entradas contiguas en lugar de dejar huecos dentro y utilizar la ubicación original de los caracteres. Pero luego me di cuenta, que usando un vector de codificación al subconjunto de fuentes con entradas originales, los caracteres que se usan a menudo pueden tener menos bits puestos a 1 en su byte y pueden ser comprimidos de una mejor manera (puede bajar la entrofia del texto total de esta manera).

Emil http://superuser.stackexchange.com/users/17281 · Answer 7 · 2010-06-21 20:51:02 +0000

Existe el riesgo de que la información no sea recuperable en absoluto. Los documentos PDF son esencialmente un documento superpuesto a otro, uno simple texto y el otro una imagen. Al copiar y pegar desde el documento, se marca el texto mientras se mira la imagen, pero lo que se copia en el portapapeles es el trozo correspondiente de la parte de texto.

Dependiendo de la forma en que se haya creado el documento, la calidad y disponibilidad de la parte de texto puede ser muy diferente. Si guarda un documento de procesador de textos en formato PDF, utilizando Acrobat, Word, un controlador de impresora PDF o cualquier otro método, la calidad será normalmente excelente, ya que el archivo de texto puede crearse a partir del texto del original. Es posible que algunos caracteres especiales se distorsionen, pero el texto plano suele estar bien.

Sin embargo, si el documento se crea a partir de una imagen escaneada, la parte de texto suele crearse mediante el procesamiento OCR de la imagen, lo que puede producir resultados bastante lamentables, especialmente si el original no es óptimo para el propósito.

Un mal programa utilizado para crear el PDF, o una configuración incorrecta, también puede hacer que la parte de texto sea completamente confusa, al igual que, posiblemente, algunos tipos de encriptación ejecutados en el archivo después de su creación.

La conclusión es que si la parte de texto del documento es realmente mala, no hay forma de mejorarla. Su mejor opción sería eliminar la parte de texto por completo, y hacer que el programa vuelva a realizar el proceso de OCR. Creo que eso podría hacerse desde Acrobat, pero no estoy del todo seguro.

Kurt Pfeifle http://superuser.stackexchange.com/users/17281 · Answer 8 · 2010-06-24 14:23:21 +0000

Una posible razón para esto podría ser que la incrustación de la fuente en el PDF estaba utilizando una codificación personalizada, que no se aplica correctamente al copiar el texto del PDF.

Puede aplicar diferentes métodos para ahorrarse escribir manualmente todo el contenido.

¿Intentó extraer el texto con una de las herramientas ‘pdftotext.exe’ que se pueden descargar en la red? (Yo recomendaría la incluida en ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
La última versión de Acrobat Reader tiene una opción “Guardar como texto…”. Esto no utiliza “copiar y pegar” (lo que le dio el texto confuso), pero probablemente utiliza las mismas rutinas de software que se utilizan para representar el texto en la pantalla, y por lo tanto puede producir resultados más utilizables.
Si ‘2.’ no funciona, y si tiene acceso a Acrobat Professional: intente volver a destilar el PDF utilizando uno de los perfiles de Distiller con incrustación de fuentes.
Si “3.” no funciona, a pesar de tener acceso a Acrobat Professional: intente volver a destilar el PDF, pero esta vez deberá utilizar la opción “imprimir como imagen” (disponible a través del botón “Avanzado” en la esquina inferior izquierda del cuadro de diálogo principal de impresión). Asegúrate de que utilizas 600 ppp (aunque eso puede producir un archivo enorme). El PDF resultante se abre de nuevo en Acrobat Pro. Ahora aplica el algoritmo “OCR” de Acrobat al archivo, lo que dará como resultado un texto incrustado (que no se utiliza para la representación en pantalla en el Reader, pero sí para buscar y resaltar cadenas). Ahora puede intentar de nuevo extraer el texto de este PDF, utilizando cualquiera de los métodos mencionados anteriormente.

Jhonrie http://superuser.stackexchange.com/users/17281 · Answer 9 · 2013-03-15 21:19:30 +0000

-->

No he probado la opción de Google Docs ya que todavía no es compatible con mi oficina. Sin embargo, imprimiendo el archivo en “ScanSoft PDF Create!” desde “Acrobat 9” (imprime todo el archivo en imagen) y abriendo el archivo impreso en “Nuance PDF Converter” (me preguntó si quería hacer que el archivo de imagen se pudiera buscar y editar, cosa que opté por hacer), pude tener un documento de Word del que puedo copiar y pegar fácilmente. Sin embargo, no es perfecto, ya que sólo tiene una precisión del 80-90%. Pero bueno, todavía tienes el archivo PDF original para comparar y compensar las partes que no se pueden arreglar. Ahorra tiempo de escribir todo. Mi opinión.

Ankit http://superuser.stackexchange.com/users/17281 · Answer 10 · 2012-10-02 19:05:44 +0000

1

2012-10-02 19:05:44 +0000

Subiéndolo a Google docs y usando la opción Ver > HTML plano , da un texto copiable correcto en torno al 80% con algún pequeño espacio que falta. Este hilo con respuesta aceptada a el mismo problema explica esto con un ejemplo de trabajo.

Fuente

Ankit http://superuser.stackexchange.com/users/17281

Jimbo http://superuser.stackexchange.com/users/17281 · Answer 11 · 2011-10-16 21:34:19 +0000

Hice algunos PDF de texto editable con una versión antigua de Scansoft PDF Converter para Windows XP, y luego combiné las páginas en el programa Preview de Mac. Para cada una de las páginas separadas, pude buscar, copiar y exportar texto correctamente desde Adobe Reader en el Mac. Cuando se combinaron en Vista Previa y se guardaron como un solo archivo, todo se veía bien en la pantalla, pero sólo algunos pasajes se podían buscar/exportar correctamente. Ese problema me trajo aquí.

Los posts aquí me dieron algunas buenas indicaciones (¡gracias!). Miré las propiedades del archivo para las fuentes. Los archivos de una sola página de Win XP (donde todo está bien) dijo que la codificación era ANSI. El archivo combinado en Vista Previa (donde el texto copiado es confuso) mostraba la codificación para la mayoría de las fuentes como “Built-in” con algunas como “Roman”.

La solución a mi problema estaba delante de mis narices todo el tiempo: el propio programa Scansoft puede combinar archivos. Cuando utilicé el combinador de Scansoft, y abrí el archivo en el Mac, todas las fuentes se mostraron como codificadas ANSI y todo el texto se exportó/copió perfectamente. No sé por qué no los combiné en PDF Converter en primer lugar. Gracias, señores de los carteles.

Lo mismo ocurre al abrir los archivos en un sistema Linux.

Sé que esto no explica los problemas de Windows, a no ser que el PDF tenga un origen mixto similar.