Usuario del software
2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40

¿Cómo copiar texto de un PDF sin perder el formato?

Cuando copio texto de un archivo PDF y lo introduzco en un editor de texto, termina destrozado de varias maneras. El formato como la negrita y la cursiva se pierden; los saltos de línea suaves dentro de un párrafo de texto se convierten en saltos de línea duros; los guiones para dividir una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles se reemplazan por signos ?

Lo ideal sería poder copiar el texto de un PDF y hacer que el formato se convierta en códigos HTML, las "citas inteligentes" se conviertan en " y ', y los saltos de línea se hagan correctamente. ¿Hay alguna manera de hacer esto?

Respuestas [9]

54
2010-10-11 21:30:12 +0000

En primer lugar, tienes que entender lo que es un PDF. Los PDF están diseñados para imitar una página impresa, y están diseñados sólo como un formato de salida, no como un formato de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o puntuación, etc.) o imágenes. En la mayoría de los casos, un PDF ni siquiera almacena información sobre dónde termina una _palabra y comienza otra, y mucho menos cosas como roturas suaves frente a roturas duras para los finales de los párrafos.

(Algunos PDF recientes sí almacenan alguna información sobre estas cosas, pero eso es una nueva tecnología, y tendrías suerte si encontraras PDFs así. Incluso si lo hicieras, tu visor de PDF podría no saberlo)

De todos modos, depende de tu software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de los caracteres individuales lo que es una palabra, lo que es un párrafo, y así sucesivamente. Diferentes programas van a hacer esto mejor que otros, y también va a depender de cómo se hizo el PDF. En cualquier caso, no se debe nunca esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento de origen. Es mucho mejor tratar de obtenerlo si se puede.

La solución estándar a tu tipo de problema es usar Adobe Acrobat Professional (el caro, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.

Hay software gratuito que puede ser usado para extraer texto de los PDFs con algo de formato intacto, pero de nuevo, no esperes resultados perfectos. Véase, por ejemplo, calibre (que puede convertirse al formato RTF), pdftohtml/pdfreflow o el procesador de texto AbiWord (con todos los plugins de importación/exportación habilitados). También hay un plugin de importación de PDF para OpenOffice.

Pero por favor no esperes la perfección con ninguno de estos resultados. Vais a contracorriente aquí. El PDF no es un formato de entrada editable.

54
8
2013-01-24 07:05:37 +0000

Otra opción es descargar y empezar a usar el visor gratuito de pdf, Foxit (es bueno). Luego puedes 'Guardar como' y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace tiempo cuando lo convertí a Foxit.

8
5
2012-12-01 13:48:55 +0000

Abre tu archivo PDF con un navegador (Google chrome y firefox están probados) y copia tu texto allí.

5
5
2012-12-01 14:29:34 +0000

Hay una muy buena herramienta online llamada Sej-da. Se ocupa de la manipulación avanzada de PDF. No hay ningún software para descargar. Como es una nueva herramienta online, actualmente está todavía en Beta. Permite extraer texto de un PDF, así como proporcionar una miríada de otras funcionalidades de PDF http://www.sejda.com/

Una breve revisión en video de las funciones de sejda fue hecha el 14 de noviembre de 2012 por la Revisión 3 que se puede encontrar aquí: http://revision3.com/tzdaily/sejda-online-pdf

5
4
2012-09-06 19:00:19 +0000

Puede usar Adobe Acrobat Pro para esto.

Para las tablas: Con Acrobat 9/10 había una característica de tablas seleccionadas. Con Acrobat X puedes hacer clic en Guardar como \ ~ - Hoja de cálculo \ ~ - Excel. Incluso concatena las páginas en una larga hoja de cálculo. Una característica impresionante.

Para el texto: Existe una característica similar para exportar a MS Word. Guardar como... Word... Word Doc.

Fuentes:

4
0
2015-04-13 11:19:56 +0000

Foxit alternará entre mostrar el archivo original como PDF normal o como texto presionando Ctrl + 6 (Con un poco de manipulación del nivel de zoom del modo de texto no hay mucho salto en la posición hacia adelante y hacia atrás entre la lectura y la copia)

0
0
2017-02-25 23:17:51 +0000

Encontré esto muy útil ( Remove Line Breaks ):

Aquí hay un truco útil para resolver esto rápidamente sin tener que quitar todos los saltos de línea manualmente. Básicamente, todo lo que hace es reemplazar automáticamente todos los saltos de línea no deseados con un solo espacio, haciendo que todo el texto corra junto en un solo párrafo:

1- copiar el texto que desea del PDF.

2- pegar en un nuevo documento de Word.

3- haz clic en "editar" y luego en "reemplazar"

4- asegúrate de estar en el campo "encontrar qué"

5- haz clic en "más" y luego en "especial"

6- selecciona "marca de párrafo" (en la parte superior de la lista)

7- haz clic en el campo "reemplazar con"

8- presiona la barra espaciadora una vez

9- haz clic en "reemplazar todo"

10- haz clic en "ok" y luego cierra el cuadro "encontrar y reemplazar".

0
-1
2016-01-22 16:15:08 +0000

Intentaba guardar el texto y el formato de un pdf organizado en una tabla. En Acrobat Professional, me di cuenta de que hay una opción de "Guardar como" que permite guardar como un documento de Excel. Esto funcionó bien para mis necesidades. También me di cuenta de que hay una opción de guardar como documento de Word también. Sin embargo, no la probé.

-1
-1
2015-12-11 04:23:43 +0000

Podrías copiar del lector de adobe a MS Excel y formatear (tabla) de la manera que quieras y luego copiar y pegar desde Excel. Esta solución funciona muy bien. No necesitas comprar una costosa copia profesional de adobe.

-1