Crear o manipular pdf de archivos texto doc, abiword, etc..

Bueno aqui tenemos el comando puppypdf es muy rapido y sencillo para crear ficheros pdf

La verdad que sencillo es crear ….. ejemplo tenemos un fichero en formato word que queremos convertir a pdf…. escribiriamos la siguiente linea de comando :

puppypdf -i fichero_entrada.doc -o fichero_salida.pdf

Y ya esta con esto hemos convrtido un fichero doc a pdf…

Y lo mismo para los abw de abiword….. de puppy

puppypdf -i fichero_entrada.abw -o fichero_salida.pdf

Que sencillito y que rapido.

Una de las cosas que me molesta y me quema mucho la vista es ver ficheros doc o abiword con fondo blanco.

Bueno abiword abre ficheros doc o de muchos formatos entre ellos el suyo con extension abw.

Una vez abierto les podemos variar los colores de las letras a nuestro gusto y luego poner un fondo oscuro de pagina para que nos queme la vista, y luego salvarlo con extension abiword, y lo podemos dejar asi y o bien convertirlo a pdf como hesmos visto anteriormente.

puppypdf -i fichero_fondo_negro.abw -o fichero_fondo_negro.pdf

Podemos tambien como hemos visto  anteriormente en vez un fondo de color,  ponerle mediante abiword la imagen que nostros queramos y hacer los pdf a nuestro gusto.

De esta forma ya vemos casi todas las opciones de crear un texto tipo doc, abw, rtf, docx, odt, txt, text, ps, sxw, etc.. a pdf.

CONVERTIR UN PDF A TEXTO

Si queremos recuperar texto de un pdf para poderlo utilizarlo en otro archivo podemos hacerlo mediante el siguiente comando.

pdftotext -layout archivo.pdf output.txt

El texto que nos sale es en formato texto plano, esto no esta enriquecido ni nada y ademas puede que segun este la pagina dicho texto nos salga descolocado, aun asi este comando nos puede ser utiles para ciertas cosas condiciones.

Si tecleamos el comando :

pdftotext –help

Podemos ver todas las opciones de este comando que son bastante y que nos puede ayudar a que el fichero de salida tenga mejor apariencia.

Una cosa muy util de estas opciones es que solo extraiga las paginas que nos interesa de un archivo pdf, ya que hay pdf con muchas paginas y no queramos extraerlas todas, el siguiente comando.

pdftotext -f 12 -l 18 -layout archivo.pdf output.txt

Solo sacara las paginas entre 12 y 18 ambas inclusive del archivo pdf.

CONVERTIR UN PDF A HTML

Una forma de convertir un pdf a formato pagina web, o html es el siguiente comando que es muy interesante y con  el que luego podemos trabajar como queramos para luego convertirlo a de nuevo a pdf si queremos.

Ya se que hay editores de Pdf que pueden hacer todo esto, pero a mi nunca me acabaron de convencer totalmente, y mediante este metodo nostros simpre podemos llegar a tener el control total de toda la paginas.

El siguiente comando convierte un archivo pdf a html

pdftohtml -c -noframes  archivo.pdf archivo.html

Bueno veris que junto con el archivo html que se genera se generan un monton de imagenes que son las contenidas dentro del archivo pdf aparte del texto extraido que esta en el archivo html.

No borreis estas imagenes por que obviamente no se cargaran en el archivo html.

Como en el comando anterior las opciones de este comando las veremos tecleando.

pdftohtml -h

y al igual que el comando anterior queremos extraer unas paginas en determinado.

pdftohtml -f 12 -l 18 -c -noframes  archivo.pdf archivo.html

Nos extraira solamente las paginas que van de la 12 a la 18 inclusive.

Esta forma de extraer la informacion de un PDF es mucho mas interesante que, que el comando pdftotext ya que a diferencia de este , el pdftohlm nos guarda todas las configuraciones.

Luego mediante cualquier editor html podemos modificarlo y luego mas tarde convertilo de nuevo a pdf o cualquier otro formato.

CONVERTIR UN PDF A IMAGENES

Alguna vez puede ser interesante sacar una o mas paginas de un archivo pdf a imagen, para convertir un pdf en imagenes, podemos utilizar el siguiente comando:

pdftoppm  archivo.pdf  archivo

Este comando saca un monton de imagenes en formato ppm que empiezan por el nombre “archivo” con varios numeros secuenciales y un con extension ppm.

Al igual que los anteriores comandos si teclemamos el comando

pdftoppm -h

Podemos ver todas las opciones de este comando.

Los archivos ppm no se pueden visualizar con todos los visores de imagen, pero en puppy se pueden abrir con mtpaint y modificar, pero si no queremos tomarnos este trabajo y queremos que a la salida obtener archivos jpg pues tecleamos el siguiente comando.

pdftoppm  -jpeg archivo.pdf  archivo

Obtendremos archivos de extension jpg y con el comando:

pdftoppm  -png archivo.pdf  archivo

Obtendremos archivos png, lo mismo para tiff.

Bueno este comando tiene un monton de opciones con las que podremos jugar y hacer las combinaciones que queremos.

 

CONVERTIR IMAGENES A UN PDF

Imaginemos que las imagenes anteriores las modificamos y luego las queremo convertir de nuevo a un pdf, o que queremos de imagenes que nostros tenemos hacer un pdf, para aglutinarlas todas en un archivo.

Bueno si no tenemos el comando nconvert bajarnos de aqui:

http://www.mediafire.com/download/ho0k6yp7ui5u58d/nconvert

Este comando nos va ha ser muy util en el futuro, para infinidad de cosas es un comando super interesante que ya veremos la infinidad de utilidades que tiene.

Bueno lo bajamos y lo colocamos dentro del directorio :

/usr/bin

Y bueno lo aconsejable es copiar todas las imagenes que se generaron en la descompresion del pdf con el comando

pdftoppm  -jpeg archivo.pdf  archivo

dentro de un directorio creado para tal fin como por ejemplo  temporal, metemos todas las imagenes alli y nos metemos dentro de este directorio.

Podemos modificar todas estas imagenes como queramos, he incluso meter mas imagenes mas numerandolas con el nombre adecuado para su orden correcto y un monton de cosas mas.

Una vez tengamos todas las imagenes ordenadas correctamente teclearemos el siguiente comando:

nconvert -out pdf -quiet *.jpg salida.pdf

Y veremos que en el directorio a cada una de las imagenes jpg se ha creado un fichero con el mismo nombre en pdf.

Luego con el comando gs — o goshScript  que viene por defecto en muchas distros de Linux tecleamos el siguiente comando.

gs -q -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -sOutputFile=final.pdf *.pdf

Al final obtenemos un archivo final.pdf que es la suma de todos los archivos  pdf que se generaron anteriormente y en orden.

 

Bueno al que no le gusten los comandos este post realmente este post no le resultara interesante pero al que como yo le gusta cacharrear con los comandos, este post es interesante en el sentido que abre un campo a multiples cosas como ya vemos y como ya veremos mas adelante.

Creacciond de script que automaticen la conversion de pdf a otros formatos  y viceversa de la forma que nosotros queramos y de multiples archivos a la vez.

 

Nos vemos un saludo.

 

 

 

 

 

 

 

 

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s