Problemi di conversione di file .doc su Linux

La conversione di file .doc in text può presentare diversi problemi. Anche se sono state fatte numerose correzioni nelle nuove versioni di Open Office e di altri programmi come wvText, Lynx. Abiword e IBM Lotus Symphony, restano molti errori di conversione soprattutto per quanto riguarda la larghezza delle colonne e la numerazione. Ecco qualche consiglio per chi usa Linux e vuole cercare di ottenere un buon risultato nel minor tempo possibile.

Vediamo qualche problema di conversione di .doc e HTML in text su Linux. Anche se alcuni programmi sono ottimi per scrivere i documenti, non sono altrettanto buoni per presentare l’output e per convertire file già esistenti, soprattutto se contengono delle numerazioni.

La larghezza delle colonne e la conversione di file

I programmi che svolgono abbastanza bene il lavoro di conversione, come wvText e Lynx hanno la fastidiosa 'possibilità' di formattazione a una certa larghezza di colonna. Questo significa che è molto difficile prevedere quali saranno in realtà le interruzioni di paragrafo e quali saranno solamente delle linee di frazionamento del testo. Utilizzando wvHtml si può trasformare il html2text con larghezza 0 per evitare questo problema di larghezza della colonna (anche se i risultati volte sono un po’ casuali). Lynx arriva al massimo a una larghezza di circa 990 caratteri, ma ci sono un sacco di paragrafi che possono superare tale lunghezza. Tuttavia, sembra che impostare html2text con larghezza 0 riesca a determinare con maggior precisione la larghezza (a differenza di Lynx). Ad esempio, la larghezza di 20.000 caratteri sembra funzionare (anche se quando c'è una linea, inserisce 20.000 caratteri “=”).

Problemi di numerazione nella conversione di file .doc

E’ possibile impostare la conversione automatica di file .doc con Open Office, e sembra che la versione 3 sia meno problematica rispetto alle precedenti. Tuttavia, con la versione 3 non è possibile importare correttamente la numerazione di Word. Open Office, infatti, perde il primo livello di numerazione, interpretando la marcatura come uno stile di titolo. E’ piuttosto sorprendente che l'importazione della numerazione non sia ancora corretta, visto che sono circa dieci anni che lavorano a questo problema e hanno messo grande sforzo in caratteristiche come la scrittura dei commenti. In più probabilmente si tratta di qualcosa di semplice da risolvere, impostando il giusto livello di numerazione in XML style.

Open Office 3.1 e le versioni precedenti hanno anche un altro problema nella conversione dei file .doc: gestiscono la numerazione insieme al testo, senza un separatore. Quindi l’ultimo numero risulta attaccato alla prima lettera del titolo, e non è separato né da uno spazio né da una barra. Questo, tra l'altro, significa che gli indici saranno sbagliati per la prima parola di ogni elenco numerato. Il problema è stato risolto nella versione 3.2. Si potrebbe pensare che sarebbe facile stabilire i caratteri regex dopo un'esportazione per inserire una scheda o qualcosa del genere dopo la numerazione principale, fino a quando ci si rende conto che le strutture come la A, A1, A., (a), 1A, 1 bis, I, IV, sono valide strutture di numerazione.

Anche wvText e Abiword non mantengono la numerazione giusta. Questi programmi riconoscono la numerazione, ma non conservano gli stessi simboli di numerazione (ad esempio una numerazione nella forma con le lettere A, B, C diventa una numerazione con i numeri 1, 2, 3) e non conservano nemmeno i simboli come le parentesi. "(a)" diventa così "a.".

IBM Lotus Symphony, invece, consente l'importazione di numerazione corretta, inclusi i caratteri della numerazione come le parentesi e i punti (ad esempio "(a)" e "1.1"), tuttavia, essendo basato su una vecchia versione di Open Office, ha il problema delle esportazioni dove la numerazione va insieme al testo, come abbiamo visto prima. Forse il passaggio del testo da Doc a Symphony a HTML a text potrebbe funzionare, certo però sarebbe un metodo molto lungo e laborioso per convertire i file .doc.

Scarica subito una copia gratis

Una risposta

  1. Avatar photo @Facebook 5 Ottobre 2010

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend