Het eenrichtingsverkeer van PDF-conversie

PDF is een bestandsformaat dat grote voordelen biedt. De software om pdf’s te lezen is gratis en de opmaak van pdf’s blijft altijd behouden, ook als de lezer niet beschikt over de gebruikte lettertypen. Pdf’s zijn ook makkelijk te maken. Alles wat je nodig hebt, is een bronbestand, dat wil zeggen, een bestand dat in een ander programma is gemaakt. Voor Windows zijn er gratis plugins verkrijgbaar; voor de Mac zijn die niet nodig omdat je bestanden vanuit elke applicatie als pdf kunt opslaan.

Dat maakt pdf (Wikipedia) een ideaal formaat om teksten in te verspreiden zoals handleidingen, nieuwsbrieven, brochures, persberichten, rapporten, jaarverslagen, ebooks enz. De ontvanger hoeft niet te beschikken over Word, InDesign, Photoshop, Excel, Pages of andere software en kan de pdf’s lezen onder Windows, Linux, OS X, iOS en Android.

Het probleem

Er kleven ook nadelen aan pdf’s. Ze zijn namelijk niet of slechts heel beperkt te wijzigen. Wil je wijzigingen aanbrengen, dan moet je het bronbestand openen in het programma waarin het is gemaakt, de gewenste wijzigingen aanbrengen en een nieuwe pdf maken.

Die conversie is nog niet zo eenvoudig. Zo makkelijk als het is om een pdf te maken, zo moeilijk is de weg terug naar een bewerkbaar bestand. Hoe complexer de opmaak van de pdf, des te groter is de chaos als je een pagina kopieert en in een teksteditor of tekstverwerker zoals Word plakt.

In de afbeelding hiernaast geven de lichtblauwe cijfers aan in welke volgorde de diverse tekstdelen worden geplakt. Alles komt door elkaar te staan, zodat je een tekstdocument overhoudt waar je weinig aan hebt. Als de pdf kolommen en meerdere tekstvakken bevat, kan het gebeuren dat koppen die boven aan stonden ergens tussen de tekst terechtkomen en dat de volgorde van alinea’s volledig door elkaar wordt gehusseld. Staan er tabellen in de pdf, dan is de chaos na het kopiëren en plakken nog veel groter.

De reden is dat pdf een destructief formaat is. Woorden, regels en alinea’s bestaan niet in een pdf. In plaats daarvan worden voor elk element op de pagina coördinaten opgeslagen. Van een opeenvolgende tekststroom is geen sprake meer.

De oplossingen

Er zijn inmiddels heel wat applicaties waarmee je een pdf naar een bewerkbaar formaat (zoals Word, rtf of platte tekst) kunt converteren. De resultaten laten meestal zeer te wensen over. Om de tekststroom en een opmaak van de pdf te behouden, wordt gebruikt gemaakt van complexe algoritmen die maar ten dele werken omdat elke pdf nu eenmaal anders is. Klik je na de conversie in je nieuwe Word-document, dan zie je tot je ontzetting dat alle alinea’s in aparte tekstvakken staan en je dus nog heel veel knip- en plakwerk te doen hebt om tot een bewerkbaar document te komen.

De beste resultaten worden nog behaald met OCR ofwel optical character recognition (Wikipedia). Deze technologie is uitgevonden om van papier gescande teksten te herkennen maar kan ook voor pdf’s worden gebruikt. Het voordeel is dat de interne structuur van de pdf (of liever gezegd, het gebrek daaraan) geen rol speelt tijdens het herkenningsproces en je al naar gelang de complexiteit van de layout een beter leesbare tekst overhoudt die minder nabewerking vereist. De beste resultaten heb ik behaald met ABBYY Finereader, waarvan zowel een Mac- als een Windows-versie bestaat. De Mac-versie is verkrijgbaar in de App Store voor € 79,99.

Naschrift 14-05-2023: ik werk op dit moment aan de vertaling van de memoires van Barbra Streisand. Kopiëren uit het manuscript is een crime want de nummering in de marge wordt meegekopieerd. De oplossing is TextSniper, een app waarmee je alles op je scherm als een afbeelding kunt kopiëren en vervolgens middels OCR naar tekst kunt converteren. OCR van een hele pagina duurt minder dan een seconde en is tot nu toe foutloos. Ik gebruik TextSniper dagelijks voor al die tekst die niet kopieerbaar is, een optie in een app, een deel van een webpagina dat tegen kopiëren beschermd is, de tekst op een plaatje, enz.

Wil je de conversie van pdf naar tekst volledig in de hand houden, dan kun je nog gewoon knippen en plakken. Doorgaans komt dat erop neer dat je een pagina in delen moet kopiëren om te voorkomen dat alles door elkaar komt te staan. Als je tijdens het selecteren met de muis ziet dat de selectie verspringt naar een verder gelegen tekstdeel, weet je dat je minder tekst moet selecteren.

Plakken kun je in Word of een andere tekstverwerker doen maar het gevaar bestaat dat je de onderliggende code van de pdf daarmee onzichtbaar in je document plakt. Dat kun je voorkomen door te plakken zonder opmaak (een functie die in de meeste tekstverwerkers beschikbaar is) of, nog beter, door in een teksteditor te plakken. In Windows is dat Notepad; op de Mac is dat TextEdit.

Ook als je kleine tekstdelen plakt, zijn er vaak nog nabewerkingen nodig. Vaak worden regeleinden ofwel harde returns ingevoegd waar die niet horen te staan, de koppeltekens tussen afgebroken worden moeten worden verwijderd en in sommige woorden komen spaties te staan waar ze niet horen, zodat financieel fi nancieel wordt.

Met vervangopdrachten en een flinke batterij macro’s is het kopieer- en plakproces nog redelijk snel uit te voeren. De weg van pdf naar bewerkbare tekst blijft echter geplaveid met obstakels.


Copyright © 10-02-2012 Theo van der Ster

De reacties onder dit blogbericht zijn gesloten. Wil je contact opnemen, dan kan dat op deze pagina.