Von A nach B – 6 Tipps zur Contentmigration

Pelikane im Flug

Nur selten ist Migration so einfach wie bei Zugvögeln…

Wenn es um die Bestandsdatenübernahme geht, kann man beim Wechsel des CMS einige böse Überraschungen erleben. Denn bei der Übernahme von Altdaten steckt der Teufel im Detail. Deshalb wollen wir heute einmal ein paar Tipps zu den Details geben, auf die Sie in Ihrem Contentmigrations-Projekt achten sollten.

Zeichenkodierung beachten

Welche Zeichenkodierung haben eigentlich die Ausgangsdaten: ISO-8859-1, Windows-1252, Unicode oder etwas noch Exotischeres? Und welche Zeichenkodierung erlaubt bzw. verlangt das Zielsystem. Gibt es im Ausgangstext ein durchgehendes Escaping (Kodierung von Sonderzeichen durch Zeichenfolgen, z. B. „äußerst“ wird zu „äußerst“) und wie lässt sich dieses in das Zielsystem transformieren? Wer hier die Daten vorab genau analysiert, kann eine Menge Probleme im Migrationsprozess vermeiden.

Inkompatible Layout- und Textkonstrukte

Sind die Textkonstrukte zwischen Ausgangs- und Zielsystem kompatibel zueinander.  Komplexe semantische Handlungsanweisungen, tief geschachtelte Listen oder Zeichenformatkombinationen sind typische Problemstellen. Manches System lässt schon die Kombination aus Fett- und Kursivmarkierung (<b><i>Si meliora…</i></b>) aus der Kurve fliegen.

Makros machen Ärger

Gelegentlich werden auch statische Dokumente teilweise dynamisch gestaltet (z. B. durch eingebundene Excel-Berechnungen) oder nachträglich verändert (z. B. durch Word-Makros). Im eigentlichen Bestandscontent sind solche Mechanismen oft nicht leicht zu erkennen und manchmal sind sie den Benutzern nicht einmal bewusst. Hier ist also Recherche angesagt und ein Vergleich zwischen dem Bestandscontent und den ausgelieferten Dokumenten. Hat man solche Mechanismen entdeckt, gilt es zu entscheiden, ob sich auf sie verzichten lässt, ob sie im Zielsystem nachimplementiert werden können oder ob sie durch geeignete Mechanismen des Zielsystems ersetzt werden müssen.

Grafikformate

Auch bei Grafiken gibt es Formatprobleme – und nicht nur wenn es um print oder online als Ausgabemedien geht. Immer wieder kommen bestimmte Zielsysteme nicht mit den Formaten des Ausgangssystems zurecht. Word kann zum Beispiel nicht mit SVG umgehen. Umgekehrt stellen Word-Zeichnungen für fast alle anderen Systeme ein Problem dar. Also: Auch hier genau prüfen, was möglich ist und im Problemfall zum Beispiel ein Kompromissformat finden, mit dem beide Systeme zurechtkommen.

Beschriftungen

Neben den eigentlichen Grafikformaten sollten Sie sich auch die Art der Beschriftung in den Grafiken ansehen. Hier sind ganz unterschiedliche Varianten üblich: fest im Bild integriert (eher selten), als gruppierte Objekte (häufig und schwierig zu migrieren), mit einer eigenständigen, unabhängigen Legende (aufpassen, damit die Zusammenhänge nicht verloren gehen) u. v. m. Bedenken Sie auch die Optionen, die das Zielsystem bietet. Vielleicht ist ja z. B. eine Clickmap die bessere Lösung für die Beschriftung. Denn wenn man schon den Aufwand für die Migration betreibt, dann sollte der Content im Zielsystem auch besser sein als zuvor.

Migration – eine neue Heimat für den Content

Edgar Hellfritsch

Edgar Hellfritsch

Daten und Content: Ein Schatz, den wir im Lauf der Jahre mühsam aufgebaut haben. Und der zum Problem wird, wenn wir uns zum Beispiel entscheiden von der altgedienten Textverarbeitung (z. B. Word oder FrameMaker) auf ein Content-Management-System umzusteigen. Seltene Aufgabe, die aber doch immer wieder zu erledigen ist, wenn ein Systemumstieg ansteht. Wir haben mit Edgar Hellfritsch geredet. Er beschäftigt sich seit über zwanzig Jahren mit der Frage, wie man Daten und Content am besten migriert und hat über hundert Migrationsprojekte geleitet. In diesem Interview schildert er uns seine Erfahrungen.

doctima: Edgar, wie sieht denn das typische Migrationsprojekt aus?

Jedes Projekt ist irgendwie natürlich wieder anders. Aber grundsätzlich kann man sagen: Ein typisches Migrationsprojekt hat etwa 10.000 Seiten DIN A4, die in etwa 30 Sprachen vorliegen. Migriert wird meistens von einem layout-orientierten Textverarbeitungssystem in ein strukturiertes Format, also ein CMS oder xml-basierte Standards wie DITA. Letzten Endes kommt aber alles vor. Wir hatten auch schon Fälle wo wir DITA nach DITA migriert haben, weil zwei Unternehmensteile sich für einen gemeinsamen Standard entschieden haben.

doctima: Und wie geht man dabei vor?

Grundsätzlich muss man sich entscheiden, ob der Content schrittweise nach und nach migriert werden soll oder zu einem Stichtag in einer großen Hauruck-Aktion. Welches Vorgehen da sinnvoll ist, lässt sich nicht pauschal sagen. Das hängt von der Gesamtdatenmenge, vom Vernetzungsgrad des Contents, von den Redaktions- und Freigabeprozessen und natürlich von der Terminplanung für den Produktionsstart im neuen System ab.

Nach und nach zu migrieren erscheint auf den ersten Blick oft erst einmal wünschenswerter. Altdaten können fallweise auch einmal unmigriert bleiben, der Aufwand ist überschaubarer und die ersten Erfolgserlebnisse sind schnell vorhanden. Aber: Nach und nach zu migrieren bedeutet einen deutlichen Mehraufwand, denn beide Systeme müssen über einen längeren Zeitraum weiterbetreut werden. Und wenn die Redaktion diesen Mehraufwand personell nicht leisten kann, kommt es im schlimmsten Fall dazu, dass die (produktive) Systemeinführung sich so lange verzögert, bis sie komplett scheitert.

Und dann gibt es noch eine Fülle weitere Entscheidungen: intern oder extern, automatisiert oder manuell und, und, und. Jede dieser Entscheidungen hat ihr eigenes Für und Wider. Aber ich glaube das würde jetzt zu weit führen, wenn ich da im Detail darauf eingehe.

doctima: Übernimmt so eine Migration der Systemhersteller?

In den seltensten Fällen. Denn Migration bedeutet eine ganz eigene Art von Expertise, bei der man Ausgangsformat und Endformat genau im Blick haben muss. Auf dem Weg gibt es dabei einige Tücken, die für Systemhersteller schwer zu kalkulieren sind. Im Normalfall ist es hier besser, sich einen Dienstleister ins Boot zu holen, der auf Migrationsprojekte spezialisiert ist.

doctima: Welche Formate sind denn besonders schwer zu migrieren?

Wahrscheinlich erwarten jetzt viele als Antwort: Word! Das ist aber gar nicht so. Denn das Problem liegt nicht so sehr im Format selbst, sondern eher darin, wie strukturiert die Redakteure gearbeitet haben und wie konsequent sie ihre Standards eingehalten haben. Da sind mir Word-Dokumente, bei denen sauber mit Formatvorlagen gearbeitet wurde, tausendmal lieber als Dokumente, bei denen die Redakteure versucht haben, mit XML zu layouten.

Umgekehrt kann eine scheinbar einfache Anforderung, wie DITA nach DITA zu migrieren, sich im Projektverlauf als extrem heikel erweisen, wenn z. B. Metadaten zur Steuerung des Publikationsprozesses verwendet wurden oder eben semantische Strukturen missbraucht wurden, um ein bestimmtes Erscheinungsbild zu erzeugen. Da werden dann Informationssequenzen als Bildbeschriftung getaggt, weil man das Ganze gerne in einer Box darstellen will. Für die Migration ist so etwas ein Desaster.

doctima: Ein Erfolgserlebnis?

Für unsere Kunden ist der größte Erfolg wohl immer, wenn sie sehen, wie schnell ein Großteil des Contents migriert ist. Als derjenige, der sich um die Umsetzung kümmert, sind die ERfolge für mich aber oft eher die Kleinigkeiten am Rande. Vor einiger Zeit ist es mir z. B. in einem Projekt gelungen, komplexe Tabellen automatisiert von CALS nach HTML und wieder zurück umzuwandeln. Der Weg von CALS nach HTML ist mehr oder weniger trivial. Der Weg zurück ist aber ziemlich trickreich, weil das CALS-Tabellenmodell – na sagen wir mal – „originell“ ist. Da muss man sich letzten Endes jede Tabellenzelle einzeln angesehen haben, bevor man die Tabelle zusammenbauen kann. Für den Laien ist das dann nicht weiter spektakulär, wenn am Ende alles klappt. Aber als Spezialist ist man da schon ein wenig stolz.

doctima: Zum Abschluss: Was würdest du jemandem für die Migration raten,  bevor er einen Systemumstieg plant?

Sich neben dem Dokumentbestand auch den Redaktionsprozess vorher genau anzusehen und sich im Zweifelsfall Hilfe von außen zu suchen.  Ohne Bestandsanalyse kann man sonst manche böse Überraschung erleben, weil zum Beispiel im Publikationsprozess Makros nachträglich noch den Content verändern. Generell ist es sinnvoll sich anzusehen, welche Strukturen im Content vorhanden sind und welche davon erhalten bleiben müssen. Wir haben dazu automatisierte Verfahren mit denen wir Bestands-Content analysieren. Da stellt sich dann eigentlich meistens heraus, dass es eine ganze Reihe von Dokumentstrukturen gibt, die bei 10.000 Seiten vielleicht nur drei oder vier Mal vorkommen. Und da sollte man sich dann schon fragen, ob es sich lohnt, das auch im Zielsystem abzubilden.

doctima: Danke für das spannende Interview.

Gerne.