Feindliche Übernahme: Print-orientierte Dokumente ins medienneutrale CMS migrieren

Von Print zu Digital: Eine sorgfältige Planung erleichtert die Migration von technischen Dokumenten

Viele Unternehmen nutzen den Schwung der aktuellen Digitalisierungsbestrebungen, um auch ihre technische Kommunikation, also Datenblätter, Handbücher usw. elektronisch verwertbar zu machen. Wo vormals Papier und PDF als Maßstab dienten, soll Information nun auch online, mobil und interaktiv bereitgestellt werden.

Die Idee hinter „Information 4.0“ ist, die richtige Information zur richtigen Zeit an die richtige Person auszuliefern. Um das zu bewerkstelligen, muss im Vorfeld aber festgelegt werden, was jeweils hinter dem Begriff „richtig“ zu verstehen ist. Das bedeutet, dass Informationen systematisiert und in mundgerechte Bausteine (diese Metapher klingt nur für Leute abwegig, die keine Kinder haben) zerlegt und aufbereitet werden. Schnell fallen Begriffe wie Metadaten, Modularisierung, Taxonomien, HTML 5 oder Content Delivery. An diesem Punkt kommt man nur noch mit Mühe, wenn überhaupt, ohne ein Content-Management-System weiter. So führen derzeit recht viele Unternehmen, deren Technische Redaktion bisher vorwiegend Dokumente mit DTP-Werkzeugen (Desktop Publishing) wie InDesign erstellt hat, ein Baustein-orientiertes CMS (auch „Component-CMS“ oder „CCMS“) als Publikationslösung ein.

Ist die Systementscheidung getroffen (als Goldpartner von SCHEMA empfehlen wir meistens deren ST4, aber das tut hier nichts zur Sache), das System installiert und die Mitarbeiter geschult, steht die Übernahme der bestehenden Dokumente ins neue System an. Und diese Migration bestehender Dokumente gestaltet sich möglicherweise wesentlich aufwändiger als gedacht. Warum das so ist, möchte ich in diesem Beitrag erläutern. Vergleichen wir dazu das Ausgangsmaterial mit dem Zielsystem.

Das Ausgangsmaterial

Verbreitete Werkzeuge, mit denen Dokument-orientierte Technische Redaktionen arbeiten, sind InDesign, Word oder FrameMaker. Unabhängig vom eigentlichen Tool finden sich eine Reihe von ähnlichen Merkmalen in der Redaktionsarbeit, die in unsere Betrachtung hineinspielen:

  • Dokument-Dateien als Arbeits-Einheit
    Die Datei ist die führende Informationseinheit im Prozess, auch wenn sich z. B. mit Buchfunktion oder Variablen im gewissen Umfang über- und untergeordnete Informations-Strukturen definieren lassen. Vom Inhalt her gedacht, agieren wir mit ganzen Dokumenten, bestenfalls in Kapiteln. Auf diesem Korn werden auch Varianten gebildet: Übersetzungen, Gerätevarianten, Dokumenttypen sind jeweils eigene Dateien. Bedingte Texte und Variablen leisten hier zwar je nach Werkzeug ihren Beitrag, das Ausmultiplizieren der Optionen im Griff zu behalten, ändern aber nicht das Grundprinzip.
  • Informationen sind linear strukturiert
    Im Wesentlichen ordnen sich Absätze und Tabellen brav hintereinander von der Titelseite bis zum Anhang. Alternativ dazu verteilen sich Text- und Bildrahmen auf einzelne Seiten. Besonders bei eher werblich genutzten Informationen wie Datenblättern kann man von einem hohen Maß an individuellen Layout-Entscheidungen ausgehen. Beliebt ist es, komplexe Tabellen zu gestalten, die bis hinunter zur einzelnen Zelle mit unterschiedlichen Schriftarten, Rahmen und Hintergründen versehen sind.
  • Dokumente und Arbeitsprozesse hängen vom Werkzeug ab
    Viele Porzesse sind auf das verwendete Werkzeug zugeschnitten und damit proprietär. In Word kann man Zeichnungen erstellen, in InDesign lassen sich Illustrator-Grafiken einbetten. Felder und Textmarken, Layout-Automatismen wie Silbentrennung, Seitenumbruch mit Schusterjungen-Regeln oder generierte Verzeichnisse sind praktische Hilfsmittel, die die Tools bereitstellen, die aber nur dort funktionieren.

Das Zielsystem

Baustein-orientierte Content-Management-Systeme sind deswegen ein hervorragende Basis für die Digitalisierung der Technischen Kommunikation, weil sie genau die Mechanismen mitbringen, um Informationen für die Digitalisierung zu systematisieren. Für unsere Betrachtung relevant sind u.a. diese Aspekte:

  • Medienneutrales Arbeiten mit CCMS
    CCMS sind auf die Ausgabe in diversen Zielmedien spezialisiert. Inhalte werden also nicht direkt gelayoutet, sondern als klassifizierte Elemente typisiert, z. B. als Überschrift, Auflistung oder Grafik mit Bildunterschrift. Wie diese Elemente im Ausgabemedium dargestellt werden, wird frühestens beim Erzeugen einer Publikation generisch anhand der Klassifizierung festgelegt. In digitalen Publikationen, z. B. im iiRDS-Format, kann das Layout auch vollständig dem anzeigenden System überlassen werden. Damit die Generik effektiv funktioniert, muss der Content im CCMS konsequent strukturell und semantisch aufbereitet sein. Das bedeutet auch, dass punktuelle, individuelle Anpassungen in der Darstellung nur sehr aufwändig zu realisieren sind und tunlichst vermieden werden sollten.
  • Textbausteine als Arbeits-Einheiten
    Die Arbeit im CCMS dreht sich um Textbausteine, die vor einer Publikation zusammengestellt werden. Diese Bausteine können Hierarchien bilden (z. B. Kapitel und Unterkapitel), lassen sich mehrfach wiederverwenden (typisch z. B. für Sicherheitshinweise) und v. a. lassen sie sich mit Eigenschaften bzw. Metadaten versehen, die sie beschreiben (z. B. Titel oder Schlagwörter) oder nach unterschiedlichen Kriterien klassifizieren (z. B. als Sicherheitshinweis, als einem Produkt X zugehörig oder als nur relevant für Wartungstechniker). Auf Basis der Textbausteine erfolgt im CCMS die Ausbildung von Varianten und Versionen, und auch Übersetzung und Mehrsprachigkeit wird normalerweise auf diesem Korn verwaltet.

Womit Sie also rechnen sollten

Wir haben also als Ausgangsmaterial linear strukturierte, möglicherweise individuell gelayoutete Dokumente in proprietären Formaten. Diese sollen in ein System übernommen werden, in dem klassifizierte Textbausteine mit medienneutralen Inhalten zu Hierarchien und Publikationen zusammengestellt werden. Sie müssen also damit rechnen, dass eine Reihe von Änderungen und Ergänzungen bei der Migration notwendig sein werden.

Wie gut sich die Übernahme automatisieren lässt, hängt dabei zum großen Teil davon ab, wie heterogen und individuell gestaltet das Ausgangsmaterial ist. Hier die wichtigsten Überlegungen:

  • Der Aufwand steigt mit der Heterogenität
    Je heterogener die Ausgangsdokumente, aber auch je höher die gesteckten Ziele, was Wiederverwendung, Vereinheitlichung und Klassifikation von Bausteinen angeht, desto mehr Aufwand bedeutet das für die Content-Übernahme. Ein umfassender Migrationsplan, der sowohl technische Details der Abbildung von alt nach neu als auch eine Timeline der Übernahme-Aktivitäten beinhaltet, sollte auf jeden Fall erstellt werden. Positiver Nebeneffekt: Die dazu notwendige Analyse der Bestandsdaten lädt dazu ein, alte Ausnahmen und Sonderfälle auszumerzen.
  • Nicht alles muss mit
    Nicht alle vorhandenen Dokumente müssen ins neue System übernommen werden. Je länger ein Dokument nicht mehr angefasst wurde, desto geringer die Wahrscheinlichkeit, dass es noch einmal überarbeitet wird. Hier lässt sich einiges an Aufwand einsparen. Denn sei es, weil Redaktionsteams sich nach und nach besser organisieren, oder weil die ganze Tech-Dok-Branche sich insgesamt weiterentwickelt, oder weil die Werkzeuge früher nicht so gut waren: ältere Dokumente verursachen erfahrungsgemäß mehr Aufwand als neuere.
  • Semantik fällt nicht vom Himmel
    Aus der linearen Abfolge von Absätzen, Überschriften, Auflistungen, Grafiken  und Tabellen der Ausgangsdokumente lassen sich zwar einige Strukturen und Attribute für das Zielsystem ermitteln. Aus einer Überschrift und dem nachfolgenden Text bis zur nächsten Überschrift lässt sich noch relativ leicht ein Textbaustein erzeugen. Aus einer zweispaltigen, einzeiligen Tabelle mit Warnsymbol-Grafik lässt sich vielleicht ein Warnhinweis ermitteln. Aber spätestens wenn es darum geht, eine Folge von Listenpunkten als Handlungsanweisung mit Arbeitsschritten und Zwischenergebnissen zu erkennen, wird eine automatische Konvertierung schwierig. Auch das Klassifizieren der Bausteine, meinetwegen als Sicherheits- oder Wartungsinformation, oder als nur für den amerikanischen Markt relevant, lässt sich oft nur manuell nachträglich zuordnen.
  • Vorsicht bei Übersetzungen
    Dass Ausgangsdokumente heterogen sein können, wirkt sich an einer Stelle besonders aus: Beim Übernehmen von Übersetzungen. Auch die Übersetzung basiert im CCMS auf dem Textbaustein als Einheit. Sind nicht alle übersetzten Dokumente exakt so strukturiert wie das Ausgangsdokument, weil beispielsweise ein Überschrift versehentlich zum Standard-Absatz wurde, kann die Zusammenführung schnell chaotisch werden. Wenn deshalb die vorliegenden Übersetzungen bereits mithilfe eines Translation-Memory-Systems (TMS) entstanden sind, empfiehlt es sich, nur die Ausgangssprache zu migrieren und die Übersetzung der Bausteine über die TMS-Anbindung abzuwickeln, die alle gängigen CCMS besitzen, um mit den zu erwartenden Hundertprozent-Matches günstig einen sauberen Übersetzungsstand zu erhalten.
  • Achten Sie auf Grafiken
    Proprietäre Mechanismen und Formate lassen sich nicht immer übernehmen. Als Beispiel möchte ich hier auf Grafiken etwas näher eingehen. CCMS arbeiten i.d.R. mit dem medienneutralen XML-Format, um Inhalte zu strukturieren. Grafiken in gängigen Austauschformaten von PNG und JPG über TIFF und EPS lassen sich dort verwalten, anzeigen und einbinden. In den Ausgangsdokumenten finden sich aber nicht nur hauseigene Dateiformate wie Illustrator (AI) oder Photoshop (PSD) in InDesign oder in WMF-Container verpacktes EPS  in MS-Word. Grafiken können auch direkt im Werkzeug gezeichnet sein und sind dann als Gruppe frei schwebender Objekt auf der Seite positioniert. Oder sie sind mithilfe der Grafikeinstellungen individuell beschnitten, skaliert und mit Effekten versehen. In all diesen Fällen ist eine Konvertierung in ein medienneutral verwertbares Format nötig.
  • Schützen Sie sich vor Doppelungen
    Dass man Textbausteinen  ggf. vielfach wiederverwenden kann, ist einer der großen Vorzüge von CCMS. Nach der Übernahme von Dokumenten, wo die Mehrfachverwendung eine eher untergeordnete Rolle spielt, bleibt hier ein großer Spielraum für Nacharbeiten. Es hat sich bewährt, bei der Migration dafür zu sorgen, dass zumindest Sicherheitshinweise, die ja gerne an vielen Stellen des gesamten Dokumentbestands in identischer Form wiederkehren, als eigene, wiederverwendbare Bausteine zu extrahieren und an zentraler Ablage-Stelle einzusammeln. Ähnlich lässt sich ggf. mit Konformitätserklärungen, einleitenden Bemerkungen u. ä. verfahren. Damit hat man einen guten Ausgangspunkt, um den Informationsbestand nach und nach von Doppelerfassungen zu bereinigen.

Schlussbemerkungen

Die Migration von DTP-orientierten Dokumenten in ein Baustein-orientiertes CCMS kann im einfachsten Fall (nicht zu viele homogene, strukturiert erfasste Dokumente, einfache Projektziele) sehr schnell und mit Bordmitteln (CCMS besitzen in der Regel eine Dokument-Import-Schnittstelle) von Statten gehen. Der Regelfall ist das unserer Erfahrung nach leider nicht.

Unerlässlich ist daher eine umfassende Analyse des Ausgangs-Materials und davon ausgehend ein ebenso umfassender Migrationsplan, der auch eine Zeit- und Ressourcenplanung beinhalten sollte. Da man die Fähigkeiten und Besonderheiten des neu beschafften CCMS vielleicht selbst noch nicht vollständig einschätzen kann, lohnt es sich fast in jedem Fall, sich dabei von einem erfahrenen Dienstleister beraten und auch begleiten zu lassen.

Ist Ihre Technische Dokumentation fit für die Digitalisierung? Planen Sie den Umstieg von DTP zu einem CCMS? Wir beraten Sie gerne zur Migration Ihrer Daten! Schicken Sie uns einfach eine Mail an: benjamin.rauschenberger@doctima.de.

Information 4.0 – Schritte auf dem Weg zur Intelligenten Information

Industrielle Steuerung?Die Digitalisierung der Arbeitswelt ist derzeit eines der meist diskutierten Themen. Auch unserer Branche, der Technischen Dokumentation, stehen tief greifende Veränderungen bevor.
Seit Anfang 2016 bin ich Mitglied der tekom-AG „Information 4.0“ und gestalte dadurch diese Veränderungen mit. In der AG arbeiten wir iiRDS aus, einen Standard zur Bereitstellung von intelligenter Information in digitalisierten, vernetzten Umgebungen. Mit diesem Beitrag fasse ich einige meiner Gedanken zum Thema Industrie 4.0 und intelligente Information zusammen.

Einige Begriffe

  • Industrie 4.0, digitale Fabrik: Sich selbst steuernde, weitestgehend automatisierte Fertigungsprozesse, die der Mensch nur noch „orchestriert“ und bei Bedarf eingreift.
  • Cyberphysikalisches System: Komponente, die aus einem dinglichen Objekt und aus einer digitalen, vernetzten Repräsentation besteht.
  • RAMI 4.0: dreidimensionales Referenzarchitekturmodell der Plattform Industrie 4.0. Strukturiert das Thema nach Lebenszklus von Entwurf bis Entsorgung, Hierarchie von Einzelkomponente bis zur umgebenden Cloud und nach Integrationslevel von Objekt („Asset“) bis Geschäftsmodell („Business“).
  • Verwaltungsschale: Digitale Repräsentation eines cyberphysikalischen Systems. Enthält beschreibende und identifizierende Eigenschaften, Sensordaten und Zugriffsmöglichkeiten zu digitalen Funktionen.

Technische Dokumentation heute

Für die meisten Akteure im Umfeld Industrie 4.0 findet Technische Dokumentation auf dem sog. „Asset Level“ in der digitalen Fabrik statt. Sie gehen gedanklich vom aktuellen Status Quo (oder eigentlich von dem Stand vor zehn Jahren) aus, und der heißt PDF. Dokumente für Installation, Wartung, Betrieb und ggf. Entsorgung werden als Einheiten betrachtet und als abrufbare Eigenschaften in der Verwaltungsschale eingeplant.

Auf diese Granularität zielt wohl auch die in Arbeit befindliche VDI-Richtlinie 2770 zur digitalen Herstellerinformation ab. Für einige Branchen (gerade ältere Industrieanlagen sind in der Regel auf Papier dokumentiert) ist das auch sicher ein Fortschritt. Aber natürlich geht viel mehr.

Intelligente Information

Technische Dokumentation lässt sich viel präziser modularisieren. In vielen Redaktionen wird das bereits heute betrieben, v. a. als Basis des Variantenmanagements: Die Filterung nach Zielgruppen, Sprachen, Gerätevarianten findet heute bereits statt und zwar beim Publizieren von Dokumentvarianten.

In einer Industrie-4.0-Umgebung lässt sich diese Filterung zum Lesezeitpunkt hin verlagern. Damit werden gezielte Abfragen möglich, die dem Anwender die von ihm benötigte Information passend zu seiner aktuellen Aufgabe bereitstellen.

Dazu werden Metadaten benötigt, die die einzelnen Informationsmodule klassifizieren und identifizieren. Zuordnung zu Hersteller, Gerät, Variante, Komponente und Funktionsgruppe sind ebenso entscheidend wie Sprache, Zielgruppe und Informationstyp. Außerdem erfordert die Integration ein Auslieferungsformat, das sich embedded, mobil und am Schreibtisch sauber anzeigen lässt. Standardisierung ist nötig, damit sich die Dokumentation unterschiedlicher Hersteller zu einer Gesamtinformation integrieren lässt.

Bei der tekom arbeiten wir an einem solchen Standard, dem iiRDS. Die Arbeitsgruppe hat ihre Zwischenergebnisse auf der tekom-Jahrestagung vorgestellt. Der Standard soll Mitte nächsten Jahres verfügbar sein.

Wo am Ende die Informationen bereitgestellt werden, ob direkt beim Komponentenhersteller, beim Anlagenbauer, vor Ort beim Betreiber der digitalen Fabrik oder direkt auf der Komponente, ist dabei offen. Ebenso ist offen, ob die Information auf einem eigenen Content Delivery Server, einem integrierten Webservice (der zum Beispiel über den doctima ContentConnect mit Inhalten versorgt wird) oder als Informationsbausteine in einem Asset Management System wie SAP AIN zu liegen kommen. Das abstrakte Konzept der Verwaltungsschale erlaubt hier viele Wege zu gehen.

Die Idee, dass alle (bleiben wir realistisch: möglichst viele) Ersteller von Technischer Information ein gemeinsames Format bereitstellen, um dem Anwender einen integrierten Wissensschatz zu einem aus vielen Komponenten bestehenden System bereitzustellen, erscheint mir auch ohne den direkten Bezug zu Industrie 4.0 ein absolut erstrebenswertes Ziel zu sein – weil es u. a. zu Verbesserungen für das leidige Thema Zulieferdokumentation bringen kann. In der Denkweise des RAMI 4.0 lässt sich die Dokumentation von der untersten Ebene mit PDF-Dokumenten als „Assets“ auf die vierte Ebene, das Information Layer, mit Content-Delivery-Diensten als funktionaler Teil der übergreifenden Verwaltungsschale aufwerten.

Ich bin sehr gespannt auf die kommenden Entwicklungen und wie sich das iiRDS-Format in der Praxis bewähren wird – und auf Ihre Meinung. Wie sind Ihre Erwartungen bezüglich der Digitalisierung der Arbeitswelt? Diskutieren Sie mit uns in den Kommentaren!