Publishing Open Government Data (W3C)
From Open Data Network Wiki
Dies ist eine Übersetzung dieses Dokuments: http://www-mit.w3.org/TR/2009/WD-gov-data-20090908/ Zur Vereinfachung folgt hier vorerst die englische Version, die Stück für Stück übersetzt wird. Die Übersetzung müsste dadurch auch durch die Versiongeschichte nachprüf- und korrigierbar sein. Hinweise zur Übersetzung auf Talk:Publishing Open Government Data (W3C). --Eins78 19:36, 24 October 2009 (UTC)
Veröffentlichung von staatlichen Daten (Publishing Open Government Data)
W3C Konzeptentwurf 8 September 2009
- Diese Version
- http://www.w3.org/TR/2009/WD-gov-data-20090908/
- Aktuelle Version
- http://www.w3.org/TR/gov-data/
- Autoren
- Daniel Bennett <daniel@citizencontact.com> (Hinzugezogener Sachverständiger)
- Adam Harvey (Hinzugezogener Sachverständiger)
Bitte benutzen Sie den Glossar für dieses Dokument.
Copyright © 2009 W3C® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark and document use rules apply.
Einleitung
Die Menge der Daten, die von Regierungen und ihren Behörden veröffentlich werden, wächst täglich. Der Zugang zu diesen Daten ermöglicht mehr Transparenz, effizientere staatliche Dienstleistungen und fördert die Nutzung und Weiterverwendung staatlicher Daten durch durch die Öffentlichkeit sowie die Wirtschaft. Manche dieser Regierungen haben eigens Verzeichnisse und Portale geschaffen (wie z.B. data.gov), um das Auffinden und Nutzen dieser Daten zu vereinfachen.
Obwohl die Gründe für die Öffnung staatlicher Daten verschieden sein können, sind deren Logistiken und Grundlagen die selben. Um staatliche Stellen dabei zu unterstützen ihre Daten zu öffnen und anzubieten hat das W3C diesen Leitfaden entwickelt. Die folgenden Schritte stellen einige Methoden und Standard heraus, die die Veröffentlichung staatlicher Daten und deren innovative Nutzung durch die Öffentlichkeit fördern.
Status of this Document
This section describes the status of this document at the time of its publication. Other documents may supersede this document. A list of current W3C publications and the latest revision of this technical report can be found in the W3C technical reports index at http://www.w3.org/TR/.
The W3C eGovernment Interest Groupis pleased to offer this First Public Working Draft which briefly explains how to publish government data on the Web, based on the our gathered experience. We encourage anyone with additional experience to join the group or send written comment to help with the next version.
The W3C eGovernment Interest Group views this as an evolving document and seeks public feedback on this Working Draft. Please send your comments to public-egov-ig@w3.org (archives). If possible, please offer specific changes to the text that would address your concern. You may also wish to check the Wiki Version of this document and see if the relevant text has already been updated.
Publication as a Working Draft does not imply endorsement by the W3C Membership. This is a draft document and may be updated, replaced or obsoleted by other documents at any time. It is inappropriate to cite this document as other than work in progress.
This document was produced by a group operating under the 5 February 2004 W3C Patent Policy. The group does not expect this document to become a W3C Recommendation. W3C maintains a public list of any patent disclosures made in connection with the deliverables of the group; that page also includes instructions for disclosing a patent. An individual who has actual knowledge of a patent which the individual believes contains Essential Claim(s) must disclose the information in accordance with section 6 of the W3C Patent Policy.
Erste Schritte zur Veröffentlichung staatlicher Daten
Schritt 1: Die schnellste und einfachste Form um Daten im Internet zu veröffentlichen sind Rohdaten (z.B. ein XML-Dokument mit den Abstimmungsdaten der letzten Wahlen). Allerdings sollten diese Daten gut strukturiert sein, denn eine Struktur ermöglicht Dritten diese Daten automatisiert zu verarbeiten. Bekannte Formate bzw. Strukturen sind XML, RDF und CSV. Dateiformate, die nur eine visuelle Auswertung der Daten anstelle deren Verarbeitung erlauben (zum Beispiel Bilder als Abbildungen von Daten), sind nicht nützlich und sollten vermieden werden.
Step 2: Erstellen Sie ein Online-Verzeichnis der Rohdaten (sowie ihrer Dokumentation). Dort kann jeder die Veröffentlichungen nachschlagen.
Struktur und Dokumentation dieser Rohdatensätze sollte zuverlässig sein, da andernfalls ihr Nutzen zu vernachlässigen ist. Die meisten staatlichen Stellen haben schon jetzt Werkzeugen und Arbeitsabläufe implementiert um Daten zu erstellen und speichern (z.B. Excel, Word und andere Software-spezifische Dateiformate).
Die Veröffentlichung von Rohdaten und deren Erfassung in einem Online-Verzeichnis sind ein guter Anfang und gehen einher mit dem nächsten Entwicklungsschritt des Internets - "Die Webseite als Dateiserver".
Schritt 3: Stellen Sie sicher, daß die Daten für Menschen und Maschinen lesbar sind:
- Reichern Sie Ihre vorhandenen (X)HTML-Dokumente mit Semantik, Metadaten und Kennzeichnern an;
- Stellen Sie die Daten in offenen und Industrie-Standards – besonders XML – zur Verfügung, oder entwickeln sie auf Basis Ihrer Bedürfnisse einen eigenen Standard;
- Um Ihre Daten für Menschen lesbar anzubieten, können sie entweder in (X)HTML umgewandelt oder in Echtzeit durch CSS oder XSLT angepasst werden;
- Setzen Sie konsequente und/oder intuitive Web-Adressen (sog. "Coole URIs") ein;
- Ermöglichen Sie digitale Zitate in Form von standardisierten Hyperlinks (Anker-/ID-Links oder XLINKs/XPointer).
Diese Schritte werden der Öffentlichkeit dabei helfen, zur Verfügung gestellte Daten zu finden, zitieren und zu verstehen. Das Verzeichnis sollte einen Überblick über die Regeln und Normen geben, die bei der Nutzung der Daten beachtet werden müssen. Weiterhin besteht das Verzeichnis selbst auch aus "Daten", und sollte ebenso gut strukturiert Veröffentlicht werden, um Dritten die Verarbeitung der über Datensätze gespeicherten Verzeichnisdaten zu ermöglichen. Zeichnen Sie die Einzelteile der Website gründlich aus und verwenden Sie dazu valides XHTML. Setzen Sie selbst erschließende URLs für ihre Seiten ein. Stellen Sie Ihre Verzeichnisdaten als Feed zur Verfügung (ein mögliches Format dafür ist RSS), um schnell und einfach auf neue Datensätze hinweisen zu können.
File:Http://www-mit.w3.org/TR/2009/WD-gov-data-20090908/HowToPublish.jpg
Offene Daten geben Menschen echten Einfluss
Identifizieren
Die Möglichkeit Dinge anhand ihrer URI/URL eindeutig zu identifizieren ist die Grundlage des Internets. Empfohlene Vorgehensweisen für "offene staatliche Daten" bauen auf der in Architecture of the World Wide Web, Volume 1 [[#WEBARCH WEBARCH] beschrieben Architektur auf. Wenn Sie ihre Daten mit dauerhaften, einem Muster folgenden und/oder erschließbaren URI/URLs versehen, können sie von Programme und Menschen einfacher gefunden und genutzt werden. URI/URLs können in Datenbanken und Metadaten als universelle, einzigartige Kennzeichnungen verwendet werden (z.B. indem der Domain eine Seriennummer oder ein anderes internes Benennungssystem angefügt wird: http://www.example.gov/objects/optional-hierarchy/serial12345678.html).
Benutzen Sie interne IDs, um spezifische Daten für die maschinelle Weiterverarbeitung zu markieren. Die Nutzung von URIs und das Einfügen interner Links in großen Dokumenen machen es möglich Information verbindlich auf eigenen Webseiten zu zitieren.
Dokumentieren
Daten ohne Dokumentation sind nicht besonders nützlich. Nach Möglichkeit sollten Industriestandards, beispielsweise basierend auf XML/RDF, eingesetzt werden, da sich diese Formate in der Regel selbst dokumentieren. Erstellen Sie eine Webseite mit einer einfach gehaltenen Beschreibung der Datensätze, um die Auffindbarkeit mittels Suchmaschinen zu fördern. Diese Beschreibung sollte eine Anleitung enthalten, wie die Dokumente und Dateien abgerufen werden können, nebst einer Beschreibung des Inhalts. Es sollten mindestens der Titel, die Beschreibung, das Veröffentlichungsdatum sowie die verbindliche Quelle genannt werden. Benutzen Sie klare Formulierungen und verknüpfen Sie verwandte Inhalte, die dabei helfen den Kontext der Daten zu erschließen. Dokumentieren Sie nach Möglichkeit für jedes Datum sowohl eine Erläuterung als auch die verwendete Einheit und/oder die Art der Validierung (ist ein Datum ein beispielsweise eine Temperatur, sollte auch die Einheit, wie Celsius, Fahrenheit oder Kelvin, angegeben werden). Nutzen Sie weiterhin die aufkommenden Standards zur Beschreibung von Datensätzen. Erläutern Sie, falls vorhanden, Suchwerkzeuge und ReSTful methods, die zum Abruf der Daten verwendet werden können.
Vernetzen
Der nächstfolgende Schritt nach der Veröffentlichung von Rohdaten sind vollständig Vernetzte Daten. Anders ausgedrückt: Rohdaten können vernetzt werden, sind aber selbst nicht vernetzt – im Gegesatz dazu enthalten Vernetzte Daten auch Links zu anderen Daten sowie Dokumentation. Die Bandbreite von Roh- bis hin zu Vernetzten Daten ist groß, Standards wie RDF können Ihnen dabei helfen ihre Daten zu vernetzen.
Dies sind 4 Annahmen für ein Netz der (vernetzten) Daten:
- URIs sind Namen für Dinge;
- HTTP URIs helfen Menschen dabei, diese Dinge zu finden;
- Wenn jemand eine URI aufruft, sollte er nützliche Information auffinden; und
- Links von Ihren Daten zu anderen URIs helfen dabei weitere, verwandte Dinge zu finden.
Der beschriebene Einsatz von URIs schafft ein reichhaltiges und bequemes Netz der Daten, welches einfach zu durchsuchen und zu benutzen ist. Viele Datenbanken erstellen aber keine URIs, sondern verwenden Kennungen, die sich aus ihrer internen Struktur ableiten. Um diese Daten mit dem übergeordneten Netz zu verbinden, müssen Systeme verwendet werden, die URIs schon vor der Veröffentlichung der entsprechenden Daten vorwegnehmen oder erstellen.
Erhalten
Die Erhaltung der veröffentlichten Daten ist ein wichtiger Aspekt für staatliche Stellen. Wie kann sichergestellt werden, daß Daten, solange wie sie benötigt werden, auffindbar und abrufbar sind? Es ist möglich, daß Daten auch Jahrzehnte nach der Veröffentlichung noch unter der Verwendung der ursprünglichen URI zitiert werden.
Denken Sie darüber nach, wie sie neue URIs für überarbeitete oder neue Datensätze einführen und strukturieren Sie ihre URIs entsprechend, um die Geschichte eines Datensatzes zu erhalten. Verwenden Sie für Datensätze ein Versionierungssystem, damit alte und neue Fassungen zitiert und verlinkt werden können. Neue und überarbeitete Fassungen von Datensätzen können Referenzen auf ihren Ursprung enthalten. Stellen Sie bei Bedarf Werkzeuge zur Umwandlung älterer Daten bereit. Dokumentieren Sie Änderungen zwischen den Fassungen sorgfältig und fügen sie nach Möglichkeit die Versionsnummern auch in die Datensätze selbst ein. Bedenken Sie Dateiformate gründlich und setzen Sie offene, programmunabhängige Standards ein.
Mehr Informationen zu offenen Standards und Ansätzen zur erfolgreichen Erhaltung von Daten erhalten Sie in der [#references References].
Schnittstellen nutzen
Wenn Sie wirklich helfen wollen, daß Ihre veröffentlichten Daten gefunden und genutzt werden, können einige nützliche Standards des W3C dazu beitragen. XSLT bereitet XML- und RDF-basierte Formate für Menschen lesbar auf. Mit Hilfe von RDFa und/oder Mikroformaten können Webseiten besser von Maschinen gelesen werden, indem semantische Informationen in HTML eingebunden werden. (Beachten Sie hierbei, das Suchmaschinen diese semantischen Information verwenden können und so noch mehr Menschen helfen, Ihre Daten zu finden.) Falls es zu aufwendig ist ihren älteren Daten XSL oder CSS Auszeichnungsstile hinzuzufügen, können Sie auch Informationen zur Umwandlung dieser Daten mit einer allgemeinen oder spezifischen XSLT Engine bereitstellen (z.B. http://www.xmldatasets.net).
Aussenstehende haben die Möglichkeit neuartige und spannende Schnittstellen zu schaffen, die von den Bereitstellern der Daten nicht vorhergesehen wurden. Aus diesem Grund ist es wichtig, daß Sie die Integrität ihrer Daten nicht beeinträchtigen, nur um eine schrille Oberfäche umzusetzen. Wenn Sie eine Oberfläche einsetzen wollen, veröffentlichen Sie die Daten getrennt davon und stellen Sie Dritten Zugang zu den Rohdaten zur Verfügung, damit diese bei Bedarf Ihre eigenen Oberflächen umsetzen können.
Da alle Dokumente, die (X)HTML, XML und RDF einsetzen auch als Objekt-Datenbank oder ReSTful API eingesetzt werden können, kann die Öffentlichkeit Programme, Webanwendungen und Mash-Ups erstellen, die Ihre Datensätze weiterverwenden und auf die offizielle, verbindliche Fassung zurückverweisen. Zwei Standards des W3C, die dies ermöglichen sind XQuery und SPARQL. Nach Veröffentlichung der Daten können staatliche Stellen auch eigene benutzerfreundliche und transparente Oberflächen zur Verfügung stellen, mit den Benutzer im spielerischen Umgang mit den Daten Informationen finden können.
Standardisierte Namen/URIs für staatliche Objekte schaffen
Das Vorhandensein eines einzigartigen Kennzeichens für jede Erfasste Firma oder Schule (Objekt) ist genauso wichtig wie die der Informationen über diese Firmen oder Schulen. Zusätzlich zur Nutzung von offenen Industriestandards sollten außerdem alle erfassbaren staatlichen Behörden, Beamte und Objekte in einem Verzeichnis festgehalten werden. Diese URIs können dann innerhalb sämtlicher Datensätze verwendet werden. Dies trägt wesentlich zur Auffindbarkeit der Daten bei und verbessert deren Metadaten und Glaubwürdigkeit.
Zu veröffentlichende Daten auswählen
Sämtliche Daten, die öffentlich gemacht werden können, sollten auch zur Weitergabe freigegeben sein. Die Veröffentlichung dieser Daten sollte erst nach Prüfung von Sicherheits- und Datenschutzaspekten sowie in Einklang mit anwendbaren Gesetzen und Verordnungen geschehen.
Zuallererst sollten alle Daten veröffentlicht werden, die schon in anderer Form verfügbar sind (wie z.B. Druckerzeugnisse) oder anderweitig gesammelt und der Öffentlichkeit zur Verfügung gestellt werden. Veröffentlichen Sie Gesetze, Verordnungen und Listen sowie Dokumente über Mission, Vision, Werte und Ziele der verschiedenen staatlichen Einrichtungen und Behörden.
Für diese Dokumente existieren viele Standards (wie z.B. AIIM's emerging Strategy Markup Language (StratML), XBRL und andere). Diese Standards ermöglichen es Interessierten auf einfache Weise Einträge ihrer Wahl zu finden und dazu Stellung zu nehmen. Es ist einfacher, neue Dokumente in verschiedenen standardisierten Formaten zu veröffentlichen als sie im Nachhinein auszubessern.
Fügen Sie bei der Erstellung ihrer Datendokumentation XML-Referenzschemata, DTDs und Beschreibungen zur Klassifizierung. Erklären Sie, wie alle Dateien/Dokumente in einer Sammlung abgerufen werden können. Nutzen Sie übliche Feed-Formate und Werkzeuge um Neuzugänge und Änderungen anzukündigen. Stellen Sie eine vollständige Dokumentation zur Verfügung und ermöglichen Sie damit die automatisierte Erstellung von Indizes und Dienste zur Abfrage ihrer Daten. Dadurch wird es für die Öffentlichkeit noch einfacher ihre Dokumente und Datensätze zu finden.
Das richtige Datenformat wählen
Es gibt viele verschiedene Datenformate, aber welches funktioniert mit Ihren Daten am besten? Das Hauptformat für von Menschen lesbare Daten ist (X)HTML.
Rohdaten werden meist in Formaten erstellt, die an die Art der Daten, die verwendeten Werkzeuge oder Industriestandards angepasst wurden. Mit XML und RDF hat das W3C den Weg für hervorragende Weiterverarbeitung und standardisierte Werkzeuge bereitet. RDF- und XML-Dateien können mit Hilfe von SPARQL, XQuery, JavaScript und vielen anderen Programmiersprachen wie eine Datenbank angesprochen werden. Nutzen Sie wann immer möglich etablierte, offene Standards und Werkzeuge, die eine bequeme und effiziente Produktion und Veröffentlichung der Daten sicherstellt. Der Abschnitt [#references References] enthält eine Liste aktueller Werkzeuge. Bedenken Sie dabei immer die Stärke von Vernetzten Daten.
Beschränkungen bei der Nutzung der Daten
Sobald Sie ihre Daten zur Verfügung gestellt haben, stellen Sie sicher, daß alle rechtlichen Beschränkungen in Bezug auf dei Nutzung der Daten deutlich verzeichnet sind. In vielen Fällen gibt es definierte Standards um Urheberschutz- und Lizenzvermerke direkt in die Daten einzufügen (vgl. Standards für Metadaten, wie z.B. Dublin Core). Es ist sehr wichtig den beteiligten Dritten die zu beachtenden Regelungen zur Nutzung, Nachweispflicht sowie Beschränkungen und Verpflichtungen im Umgang mit diesen Daten klar und deutlich zu vermitteln.
Weiterlernen
Über die bestmögliche Veröffentlichung von staatlichen Daten gibt es noch viel zu lernen. Die eGov-Interessengruppe des W3C plant die Veröffentlichung von relevanten Nutzungsszenarien um funktionierende Beispiele der aktuellen Konzepte und bewährten Verfahren aufzuzeigen. Die Technologien und Herangehensweisen des W3C, die in diesem Dokument beschrieben werden können schnell und oft mit relativ geringen Kosten eingesetzt werden. Wenn Sie mehr erfahren möchten, kann Ihnen eine Reihe von Institutionen dabei helfen. Wenn Sie eine Bundesbehörde sind, dann denken Sie darüber nach dem W3C beizutreten und sich an den Aktivitäten zum e-Government zu beteiligen. So können Sie sich mit anderen Regierungen und Behörden über die verschiedenen Erfahrungen zu ähnlichen Problemstellungen austauschen. Selbst wenn Sie dem W3C nicht beitreten, teilen Sie uns bitte mit wie Sie vorankommen. Wir können helfen.
References
- [EGOV-IMPROVING]
- Improving Access to Government through Better Use of the Web, S. Accar, J. Alonso, K. Novak, Editors, W3C Group Note, 12 May 2009.
- [EU-PSID]
- Directive 2003/98/EC on the Re-Use of Public Sector Information, European Parliament and Council, 17 November 2003.
- [OGD-CIVIC]
- Open Data is Civic Capital: Best Practices for "Open Government Data", J. Tauberer, 20 July 2009
- [TBL-GOV]
- Design Issues: Putting Government Data Online, T. Berners-Lee.
- [TBL-LD]
- Design Issues: Linked Data, T. Berners-Lee.
- [TUT-LD]
- How to Publish Linked Data on the Web, C. Bizer, R. Cyganiak, T. Heath, 27 July 2007.
- [US-OBMEMO]
- Memorandum for the Heads of Executive Departments and Agencies on Transparency and Open Government, B. Obama.
- [US-GSATRAN]
- Intergovernmental Solutions Newsletter: Transparency and Open Government, GSA Office of Citizen Services and Communications, Spring 2009 Issue.
- [WEBARCH]
- Architecture of the World Wide Web, Volume One, I. Jacobs, N. Walsh, Editors, W3C Recommendation, 15 December 2005.
- [WEBSELF]
- The Self-Describing Web, N. Walsh, Editor, W3C TAG Finding, 7 February 2009.