Die Daten des Nationalen Bildungspanels stehen derzeit nur als Scientific Use File (SUF) zur Verfügung. Um die Daten nutzen zu können, müssen sämtliche Beteiligte für die Nutzung einen umfangreichen Datennutzungsvertrag unterzeichnen, der den Nutzerkreis, den Nutzungszweck und die Nutzungsdauer einschränkt (weitere Informationen zu den Datennutzungsverträgen finden sich hier).
Um die Möglichkeit einzuräumen, auch einer größeren Gruppe von Interessierten Zugang zu Daten zu ermöglichen, ohne jede einzelne Person in einen Datennutzungsvertrag aufzunehmen, bietet das LIfBi sogenannte Lehr- bzw. Campusdatensätze an. Bei diesen handelt es sich um stark anonymisierte Auszüge aus den Scientific Use Files, die als absolut anonyme Daten angesehen werden. Das heißt, eine Identifikation von Einzelpersonen, Haushalten oder Institutionen ist unmöglich.
In einer Pilotphase stellt das FDZ interessierten Datennutzern derzeit auf Anfrage absolut anonyme Daten zu Lehrzwecken zur Verfügung. Die Rahmenbedingungen hierfür sind die folgenden:
- Die Lehrkraft muss einen gültigen Datennutzungsvertrag besitzen
- Die Gruppe der an der Lehrveranstaltung Teilnehmenden soll mit einer Anwesenheitsliste inklusive Unterschrift erfasst werden
- Zusätzlich soll den Teilnehmern klar gemacht werden, dass es sich um vertrauliche Daten handelt, die mit Sorgfalt behandelt werden sollen. Insbesondere ist eine Weitergabe der Daten an Dritte (also z.B. an Personen, die nicht an der Lehrveranstaltung teilnehmen) nicht zulässig.
- In Absprache mit der Lehrkraft wird vom FDZ ein absolut anonymer Datensatz erstellt. Diese absolute Anonymität ist definiert durch:
- Ausgangspunkt aller Modifikation ist jeweils der Download-SUF, d.h. der bereits am stärksten anonymisierte SUF.
- Aus diesem wird ein Teildatensatz mit wenigen Variablen (ca. 10-15 Stück) erzeugt
- Die ID wird getauscht. Ein Linkage zum SUF ist so nicht mehr möglich
- Es wird eine Teilstichprobe gezogen.
- Bei der Gesamtmenge der kategorialen Merkmale wird auf k-Anonymität (genauer 2-Anonymität) geachtet (siehe [1]). Das bedeutet, dass im Datensatz jede Merkmalskombination von Attributen von mindestens k Personen geteilt wird (d.h., die Kombination der Merkmale ist kein eindeutiger Identifikator für eine Person, jede Person hat (k-1) statistische Doppelgänger). Um k-Anonymität zu erreichen, wird eine Kombination von Merkmalsaggregation und Reduktion verwendet.
- Metrische Merkmale werden perturbiert, d.h. mit einem N(0,r*s)-Zufallsfehler überlagert.
Der Vorteil dieser Methode ist, dass sowohl absolut anonyme Daten erzeugt werden, als auch ein Nutzungsrahmen definiert wird, der verbindlich ist, aber dennoch zumutbar. Damit wird ein maximaler Schutz der Daten etabliert. Der Nachteil allerdings liegt darin, dass der inhaltliche Umfang nur relativ schmal seien kann. Jeder so erzeugte Datensatz ist nur für einen ganz konkreten Nutzungszweck brauchbar (etwa definiert durch die ausgewählten Variablen). Darüber hinaus sind Daten im Episodenformat (Spelldaten) nicht auf diese Weise anonymisierbar und können somit nicht angeboten werden. Auch muss ganz strikt von einer inhaltlich sinnvollen Verwendung abgeraten werden. Durch die starke Anonymisierung ist keine valide Induktion zu erwarten.
Bei Interesse an einem Lehrdatensatz setzen Sie sich bitte mit dem Forschungsdatenzentrum unter fdz@lifbi.de in Verbindung.
[1] Sweeney, L. (2002). k-Anonymity: A Model for Protecting Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5), 557–570