Servicenavigation


Sie sind hier:

A4 : Statistische Methoden und Maschinelle Lernverfahren

 

Projektleitung

Prof. Dr. Katharina Morik
Prof. Dr. Claus Weihs
 

Kurzbeschreibung

Ziel dieses Teilprojekts ist weiterhin die Kombination von Verfahren aus der Statistik und dem maschinellen Lernen zur Wissensentdeckung in realen Datenbanken (Knowledge Discovery in Databases, KDD). Nachdem in der letzten Antragsphase der Wissensentdeckungsprozess insgesamt betrachtet wurde, soll in der neuen Antragsphase der Schwerpunkt auf zwei wichtige Problemstellungen gelegt werden, die in der Praxis der Wissensentdeckung häufig auftauchen und deren Behandlung einen besonderen Synergieeffekt durch die Kombination von Verfahren aus Statistik und maschinellem Lernen verspricht. Diese Teilaspekte sind die Behandlung von zeitlichen Phänomenen in der Form von Ereignissen und der Einsatz von Versuchsplanung. Zusätzlich besteht wie in den bisherigen Antragsphasen ein Schwerpunkt des Teilprojekts in der praktischen Analyse realer Datenbanken.
In der vergangenen Forschungsperiode waren wir mit einem Datensatz konfrontiert, bei dem der Zeitaspekt berücksichtigt werden sollte, aber die zeitlichen Phänomene nicht in Form zeitlich äquidistanter numerischer Werte vorlagen. Es ging um Vertragsänderungen von Versicherungen. Jede Änderung ist mit einem Datum annotiert. Sie kann als Ereignis aufgefasst werden. Die Analyseaufgabe bestand darin, diejenigen Sequenzen von Ereignissen zu ermitteln, die zum Rückkauf der Versicherung führen. Gesucht waren also Regeln über zeitlich geordnete Ereignisse, die ein bestimmtes Ereignis vorhersagen. Dieses Fallbeispiel konnte in der letzten Projektphase nicht ausreichend behandelt werden, hat uns aber gezeigt, dass Verfahren zur Entdeckung von Regeln viel versprechend sind, wenn die Ereignisse und ihre (zeitliche) Nachfolgerelation angemessen repräsentiert sind. Drei weitere Fallstudien der letzten Phase trugen zum Interesse an Ereignissequenzen bei. Einerseits wurde der B3-Datensatz zu Konjunkturzyklen im Zuge der komparativen Studien auch in nichtnumerische Werte abstrahiert, die für Zeitintervalle gelten. Diese logischen Fakten können als Ereignisse betrachtet werden, deren Sequenz für die Klassifikation der Konjunkturphase genutzt wird. Weiterhin wurden die Zeitreihen von Intensivpatienten in Ereignisfolgen transformiert, indem level changes und Trends der numerischen Zeitreihen ermittelt wurden. Außerdem wurden bei der Untersuchung von Gesangszeitreihen die Ereignisse der Notenwechsel bestimmt, indem zunächst für Abschnitte gleicher Länge die vorherrschende Note geschätzt wurde und dann mit Hilfe von Hintergrundinformation und Glättungsverfahren auf Notenwechsel geschlossen wurde.
Daraus ergab sich eine Aufgabenstellung, die den Stärken der Statistik bei der Behandlung von Zeitreihen und den Stärken der Informatik bei der Regelentdeckung Raum gibt. Die statistische Zeitreihenanalyse wird in der aktuellen Forschungsperiode zur Aggregation von Zeitreihenabschnitten zu Ereignissen eingesetzt. Dabei wird der neuartige Ansatz verfolgt, parallel mehrere Zeitreihenmodelle zu untersuchen. Durch geschickte Wahl der Modelle können spezielle Ereignisse (wie z. B. Trends, Strukturbrüche, ...) untersucht werden. Aus den so gewonnen Ereignissequenzen konnten dann Regeln gelernt werden, die ein Ereignis - mit oder ohne Zeitangabe für sein Eintreffen - vorhersagen. Die Abtastung der Zeitreihe hängt dabei insbesondere von der Art der interessierenden Ereignisse ab. Da die Analyse von Zeitreihen aufwändig ist, sollten außerdem nicht alle Reihen, die in einer Datenbank abgelegt wurden, dafür benutzt werden, Ereignisse zu aggregieren. Die Ereignisaggregation wurde vielmehr an sinnvoll ausgewählten Zeitreihen durchgeführt und dann auf alle anderen angewendet. Interessant ist dabei nicht zuletzt die Anwendbarkeit auf sehr große Datenbestände.
Der zweite Teilaspekt, der in der aktuellen Antragsperiode intensiv untersucht wird, ist die Einsatzmöglichkeit von statistischer Versuchsplanung in den verschiedenen Stufen der Wissensentdeckung in Datenbanken. Dabei geht es nicht nur um Versuchsplanung bei der Datenvorauswahl sondern auch um den Einsatz von Versuchsplanung bei der Optimierung der freien Parameter von KDD-Verfahren und um den Vergleich der Ergebnisgüte von Verfahren zur Lösung eines KDD-Problems in Abhängigkeit von verschiedensten Einflüssen mit Hilfe von Versuchsplanung. Insgesamt musste bisher eine starke Vernachlässigung von statistischer Versuchsplanung in der KDD festgestellt werden.
Die in diesem Projekt zu entwickelnden Verfahren sollen auf reale Datensätzen angewandt und auf diesen erprobt werden. Hierzu werden Datensätze ausgewählt, die ein breites Spektrum zeitlicher Daten und Problemstellungen abdecken, so dass möglichst allgemeine Aussagen über zeitliche Probleme möglich sind. Insbesondere sollen hier auch Datensätze anderer Teilprojekte bearbeitet werden. Die Erfahrungen mit diesen Datensätzen dienen als Basis für die Entwicklung einer generellen Vorgehensweise zur Lösung der erwähnten methodischen Fragestellungen.

Arbeitspakete

  • Untersuchung von Zeitreihen für KDD
  • Lernen von Regeln für Ereignisse
  • Kombination von Verfahren aus Statistik und maschinellem Lernen für zeitliche Daten
  • Versuchsplanung zur Datenvorverarbeitung
  • Optimierung von Verfahren mittels der Versuchsplanung
  • Vergleich von Verfahren mittels Versuchsplanung
     

neue Ziele

Lokale Modelle können im Vergleich zu globalen Modellen eine bessere Performanz durch gezielte Betrachtung unterschiedlich zu modellierender Teilmengen erreichen. Zusätzlich ist eine Steigerung der Effizienz und der Interpretierbarkeit durch die geringere Datenmenge bei den einzelnen lokalen Modellen möglich. Daher möchten wir in der nächsten Förderphase verschiedene Definitionen von lokalen Modellen bzgl. ihrer statistischen Eigenschaften und die Globalisierung lokaler Modelle, d.h. die Kombinationen von lokalen Modellen zu globalen Lösungen, untersuchen. Neben lokalen Modellen sollen Prototypen in einem Datensatz untersucht werden, die mit Hilfe von statistischen Versuchsplänen bestimmt werden. Solche Prototypen stellen interessante Lokalitäten im Datensatz dar, wenn sie neben der Erhöhung der Interpretierbarkeit auch Modelle mit adäquater Performanz liefern. Ziel der Untersuchungen sind fehlerratenminimale Pläne. Ausgehend von Ansätzen zum Vergleich von Verfahren, zur Klassifikation von Textdaten durch die Support Vector Machine und von Modellen zur Klassifikation von Musikdaten sollen jetzt Definition und Analyse von lokalen Klassifikationsmodellen im Mittelpunkt der Untersuchung stehen. Das erst ermöglicht weitergehende Analysen von Texten und Musik, z.B. bei der Informationsextraktion aus Texten und der lokalen Tempovariation in der Musik.

Veröffentlichungen

Die Veröffentlichungen des Projekts finden Sie hier.