Abstract: Die Modellierung von Heterogenitat ist ein entscheidender Aspekt in jeder statistischen Analyse. Um ein geeignetes Modell zu finden, ist es notwendig, moglichst alle relevanten Strukturen und Einflussgrosen einzubeziehen. Die meisten statistischen Modelle konnen leicht beobachtete Strukturen einbinden, jedoch haben sie oft Schwierigkeiten latente Strukturen abzubilden. Misch-Modelle konnen Heterogenitat berucksichtigen, die aus zugrunde liegenden latenten Strukturen entstehen, wie etwa die unbeobachtete Zugehorigkeit zu verschiedenen Gruppen oder unterschiedliches Antwortverhalten. Mit dieser Doktorarbeit mochte ich einen Beitrag fur die Verwendung von Misch-Modellen zur Modellierung von Heterogenitat bei ordinalen Zielgrosen leisten und Variablen Selektion in diesem Kontext durchfuhren.
Zuerst konzentriere ich mich auf Heterogenitat, die bei Umfragen auftritt, wenn beispielsweise die Befragten bei der Wahl einer bestimmten geordneten Kategorie unsicher sind. In diesem Fall bestehen die Misch-Modelle ublicherweise aus einer Praferenz-Komponente und einer Unsicherheits-Komponente. Ein Gewicht bestimmt die Neigung jeder Person zu einer dieser beiden Komponenten zu gehoren. Das existierende CUB Modell verwendet eine verschobene Binomialverteilung fur die erste und eine Gleichverteilung fur die zweite Komponente. Im vorgeschlagenem CUP Modell wird die Praferenz-Komponente mit einem beliebigen ordinalen Modell wie dem kumulativen Logit Modell ersetzt, um eine hohere Flexibilitat in der Praferenz-Komponente zu erreichen. Im BetaBin Modell wird das Konzept der Unsicherheit als zufallige Wahl einer Kategorie so erweitert, dass Unsicherheit auch die Tendenz zu der zentralen Kategorie und extremen Kategorien erfasst. Auf diese Weise wird die Gleichverteilung des CUP Modells durch einer flexiblere, beschrankte Beta-Binomial Verteilung ersetzt.
Als zweites zeige ich, wie diskrete Cure Modelle verwendet werden konnen, um in der Survival-Analyse fur diskrete Zeit mit Heterogenitat umzugehen, die aus der unbeobachteten Zugehorigkeit zu verschiedenen Gruppen entsteht. "Cure" bezeichnet dabei den Umstand, dass eine Gruppe von Beobachtungen "geheilt ist" oder als sogenannte Langzeit-Uberlebende charakterisiert ist, wahrend die andere Gruppe dem Risiko des Ereignisses wie zum Beispiel "Eintritt von Arbeitslosigkeit" ausgesetzt ist. Die Zugehorigkeit zu dieser Gruppe ist unbekannt. Cure Modelle schatzen die Wahrscheinlichkeit zur Nicht-geheilten Population zu gehoren und die Form der Survival Funktion fur die Beobachtungen unter Risiko.
Drittens fuhre ich Variablen Selektion fur das CUB, CUP und das Cure Modell mit Hilfe von Penalisierung und teilweise schrittweise Selektionsverfahren durch. Die Herausforderung liegt insbesondere darin zu entscheiden, welche Variablen in welche Komponente des Misch-Modells aufgenommen werden sollen. Variablen konnen hier zum einen fur die Schatzung der Gewichte der Komponenten und zum anderen fur die Form einer oder zwei Misch-Komponenten verwendet werden. Es werden dafur spezifische Bestrafungsterme vorgestellt, die fur das jeweilige Modell geeignet sind.
Alle Modelle werden mit dem EM-Algorithmus geschatzt, der die unbekannte Zugehorigkeit zu einer der Komponenten als fehlende Daten behandelt. Es werden auch einige computationale Aspekte besprochen wie etwa mit der Initialisierung und der Konvergenz umzugehen ist. Die penalisierte Likelihood wird mit dem sogenannten FISTA Algorithmus geschatzt, da die Ableitungen der penalisierten Likelihood nicht existieren. Es werden sowohl Simulations-Studien als auch reelle Daten verwendet, um die Nutzlichkeit der neuen Ansatze aufzuzeigen.