banner
Heim / Nachricht / Verwendung von maschinellem Lernen zur Vorhersage der Schülerbindung aus sozialen Netzwerken
Nachricht

Verwendung von maschinellem Lernen zur Vorhersage der Schülerbindung aus sozialen Netzwerken

Sep 02, 2023Sep 02, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 5705 (2023) Diesen Artikel zitieren

1912 Zugriffe

25 Altmetrisch

Details zu den Metriken

Die Fluktuation von Studierenden stellt eine große Herausforderung für akademische Einrichtungen, Fördereinrichtungen und Studierende dar. Mit dem Aufkommen von Big Data und Predictive Analytics hat eine wachsende Zahl von Arbeiten in der Hochschulforschung gezeigt, dass es möglich ist, den Studienabbruch anhand leicht verfügbarer Daten auf Makroebene (z. B. Soziodemografie oder frühe Leistungskennzahlen) und Mikroebene vorherzusagen ( z. B. Anmeldungen bei Lernmanagementsystemen). In der vorliegenden Arbeit wurde jedoch ein entscheidendes Element auf der Mesoebene des Studierendenerfolgs, das bekanntermaßen die Bindung an Studierende fördert, weitgehend außer Acht gelassen: die Erfahrungen der Studierenden an der Universität und ihre soziale Einbettung in ihre Kohorte. In Zusammenarbeit mit einer mobilen Anwendung, die die Kommunikation zwischen Studenten und Universitäten erleichtert, haben wir sowohl (1) institutionelle Daten auf Makroebene als auch (2) Verhaltensdaten zum Engagement auf Mikro- und Mesoebene (z. B. Quantität und Qualität der Interaktionen mit Universitätsdiensten usw.) gesammelt Veranstaltungen sowie mit anderen Studierenden), um einen Studienabbruch nach dem ersten Semester vorherzusagen. Durch die Analyse der Aufzeichnungen von 50.095 Studenten von vier US-amerikanischen Universitäten und Community Colleges zeigen wir, dass die kombinierten Daten auf Makro- und Mesoebene einen Schulabbruch mit hoher Vorhersageleistung vorhersagen können (durchschnittliche AUC über lineare und nichtlineare Modelle = 78 %; maximale AUC). = 88 %). Es wurde festgestellt, dass Variablen zur Verhaltenseinbindung, die die Erfahrungen der Studenten an der Universität darstellen (z. B. Netzwerkzentralität, App-Engagement, Ereignisbewertungen), über institutionelle Variablen (z. B. GPA oder ethnische Zugehörigkeit) hinaus eine inkrementelle Vorhersagekraft bieten. Abschließend unterstreichen wir die Generalisierbarkeit unserer Ergebnisse, indem wir zeigen, dass an einer Universität trainierte Modelle den Verbleib an einer anderen Universität mit einigermaßen hoher Vorhersageleistung vorhersagen können.

In den USA schließen nur etwa 60 % der Vollzeitstudierenden ihr Studium ab1,2 und die Mehrheit derjenigen, die ihr Studium abbrechen, brechen ihr Studium im ersten Jahr ab3. Diese hohen Fluktuationsraten stellen Studierende, Universitäten und Fördereinrichtungen gleichermaßen vor große Herausforderungen4 ,5.

Ein Studienabbruch ohne Abschluss wirkt sich negativ auf die Finanzen und die psychische Gesundheit der Studierenden aus. Über 65 % der US-Studenten erhalten Studienkredite, um ihr Studium zu finanzieren, was dazu führt, dass sie im Laufe ihres Studiums hohe Schulden machen6. Nach Angaben des US-Bildungsministeriums ist die Wahrscheinlichkeit, dass Studierende, die einen Kredit aufnehmen, aber nie ihren Abschluss machen, mit der Rückzahlung ihres Darlehens in Verzug geraten, dreimal höher als bei Studierenden, die ihren Abschluss machen7. Dies ist kaum verwunderlich, denn Studierende, die ihr Studium ohne Abschluss abbrechen, verdienen 66 % weniger als Hochschulabsolventen mit Bachelor-Abschluss und sind deutlich häufiger arbeitslos2. Neben finanziellen Einbußen wirkt sich das Gefühl des Versagens häufig negativ auf das Wohlbefinden und die psychische Gesundheit der Studierenden aus8.

Gleichzeitig wirkt sich die Fluktuation von Studierenden negativ auf Universitäten und staatliche Fördereinrichtungen aus. Für Universitäten führt die Fluktuation von Studierenden zu einem durchschnittlichen jährlichen Umsatzrückgang von etwa 16,5 Milliarden US-Dollar pro Jahr durch den Verlust von Studiengebühren9,10. Ebenso werden durch die Abwanderung von Studierenden wertvolle Ressourcen verschwendet, die von Bundesstaaten und Bundesregierungen bereitgestellt werden. Beispielsweise zeigt das Integrated Postsecondary Education Data System (IPEDS) des US-Bildungsministeriums, dass die Landes- und Bundesregierungen zwischen 2003 und 2008 zusammen mehr als 9 Milliarden US-Dollar an Zuschüssen und Zuschüssen für Studierende bereitgestellt haben, die nicht an die Einrichtung zurückkehrten, an der sie eingeschrieben waren für ein zweites Jahr11.

Angesichts der hohen Abwanderungskosten ist die Fähigkeit, gefährdete Studierende vorherzusagen – und ihnen zusätzliche Unterstützung zu bieten – von entscheidender Bedeutung12,13. Da die meisten Schulabbrecher im ersten Jahr auftreten14, sind solche Vorhersagen am wertvollsten, wenn sie gefährdete Schüler so früh wie möglich identifizieren können13,15,16. Je früher man Studierende identifizieren kann, die Schwierigkeiten haben könnten, desto größer sind die Chancen, dass Interventionen, die darauf abzielen, sie davor zu schützen, allmählich ins Hintertreffen zu geraten – und schließlich ihr Studium abzubrechen – wirksam sind17,18.

Frühere Untersuchungen haben verschiedene Prädiktoren für die Bindung von Studenten identifiziert, darunter frühere akademische Leistungen, demografische und sozioökonomische Faktoren sowie die soziale Einbettung eines Studenten in seiner Heimathochschule19,20,21,22,23.

Frühere schulische Leistungen (z. B. High-School-GPA-, SAT- und ACT-Ergebnisse oder College-GPA) wurden als einer der beständigsten Prädiktoren für die Schülerbindung identifiziert: Schüler, die schulisch erfolgreicher sind, brechen die Schule seltener ab17,21,24,25 ,26,27,28,29. In ähnlicher Weise hat die Forschung die Rolle demografischer und sozioökonomischer Variablen hervorgehoben, einschließlich Alter, Geschlecht und ethnischer Zugehörigkeit12,19,25,27,30 sowie des sozioökonomischen Status31 bei der Vorhersage der Wahrscheinlichkeit, dass ein Schüler im Studium bleibt. Beispielsweise setzen Frauen ihr Studium eher fort als Männer12,30,32,33, während weiße und asiatische Studierende eher daran festhalten als Studierende anderer ethnischer Gruppen19,27,30. Darüber hinaus hat sich gezeigt, dass der sozioökonomische Status und die unmittelbare finanzielle Situation eines Studenten einen Einfluss auf den Verbleib im Studium haben. Studierende brechen ihr Studium eher ab, wenn sie Studierende der ersten Generation sind34,35,36 oder sich in einer großen finanziellen Notlage befinden (z. B. aufgrund von Studiendarlehen oder einer fast Vollzeitbeschäftigung zur Deckung der Studienkosten)37,38. Im Gegensatz dazu haben Studierende, die finanzielle Unterstützung erhalten, die nach dem Abschluss nicht zurückgezahlt werden muss, eine höhere Wahrscheinlichkeit, ihr Studium abzuschließen39,40.

Während es sich bei den meisten der genannten Prädiktoren für die Bindung von Studierenden um relativ stabile intrapersonale Merkmale handelt, die oft nur schwer oder kostspielig zu ändern sind, weist die Forschung auch auf eine formbarere Säule der Bindung hin: die Erfahrungen der Studierenden an der Universität. Insbesondere das Ausmaß, in dem sie erfolgreich in die Institution integriert und sozialisiert werden16,22,41,42. Wie Bean (2005) anmerkt, „würden nur wenige leugnen, dass das soziale Leben der Studierenden an der Hochschule und ihr Austausch mit anderen innerhalb und außerhalb der Hochschule für Verbleibentscheidungen wichtig sind“ (S. 227)41. Das Ausmaß, in dem ein Student sozial integriert und in seine Institution eingebettet ist, wurde auf verschiedene Weise untersucht, wobei Bindung mit der Entwicklung von Freundschaften mit Kommilitonen43, der Position des Studenten in den sozialen Netzwerken16,29, der Erfahrung sozialer Verbundenheit44 usw. in Zusammenhang gebracht wurde ein Zugehörigkeitsgefühl42,45,46. Zusammengenommen deuten diese Studien darauf hin, dass Interaktionen mit Kommilitonen sowie mit Lehrkräften und Mitarbeitern – beispielsweise durch die Teilnahme an Campusaktivitäten, die Mitgliedschaft in Organisationen und die Ausübung außerschulischer Aktivitäten – den Studierenden helfen, sich besser in das Universitätsleben zu integrieren44,47. Im Gegensatz dazu wirkt sich ein Mangel an sozialer Integration aufgrund des Pendelns (z. B. wenn man nicht mit anderen Studenten auf dem Campus wohnt) nachweislich negativ auf die Chancen eines Studenten aus, sein Studium abzuschließen48,49,50,51. Kurz gesagt: Je stärker ein Student in die Universitätsgemeinschaft eingebettet ist und sich integriert fühlt – insbesondere im ersten Jahr –, desto geringer ist die Wahrscheinlichkeit, dass er sein Studium abbricht42,52.

Ein großer Teil der Forschung zur Abwanderung von Studierenden konzentrierte sich auf das Verständnis und die Erklärung der Faktoren, die die Bindung von Studierenden beeinflussen. Doch parallel zum Aufkommen rechnerischer Methoden und prädiktiver Modellierung in den Sozialwissenschaften53,54,55 haben Bildungsforscher und -praktiker damit begonnen, die Machbarkeit und den Wert datengesteuerter Ansätze zur Unterstützung institutioneller Entscheidungsfindung und pädagogischer Wirksamkeit zu untersuchen (für hervorragende Übersichten darüber). Anbaugebiet siehe 56,57). Im Einklang mit diesem breiteren Trend hat eine wachsende Zahl von Arbeiten gezeigt, dass mithilfe maschinellen Lernens das Potenzial besteht, Studienabbrecher vorherzusagen. Im Gegensatz zu herkömmlichen inferenziellen Ansätzen befassen sich Ansätze des maschinellen Lernens hauptsächlich mit der Vorhersageleistung (d. h. der Fähigkeit, Verhalten, das noch nicht eingetreten ist, genau vorherzusagen)54. Im Kontext der Studentenbindung bedeutet dies: Wie genau können wir vorhersagen, ob ein Student sein Studium (in Zukunft) abschließen oder abbrechen wird, indem wir seine demografischen und sozioökonomischen Merkmale, seine vergangenen und aktuellen akademischen Leistungen analysieren? ihre aktuelle Einbettung in das Hochschulsystem und die Hochschulkultur?

In Anlehnung an die Aussage der National Academy of Education (2017), dass „Big Data im Bildungskontext typischerweise die Form von Verwaltungsdaten und Lernprozessdaten annimmt, die jeweils ihr eigenes Versprechen für die Bildungsforschung bieten“ (S. 4)58, ist die enorme Die meisten vorhandenen Studien konzentrieren sich auf die Vorhersage der Schülerbindung anhand demografischer und sozioökonomischer Merkmale sowie der akademischen Vergangenheit und aktuellen Leistung der Schüler13,59,60,61,62,63,64,65,66. In einer kürzlich durchgeführten Studie trainierten Aulck und Kollegen ein Modell anhand der Verwaltungsdaten von über 66.000 Studienanfängern, die an einer öffentlichen US-Universität eingeschrieben waren (z. B. Rasse, Geschlecht, High-School-Notendurchschnitt, Ergebnisse bei Aufnahmeprüfungen und frühe College-Leistungs-/Zeugnisdaten). vorhersagen, ob sie sich im zweiten Jahr erneut einschreiben und schließlich ihren Abschluss machen würden59. Insbesondere verwendeten sie eine Reihe linearer und nichtlinearer Modelle für maschinelles Lernen (z. B. regulierte logistische Regression, k-Nearest Neighbor, Random Forest, Support Vector Machine und Gradient Boosted Trees), um die Retention außerhalb der Stichprobe anhand eines Standards vorherzusagen Kreuzvalidierungsverfahren. Ihr Modell war in der Lage, Schulabbrecher mit einer Genauigkeit von 88 % und einen Schulabschluss mit einer Genauigkeit von 81 % vorherzusagen (wobei 50 % Zufall ist).

Während die vorhandenen Arbeiten solide Belege für das Potenzial von Vorhersagemodellen zur Identifizierung gefährdeter Schüler liefern, basieren sie auf ähnlichen Sätzen von Daten auf Makroebene (z. B. institutionelle Daten, akademische Leistung) oder Daten auf Mikroebene (z. B. Click-Stream-Daten). Daten zu den täglichen Erfahrungen und dem Engagement der Studierenden sowohl mit anderen Studierenden als auch mit der Universität selbst (Mesoebene) fehlen in dieser Forschung nahezu vollständig. Obwohl es eine kleine Anzahl von Studien gibt, die versuchen, einen Teil dieser Erfahrung zu erfassen, indem sie soziale Netzwerke aus Smartcard-Transaktionen ableiten, die von Studenten zur gleichen Zeit und am selben Ort durchgeführt wurden16, oder Engagement-Metriken mit einem offenen Online-Kurs67, ist dies bei keiner der vorhandenen Arbeiten der Fall bot einen ganzheitlicheren und umfassenderen Blick auf die täglichen Erfahrungen der Studierenden. Eine mögliche Erklärung für diese Lücke ist, dass Informationen über die sozialen Interaktionen der Studierenden mit ihren Kommilitonen oder ihr tägliches Engagement bei Universitätsdiensten und -veranstaltungen schwer zu verfolgen sind. Während Universitäten über ihre Studierendeninformationssysteme (SIS) häufig Zugriff auf demografische oder sozioökonomische Variablen haben und ihre akademischen Leistungen problemlos verfolgen können, verfügen die meisten Universitäten nicht über eine einfache Möglichkeit, die tiefere Auseinandersetzung der Studierenden mit dem System zu erfassen.

In dieser Forschung arbeiten wir mit einem Bildungssoftwareunternehmen – READY Education – zusammen, das eine virtuelle One-Stop-Interaktionsplattform in Form einer Smartphone-Anwendung anbietet, um die Kommunikation zwischen Studierenden, Lehrkräften und Mitarbeitern zu erleichtern. Studierende erhalten relevante Informationen und Ankündigungen, können ihre Hochschulaktivitäten verwalten und auf verschiedene Weise mit Kommilitonen interagieren. Beispielsweise bietet die App ein Social-Media-Erlebnis wie Facebook, einschließlich privater Nachrichten, Gruppen, öffentlicher Pinnwände und Freundschaften. Darüber hinaus erfasst es das Engagement der Studenten gegenüber der Universität, indem es sie dazu auffordert, sich über die QR-Code-Funktion an Veranstaltungen (z. B. Orientierungsveranstaltungen, Campusveranstaltungen und Studentenservices) zu beteiligen und sie anschließend aufzufordern, ihre Erfahrungen anschließend zu bewerten (weitere Einzelheiten zu den Funktionen finden Sie unter „Methoden“) die wir aus diesen Daten extrahiert haben). Infolgedessen ermöglicht uns die READY Education-App die Beobachtung umfassender Informationen über Studierende, die sowohl (i) institutionelle Daten (d. h. demografische und sozioökonomische Merkmale sowie akademische Leistungen) als auch (ii) ihre Eigenheiten umfassen Erfahrungen an der Universität, erfasst durch ihre täglichen Interaktionen mit anderen Studierenden und den Diensten/Veranstaltungen der Universität. Durch die Kombination der beiden Datenquellen wird das Profil eines Studierenden ganzheitlicher erfasst und es ist möglich, potenzielle Wechselwirkungen zwischen den Variablensätzen zu berücksichtigen. Beispielsweise könnte die enge Einbettung in ein soziales Unterstützungsnetzwerk von Freunden für die Bindung von Studierenden der ersten Generation wichtiger sein, die möglicherweise nicht das gleiche Maß an akademischer Unterstützung erhalten oder von ihren Eltern nichts über implizite akademische Normen und Regeln erfahren.

Aufbauend auf diesem einzigartigen Datensatz verwenden wir Modelle des maschinellen Lernens, um die Bindung von Studierenden (d. h. den Schulabbruch) anhand von institutionellen und verhaltensbezogenen Engagementdaten vorherzusagen. Da wir bestrebt sind, gefährdete Studierende so früh wie möglich zu identifizieren, verwenden wir nur die im ersten Semester der Studierenden gesammelten Informationen, um vorherzusagen, ob der Studierende zu irgendeinem Zeitpunkt seines Studiums abgebrochen hat. Um unseren analytischen Ansatz gründlich zu validieren und zu hinterfragen, Erkenntnisse für mögliche Interventionen zu gewinnen und die Generalisierbarkeit unserer Vorhersagemodelle an verschiedenen Universitäten zu prüfen, untersuchen wir die folgenden drei Forschungsfragen:

Wie genau können wir die Wahrscheinlichkeit eines Studienabbruchs eines Studierenden anhand von Informationen aus dem ersten Semester seines Studiums vorhersagen (z. B. institutionelle Daten, Daten zum Verhaltensengagement und eine Kombination aus beidem)?

Welche Merkmale sind am prädiktivsten für die Bindung von Studierenden?

Wie gut lassen sich die Vorhersagemodelle über Universitäten hinweg verallgemeinern (d. h. wie gut können wir die Bindung von Studenten einer Universität vorhersagen, wenn wir das Modell verwenden, das auf Daten einer anderen Universität trainiert wurde, und umgekehrt)?

Wir analysieren anonymisierte Daten von vier Institutionen mit insgesamt 50.095 Studierenden (min. = 476, max. = 45.062). Alle Studierenden gaben ihre Einwilligung zur Nutzung der anonymisierten Daten durch READY Education und Forschungspartner. Alle Versuchsprotokolle wurden vom Ethikausschuss der Columbia University genehmigt und alle durchgeführten Methoden entsprachen den Richtlinien und Vorschriften des Ausschusses. Die Daten stammen aus zwei Quellen: (a) institutionellen Daten und (b) Daten zum Verhaltensengagement. Die von den Universitäten gesammelten institutionellen Daten umfassen soziodemografische Daten (z. B. Geschlecht, ethnische Zugehörigkeit), allgemeine Studieninformationen (z. B. Zulassungsfrist, Studienprogramm), Finanzinformationen (z. B. Pell-Berechtigung) und akademische Leistungsergebnisse der Studierenden (z. B. GPA, ACT) sowie den Aufbewahrungsstatus. Letztere gibt Auskunft darüber, ob Studierende weitermachen oder abbrechen und dient als Ergebnisvariable. Da verschiedene Universitäten unterschiedliche Informationen über ihre Studierenden sammeln, variierte der Umfang der institutionellen Daten zwischen den Universitäten. Tabelle 1 gibt einen deskriptiven Überblick über die wichtigsten soziodemografischen Merkmale für jede der vier Universitäten. Darüber hinaus bietet es einen beschreibenden Überblick über die App-Nutzung, einschließlich der durchschnittlichen Anzahl der Protokolle pro Schüler, der Gesamtzahl der Sitzungen und Protokolle sowie des Prozentsatzes der Schüler in einer Kohorte, die die App nutzen (d. h. Abdeckung). Durch die hohe Abdeckung der Studierenden, die die App nutzen, die zwischen 70 und 98 % liegt, ergibt sich eine weitgehend repräsentative Stichprobe der Studierendenpopulationen an den jeweiligen Hochschulen.

Bemerkenswert ist, dass es sich bei den Universitäten 1–3 um traditionelle Universitätscampusse handelt, während Universität 4 eine Kombination aus 16 verschiedenen Community Colleges ist. Angesichts der erheblichen Heterogenität zwischen den Universitäten ist von vornherein zu erwarten, dass die Vorhersagegenauigkeiten für die Universität 4 niedriger sind als die für die Universitäten 1–3 (und sprechen teilweise bereits für die Generalisierbarkeit der Ergebnisse). Die Entscheidung, Universität 4 als eine Einheit einzubeziehen, beruhte auf der Tatsache, dass die Trennung der 16 Hochschulen zu einer Überrepräsentation von Community Colleges geführt hätte, die alle ähnliche Merkmale aufweisen, wodurch die beobachteten hochschulübergreifenden Genauigkeiten künstlich erhöht worden wären. Angesichts dieser Einschränkungen (und der Tatsache, dass die Universität selbst für viele ihrer internen Berichte die Hochschulgelände zum Einsturz gebracht hat) haben wir beschlossen, sie als eine Einheit zu analysieren, wobei wir anerkannten, dass dieser Ansatz seine eigenen Einschränkungen mit sich bringt.

Die Daten zum Verhaltensengagement wurden über die App generiert (siehe Tabelle 1 für die spezifischen Datenerfassungsfenster an jeder Universität). Daten zum verhaltensbezogenen Engagement standen in Form von Ereignisprotokollen mit Zeitstempel zur Verfügung (d. h. jede Zeile in den Rohdaten stellte ein registriertes Ereignis dar, z. B. einen angeklickten Tab, einen geposteten Kommentar oder eine gesendete Nachricht). Jedes Protokoll konnte über eine anonymisierte, eindeutige Kennung einem bestimmten Schüler zugeordnet werden. Über alle vier Universitäten hinweg umfassten die Engagement-Daten 7.477.630 Sitzungen (Mittelwert = 1.869.408, SD = 3.329.852) und 17.032.633 Protokolle (Mittelwert = 4.258.158, SD = 6.963.613) über alle Universitäten hinweg. Eine vollständige Übersicht aller Kennzahlen zum Verhaltensengagement einschließlich einer Beschreibung finden Sie in Tabelle S1 in den ergänzenden Materialien.

Im ersten Schritt haben wir sowohl die institutionellen als auch die App-Daten bereinigt. Bei den institutionellen Daten haben wir Studierende ausgeschlossen, die die App nicht nutzten und denen daher keine eindeutige Kennung zugewiesen werden konnte. Darüber hinaus haben wir Studierende ohne Zulassungsfrist ausgeschlossen, um sicherzustellen, dass wir nur das erste Semester der Studierenden beobachten. Schließlich haben wir doppelte Einträge entfernt, die aus der doppelten Einschreibung in verschiedenen Programmen resultieren. Für die App-Nutzungsdaten haben wir die Variablen in unserem Datensatz visuell auf Ausreißer überprüft, die auf technische Probleme zurückzuführen sein könnten. Wir haben Daten mit den Namen „clicked_[…]“ und „viewed_[…]“ vorverarbeitet, die das Klicken durch die App widerspiegeln (siehe Tabelle S1 in den ergänzenden Materialien). Eine kleine Anzahl von Beobachtungen ergab eine unrealistisch hohe Anzahl von Klicks auf denselben Tab in einem sehr kurzen Zeitraum, was wahrscheinlich darauf zurückzuführen ist, dass ein Schüler aufgrund langer Ladezeiten oder anderer technischer Probleme wiederholt auf einen Tab geklickt hat. Um eine Überabtastung dieser Verhaltensweisen zu vermeiden, haben wir alle Klicks desselben Typs entfernt, die von derselben Person im Abstand von weniger als einer Minute getätigt wurden.

Wir haben bis zu 462 Merkmale für jede Universität in zwei großen Kategorien extrahiert: (i) institutionelle Merkmale und (ii) Engagement-Merkmale, wobei wir Belege aus früheren Untersuchungen als Referenzpunkt verwendeten (siehe Tabelle S2 in den ergänzenden Materialien für einen umfassenden Überblick über alle Merkmale). und deren Verfügbarkeit für jede der Universitäten). Institutionelle Merkmale enthalten demografische, sozioökonomische und akademische Informationen der Studierenden. Die Engagement-Features stellen das Verhalten der Studierenden während ihres ersten Studiensemesters dar. Sie können weiter in App-Engagement und Community-Engagement unterteilt werden. Die App-Engagement-Funktionen stellen das Verhalten der Studierenden im Zusammenhang mit der App-Nutzung dar, z. B. ob die Studierenden die App vor Beginn des Semesters genutzt haben, wie oft sie auf Benachrichtigungen oder die Community-Tabs geklickt haben oder ob ihre App-Nutzung im Laufe des Semesters zugenommen hat das Semester. Die Community-Engagement-Funktionen spiegeln das soziale Verhalten und die Interaktion mit anderen wider, z. B. die Anzahl der gesendeten Nachrichten, geposteten Beiträge und Kommentare, besuchte Veranstaltungen oder die Position eines Schülers im Netzwerk, die aus Freundschaften und Direktnachrichten abgeleitet wird. Wichtig ist, dass viele der Merkmale in unserem Datensatz miteinander korrelieren. Beispielsweise könnte das Wohnen in einer Universitätsunterkunft ein Zeichen für einen höheren sozioökonomischen Status sein, aber auch die Wahrscheinlichkeit erhöhen, dass Studierende Campus-Veranstaltungen besuchen und sich mit anderen auf dem Campus lebenden Studierenden vernetzen. Während Interkorrelationen zwischen Prädiktoren bei standardmäßigen inferenzstatistischen Techniken wie Regressionsanalysen eine Herausforderung darstellen, können die in diesem Artikel verwendeten Methoden eine große Anzahl korrelierter Prädiktoren berücksichtigen.

Institutionelle Merkmale wurden direkt aus den von den Institutionen erfassten Daten abgeleitet. Wie oben erwähnt, waren nicht alle Funktionen für alle Universitäten verfügbar, was zu leicht unterschiedlichen Funktionssätzen zwischen den Universitäten führte. Die Engagement-Funktionen wurden aus den App-Nutzungsdaten extrahiert. Da wir uns auf eine frühzeitige Vorhersage von Studienabbrüchen konzentrierten, beschränkten wir die Daten auf Ereignisprotokolle, die im ersten Semester der jeweiligen Studierenden aufgezeichnet wurden. Insbesondere erfassen die Daten das Engagement der Schüler als eine Reihe von Ereignissen mit Zeitstempel und bieten detaillierte Einblicke in ihre täglichen Erfahrungen. Aus Gründen der Einfachheit und Interpretierbarkeit (siehe Forschungsfrage 2) fassen wir die Daten in einem einzigen Eintrag für jeden Studierenden zusammen. Konkret beschreiben wir die Gesamterfahrung eines Studenten während des ersten Semesters, indem wir Verteilungsmaße für jeden Studenten berechnen, wie z. B. das arithmetische Mittel, die Standardabweichung, die Wölbung, die Schiefe und Summenwerte. Wir berechnen beispielsweise, wie viele tägliche Nachrichten ein bestimmter Student im ersten Semester gesendet oder empfangen hat oder wie viele Campus-Veranstaltungen er insgesamt besucht hat. Allerdings berücksichtigen wir auch Veränderungen im Verhalten eines Schülers im Laufe der Zeit, indem wir komplexere Merkmale wie die Entropie (z. B. das Ausmaß, in dem eine Person häufig Kontakt mit wenigen Menschen hat oder den gleichen Grad an Kontakt mit vielen Menschen hat) und die Entwicklung von berechnen spezifische Verhaltensweisen im Zeitverlauf, gemessen anhand der Steigung von Regressionsanalysen, sowie Merkmale, die die Regelmäßigkeit des Verhaltens darstellen (z. B. die Abweichung der Zeit zwischen dem Senden von Nachrichten). Insgesamt zielte der Funktionsumfang darauf ab, die allgemeine Auseinandersetzung eines Studierenden mit Campus-Ressourcen und anderen Studierenden während des ersten Semesters sowie die Veränderung dieser Auseinandersetzung im Laufe der Zeit zu beschreiben. Schließlich haben wir einige Merkmale separat für Wochentage und Wochenenden extrahiert, um Unterschiede und Ähnlichkeiten in den Aktivitäten der Schüler während der Woche und am Wochenende zu berücksichtigen. Beispielsweise kann eine geringe soziale Interaktion an Wochentagen die Kundenbindung anders vorhersagen als eine geringe soziale Interaktion am Wochenende.

Wir haben die Daten weiter bereinigt, indem wir Teilnehmer verworfen haben, bei denen der Aufbewahrungsstatus fehlte, und diejenigen, bei denen 95 % oder mehr der Werte Null waren oder fehlten. Darüber hinaus wurden Merkmale entfernt, wenn sie zwischen den Teilnehmern keine oder nur geringe Unterschiede aufwiesen, was sie für eine Vorhersageaufgabe im Wesentlichen bedeutungslos macht. Insbesondere haben wir numerische Merkmale ausgeschlossen, die bei mehr als 90 % der Beobachtungen die gleichen Werte zeigten, und kategoriale Merkmale, die bei allen Beobachtungen den gleichen Wert zeigten.

Zusätzlich zu diesen allgemeinen Vorverarbeitungsverfahren haben wir vor dem Training der Modelle zusätzliche Vorverarbeitungsschritte in das Resampling integriert, um eine Überschätzung der Modellleistung zu vermeiden68. Um Probleme mit kategorialen Merkmalen zu vermeiden, die auftreten, wenn der Test weniger Stufen enthält als in den Trainingsdaten, haben wir zunächst Kategorien entfernt, die in den Trainingsdaten nicht vorkamen. Zweitens haben wir konstante kategoriale Merkmale entfernt, die nur einen einzelnen Wert (und daher keine Variation) enthalten. Drittens haben wir fehlende Werte mithilfe der folgenden Verfahren imputiert: Kategoriale Merkmale wurden mit dem Modus imputiert. In Anlehnung an häufig verwendete Ansätze zum Umgang mit fehlenden Daten variierte die Zuschreibung numerischer Merkmale zwischen den Lernenden. Für das elastische Netz haben wir diese Merkmale mit dem Median imputiert. Für die Zufallsstruktur haben wir das Doppelte des Maximums verwendet, um fehlenden Werten eine eindeutige Bedeutung zu geben, die es dem Modell ermöglichen würde, diese Informationen zu nutzen. Zuletzt haben wir die „Synthetic Minority Oversampling Technique“ (SMOTE) verwendet, um künstliche Beispiele für die Minderheitsklasse in den Trainingsdaten zu erstellen69. Die einzige Ausnahme war Universität 4, die aufgrund der großen Stichprobengröße und der geschätzten Rechenleistung für die Implementierung von SMOTE einem anderen Verfahren folgte. Anstatt Minderheitenfälle zu übersampeln, haben wir Mehrheitsfälle heruntersampling, so dass die positive und negative Klasse ausgeglichen waren. Dies geschah, um das Klassenungleichgewicht auszugleichen, das dadurch verursacht wurde, dass die meisten Studierenden ihr Studium fortsetzten, anstatt das Studium abzubrechen12.

Wir haben den Bindungsstatus (1 = abgebrochen, 0 = fortgesetzt) ​​in einer binären Vorhersageaufgabe mit drei Merkmalssätzen vorhergesagt: (1) institutionelle Merkmale, (2) Engagement-Merkmale und (3) ein kombinierter Satz aller Merkmale. Um die Robustheit unserer Vorhersagen sicherzustellen und das Modell zu identifizieren, das für den aktuellen Vorhersagekontext am besten geeignet ist54, haben wir einen linearen Klassifikator (elastisches Netz; implementiert in glmnet 4.1–4)70,71 und einen nichtlinearen Klassifikator (Random Forest; implementiert) verglichen in randomForest 4,7–1)72,73. Beide Modelle eignen sich besonders gut für unseren Vorhersagekontext und werden häufig in der computergestützten Sozialwissenschaft gewählt. Das heißt, einfache lineare oder logistische Regressionsmodelle sind aufgrund des hohen Risikos einer Überanpassung nicht für die Arbeit mit Datensätzen geeignet, die über viele miteinander korrelierte Prädiktoren verfügen (in unserem Fall insgesamt 462 Prädiktoren, von denen viele stark korreliert sind). Sowohl das elastische Netz als auch der Random-Forest-Algorithmus können große Funktionsmengen effektiv nutzen und gleichzeitig das Risiko einer Überanpassung verringern. Wir bewerten die Leistung unserer sechs Modelle für jede Schule (2 Algorithmen und 3 Funktionssätze) mithilfe von Out-of-Sample-Benchmark-Experimenten, die die Vorhersageleistung schätzen und sie mit einem gemeinsamen, nicht informativen Basismodell vergleichen. Die Basislinie stellt ein Nullmodell dar, das keine Features enthält, sondern stattdessen immer die Mehrheitsklasse vorhersagt, was in unseren Beispielen „Fortsetzung“ bedeutet.74 Nachfolgend stellen wir weitere Details zu den spezifischen Algorithmen bereit (z. B. elastisches Netz und Zufallswald). ), das Kreuzvalidierungsverfahren und die Leistungsmetriken, die wir für die Modellbewertung verwendet haben.

Das elastische Netz ist ein regulierter Regressionsansatz, der die Vorteile der Ridge-Regression75 mit denen des LASSO76 kombiniert und durch die Notwendigkeit motiviert ist, große Funktionsmengen zu verarbeiten. Das elastische Netz schrumpft die Beta-Koeffizienten von Merkmalen, die nur einen geringen Vorhersagewert bieten (z. B. interkorreliert, geringe Varianz). Darüber hinaus kann das elastische Netz effektiv Variablen aus dem Modell entfernen, indem es die jeweiligen Beta-Koeffizienten auf Null reduziert70. Im Gegensatz zu klassischen Regressionsmodellen zielt das elastische Netz nicht darauf ab, die Summe der kleinsten Quadrate zu optimieren, sondern enthält zwei Strafterme (L1, L2), die das Modell dazu anregen, den geschätzten Betawert von Merkmalen zu reduzieren, die dem Modell keine Informationen hinzufügen. Durch die Kombination der Strafen L1 (die Summe der absoluten Werte der Koeffizienten) und L2 (die Summe der quadrierten Werte der Koeffizienten) behebt das elastische Netz die Einschränkungen alternativer linearer Modelle wie der LASSO-Regression (nicht in der Lage, Multikollinearität zu verarbeiten). und Ridge-Regression (ergibt möglicherweise nicht ausreichend spärliche Lösungen)70.

Formal kann die Modellgleichung des elastischen Netzes für binäre Klassifizierungsprobleme in Anlehnung an Hastie & Qian (2016) wie folgt geschrieben werden77. Angenommen, die Antwortvariable nimmt Werte in G = {0,1} an, yi wird als I(gi = 1) bezeichnet, die Modellformel wird geschrieben als

Nach Anwendung der Log-Odds-Transformation kann die Modellformel wie folgt geschrieben werden:

Die Zielfunktion für die logistische Regression ist die bestrafte negative Binomial-Log-Likelihood

Dabei ist λ der Regularisierungsparameter, der die Gesamtstärke der Regularisierung steuert, α ist der Mischungsparameter, der das Gleichgewicht zwischen L1- und L2-Regularisierung steuert, wobei α-Werte näher bei Null liegen, um zu spärlicheren Modellen zu führen (Lasso-Regression α = 1, Ridge-Regression α). = 0). β stellt Koeffizienten des Regressionsmodells dar, ||β||1 ist die L1-Norm der Koeffizienten (die Summe der Absolutwerte der Koeffizienten), ||β||2 ist die L2-Norm der Koeffizienten (die Summe). der quadrierten Werte der Koeffizienten).

Der Ansatz der regulierten Regression ist für unser Modell besonders relevant, da viele der App-basierten Engagement-Funktionen stark korrelieren (z. B. hängt die Anzahl der Klicks mit der Anzahl der in der App registrierten Aktivitäten zusammen). Darüber hinaus bevorzugten wir den elastischen Netzalgorithmus gegenüber komplexeren Alternativen, da die regulierten Betakoeffizienten als Merkmalsbedeutung interpretiert werden können und Erkenntnisse darüber ermöglichen, welche Prädiktoren am aussagekräftigsten für Studienabbrecher sind78,79.

Random-Forest-Modelle sind eine weit verbreitete Ensemble-Lernmethode, die viele verpackte und dekorrelierte Entscheidungsbäume züchtet, um eine „kollektive“ Vorhersage des Ergebnisses zu erhalten (d. h. des Ergebnisses, das von den meisten Bäumen in einem Klassifizierungsproblem gewählt wird)72. Einzelne Entscheidungsbäume teilen den Merkmalsraum rekursiv auf (Regeln zur Klassenunterscheidung) mit dem Ziel, die verschiedenen Klassen des Kriteriums zu trennen (in unserem Fall Drop-Out vs. Verbleib). Für eine detaillierte Beschreibung, wie einzelne Entscheidungsbäume funktionieren und in einen Zufallswald übersetzt werden, siehe Pargent, Schoedel & Stachl80.

Im Gegensatz zum elastischen Netz können Random-Forest-Modelle nichtlineare Zusammenhänge zwischen Merkmalen und Kriterien berücksichtigen und automatisch mehrdimensionale Interaktionen zwischen Merkmalen einbeziehen. Jeder Entscheidungsbaum in einer Zufallsstruktur berücksichtigt eine zufällige Teilmenge von Bootstrapping-Fällen und -Merkmalen, wodurch die Varianz der Vorhersagen zwischen den Bäumen und die Robustheit der Gesamtvorhersage erhöht werden. Für die Aufteilung in jeden Knoten jedes Baums wird eine zufällige Teilmenge von Merkmalen (mtry-Hyperparameter, die wir in unseren Modellen optimieren) verwendet, indem zufällig aus der Gesamtmenge gezogen wird. Für jede Aufteilung werden alle Kombinationen von Aufteilungsvariablen und Aufteilungspunkten verglichen, wobei das Modell die Aufteilungen auswählt, die die Trennung zwischen den Klassen optimieren72.

Der Random-Forest-Algorithmus kann formal wie folgt beschrieben werden (wörtlich aus Hastie et al., 2016, S. 588):

Für b = 1 bis B:

Zeichnen Sie aus den Trainingsdaten eine Bootstrap-Stichprobe der Größe N.

Erweitern Sie einen Entscheidungsbaum mit den Bootstrap-Daten, indem Sie die folgenden Schritte rekursiv für jeden Endknoten des Baums wiederholen, bis die minimale Knotengröße erreicht ist.

Wählen Sie m Variablen zufällig aus den p Variablen aus.

Wählen Sie die beste Variable/den besten Aufteilungspunkt unter den m gemäß der Verlustfunktion aus (in unserem Fall Gini-Verunreinigungsabnahme).

Teilen Sie den Knoten in zwei Tochterknoten auf.

Geben Sie das Baumensemble aus

Anschließend können neue Vorhersagen getroffen werden, indem für jeden Baum eine Vorhersage erstellt und die Ergebnisse mithilfe der Mehrheitsentscheidung aggregiert werden.

Die Aggregation von Vorhersagen über Bäume in zufälligen Wäldern verbessert die Vorhersageleistung im Vergleich zu einzelnen Entscheidungsbäumen, da sie von der Varianz der Bäume profitieren und diese erheblich reduzieren kann, um zu einer einzigen Vorhersage zu gelangen72,81.

Wir bewerten die Leistung unserer Vorhersagemodelle mithilfe eines Out-of-Sample-Validierungsansatzes. Die Idee hinter der Validierung außerhalb der Stichprobe besteht darin, die Wahrscheinlichkeit zu erhöhen, dass ein Modell den Studienabbruch anhand neuer Daten (z. B. neuer Studierender) genau vorhersagt, indem beim Training und der Bewertung des Modells unterschiedliche Datensätze verwendet werden. Eine häufig verwendete, effiziente Technik zur Out-of-Sample-Validierung besteht darin, Modelle wiederholt an nicht überlappende Teile derselben Datensätze anzupassen (siehe Training) und zu bewerten (siehe Testen) und die einzelnen Schätzungen über mehrere Iterationen hinweg zu kombinieren. Dieses als Kreuzvalidierung bekannte Verfahren kann auch zur Modelloptimierung (z. B. Hyperparameter-Tuning, Vorverarbeitung, Variablenauswahl) verwendet werden, indem verschiedene Einstellungen für eine optimale Vorhersageleistung wiederholt bewertet werden. Wenn beide Ansätze kombiniert werden, müssen Bewertungs- und Optimierungsschritte in einer verschachtelten Weise durchgeführt werden, um eine strikte Trennung von Trainings- und Testdaten für eine realistische Leistungsschätzung außerhalb der Stichprobe sicherzustellen. Die allgemeine Idee besteht darin, alle Modellierungsschritte in jeder Falte des Resamplings so zu emulieren, als wäre es ein einzelnes In-Sample-Modell. Hier verwenden wir eine verschachtelte Kreuzvalidierung, um die Vorhersageleistung unserer Modelle abzuschätzen, Modellhyperparameter zu optimieren und Daten vorzuverarbeiten. Wir veranschaulichen die Vorgehensweise in Abb. 1.

Schematisches Kreuzvalidierungsverfahren für Out-of-Sample-Vorhersagen. Die Abbildung zeigt eine zehnfache Kreuzvalidierung in der äußeren Schleife, die zur Schätzung der Gesamtleistung des Modells verwendet wird, indem die vorhergesagten Ergebnisse für jeden Schüler im zuvor nicht sichtbaren Testsatz mit seinen tatsächlichen Ergebnissen verglichen werden. Innerhalb jeder der 10 äußeren Schleifen wird eine fünffache Kreuzvalidierung in der inneren Schleife verwendet, um Modellhyperparameter durch Auswertung verschiedener Modelleinstellungen zu optimieren.

Das Kreuzvalidierungsverfahren funktioniert wie folgt: Angenommen, wir haben einen Datensatz mit 1.000 Studierenden. In einem ersten Schritt wird der Datensatz in zehn verschiedene Teilstichproben aufgeteilt, die jeweils Daten von 100 Studierenden enthalten. In der ersten Runde werden neun dieser Teilstichproben zum Training verwendet (d. h. zur Anpassung des Modells zur Schätzung von Parametern, grüne Kästchen). Das bedeutet, dass die Daten der ersten 900 Studierenden in das Training des Modells einbezogen werden, um die verschiedenen Merkmale mit dem Ergebnis der Retention in Beziehung zu setzen. Sobald das Training abgeschlossen ist, kann die Leistung des Modells anhand der Daten der verbleibenden 100 Schüler (z. B. Testdatensatz, blaue Kästchen) bewertet werden. Für jeden Schüler wird das tatsächliche Ergebnis (behalten oder eingestellt, graue und schwarze Zahlen) mit dem prognostizierten Ergebnis (behalten oder eingestellt, graue und schwarze Zahlen) verglichen. Dieser Vergleich ermöglicht die Berechnung verschiedener Leistungsmetriken (weitere Einzelheiten finden Sie im Abschnitt „Leistungsmetriken“ weiter unten). Im Gegensatz zur Anwendung traditioneller Inferenzstatistiken trennt der Bewertungsprozess in Vorhersagemodellen die Daten, die zum Trainieren eines Modells verwendet werden, von den Daten, die zur Bewertung dieser Zusammenhänge verwendet werden. Daher beeinträchtigt jede Überanpassung, die in der Trainingsphase auftritt (z. B. durch die Verwendung von Forscherfreiheitsgraden oder aufgrund der Modelllernbeziehungen, die für die Trainingsdaten einzigartig sind), die Vorhersageleistung in der Testphase. Um die Robustheit der Ergebnisse weiter zu erhöhen und den gesamten Datensatz zu nutzen, wird dieser Vorgang für alle zehn Teilstichproben wiederholt, sodass jede Teilstichprobe neunmal zum Training und einmal zum Testen verwendet wird. Schließlich werden die aus diesen zehn Iterationen erhaltenen Schätzungen aggregiert, um eine kreuzvalidierte Schätzung der Modellleistung zu erhalten. Dieses zehnfache Kreuzvalidierungsverfahren wird als „äußere Schleife“ bezeichnet.

Unsere Modelle enthalten neben der Außenschlaufe auch eine „Innenschlaufe“. Die innere Schleife besteht aus einem zusätzlichen Kreuzvalidierungsverfahren, das zur Identifizierung idealer Hyperparametereinstellungen verwendet wird (siehe Abschnitt „Hyperparameter-Tuning“ weiter unten). Das heißt, in jeder der zehn Iterationen der äußeren Schleife wird die Trainingsstichprobe weiter in einen Trainings- und Testsatz unterteilt, um die besten Parameterkonstellationen vor der Modellauswertung in der äußeren Schleife zu identifizieren. Wir haben in der inneren Schleife eine fünffache Kreuzvalidierung verwendet. Alle Analyseskripte für die Vorverarbeitungs- und Modellierungsschritte sind auf OSF verfügbar (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc).

Wir bewerten die Modellleistung anhand von vier verschiedenen Metriken. Unsere Hauptmetrik für die Modellleistung ist die AUC (Fläche unter der empfangenen Betriebskennlinie). AUC wird häufig verwendet, um die Leistung eines Modells über eine Basislinie mit einer Wahrscheinlichkeit von 50 % zu bewerten, und kann irgendwo zwischen 0 und 1 liegen. Die AUC-Metrik erfasst die Fläche unter der ROC-Kurve (Receiver Operating Characteristic), die die wahre positive Rate darstellt (TPR oder Recall; d. h. der Prozentsatz der korrekt klassifizierten Schulabbrecher unter allen Studierenden, die tatsächlich abgebrochen haben) im Vergleich zur Falsch-Positiv-Rate (FPR; d. h. der Prozentsatz der fälschlicherweise als Schulabbrecher eingestuften Studierenden unter allen Studierenden, die tatsächlich weitergemacht haben). Wenn die AUC 0,5 beträgt, entspricht die Vorhersageleistung des Modells der eines Zufalls oder eines Münzwurfs. Je näher der Wert bei 1 liegt, desto höher ist die Vorhersageleistung des Modells bei der Unterscheidung zwischen Schülern, die weitermachen, und solchen, die das Studium abgebrochen haben.

Darüber hinaus geben wir den F1-Score an, der zwischen 0 und 182 liegt. Der F1-Score basiert ebenfalls auf dem positiven Vorhersagewert des Modells (oder der Präzision, d. h. dem Prozentsatz der korrekt klassifizierten Schulabbrecher unter allen prognostizierten Schulabbrechern). als TPR des Modells. Ein hoher F1-Score weist daher darauf hin, dass es sowohl wenige falsch-positive als auch wenige falsch-negative Ergebnisse gibt.

In Anbetracht des spezifischen Kontexts berichten wir auch über die TPR und die tatsächlichen Negativquoten (TNR, d. h. der Prozentsatz der Studierenden, von denen vorhergesagt wurde, dass sie weitermachen, unter allen Studierenden, die tatsächlich weitermachen). Abhängig von ihrem Ziel legen Universitäten möglicherweise einen stärkeren Schwerpunkt auf die Optimierung des TPR, um sicherzustellen, dass kein Studierender, der Gefahr läuft, das Studium abzubrechen, übersehen wird, oder auf die Optimierung des TNR, um Ressourcen zu sparen und sicherzustellen, dass Studierende nicht übermäßig belastet werden. Bemerkenswert ist, dass Universitäten in den meisten Fällen wahrscheinlich ein Gleichgewicht zwischen beiden anstreben, was sich in unserem wichtigsten AUC-Maß widerspiegelt. Alle gemeldeten Leistungsmetriken stellen die mittlere Vorhersageleistung über die 10 Kreuzvalidierungsfalten der äußeren Schleife54 dar.

Wir verwendeten eine randomisierte Suche mit 50 Iterationen und fünffacher Kreuzvalidierung zur Optimierung der Hyperparameter in der inneren Schleife unserer Kreuzvalidierung. Der randomisierte Suchalgorithmus passt Modelle mit Hyperparameterkonfigurationen an, die zufällig aus einem zuvor definierten Hyperparameterraum ausgewählt wurden, und wählt dann das Modell aus, das im Durchschnitt über die fünf Kreuzvalidierungsfaltungen die beste verallgemeinerte Leistung zeigt. Die beste Hyperparameterkonfiguration wird für das Training in der äußeren Resampling-Schleife verwendet, um die Modellleistung zu bewerten.

Für den elastischen Netzklassifikator haben wir den Regularisierungsparameter Lambda, die Entscheidungsregel zur Auswahl von Lambda und den L1-Verhältnisparameter optimiert. Der Suchraum für Lambda umfasste die 100 glmnet-Standardwerte71. Der Raum der Entscheidungsregeln für Lambda umfasste lambda.min, das den Lambda-Wert auswählt, der zum minimalen mittleren Kreuzvalidierungsfehler führt, und lambda.1se, das den Lambda-Wert auswählt, der zum am stärksten regulierten Modell führt, sodass das Kreuz- Der Validierungsfehler bleibt innerhalb eines Standardfehlers vom Minimum. Der Suchraum für den L1-Verhältnisparameter umfasste den Wertebereich zwischen 0 (Grat) und 1 (Lasso). Für den Random-Forest-Klassifikator haben wir die Anzahl der für jede Aufteilung innerhalb eines Entscheidungsbaums ausgewählten Features (mtry) und die minimale Knotengröße (d. h. wie viele Fälle in den resultierenden Endknoten des Baums verbleiben müssen) optimiert. Der Suchraum für die Anzahl der Eingabemerkmale pro Entscheidungsbaum wurde auf einen Bereich von 1 bis p festgelegt, wobei p die Dimensionalität des Merkmalsraums darstellt. Der Suchraum für die minimale Knotengröße wurde auf einen Bereich von 1 bis 5 festgelegt. Darüber hinaus haben wir für beide Modelle die Oversampling-Rate und die Anzahl der Nachbarn optimiert, die zum Generieren neuer Stichproben verwendet werden, die vom SMOTE-Algorithmus verwendet werden. Die Oversampling-Rate wurde auf einen Bereich von 2 bis 15 und die Anzahl der nächsten Nachbarn auf einen Bereich von 1 bis 10 eingestellt.

Abbildung 2 zeigt die AUC-Werte (Y-Achse) für die verschiedenen Universitäten (Zeilen), getrennt nach den verschiedenen Funktionssätzen (Farben) und Vorhersagealgorithmen (Beschriftungen auf der X-Achse). Die Abbildung zeigt die Verteilung der AUC-Genauigkeiten über die 10 Kreuzvalidierungsfalten sowie deren Mittelwert und Standardabweichung. Unabhängige T-Tests unter Verwendung von Holm-Korrekturen für mehrere Vergleiche zeigen statistische Unterschiede in der Vorhersageleistung zwischen den verschiedenen Modellen und Funktionssätzen innerhalb jeder Universität. Tabelle 2 zeigt die Vorhersageleistung für alle vier Metriken.

AUC-Leistung an den vier Universitäten für verschiedene Funktionssätze und Modelle.

Insgesamt zeigten unsere Modelle ein hohes Maß an Vorhersagegenauigkeit bei allen Universitäten, Modellen, Funktionssätzen und Leistungsmetriken und übertrafen in allen Fällen die Basislinie deutlich. Die Hauptleistungsmetrik AUC erreichte einen Durchschnitt von 73 % (wobei 50 % Zufall ist), mit einem Maximum von 88 % für das Random-Forest-Modell und den vollständigen Funktionsumfang in Universität 1. Sowohl institutionelle Merkmale als auch Engagement-Funktionen trugen erheblich zur Vorhersageleistung bei Dies unterstreicht die Tatsache, dass die Wahrscheinlichkeit eines Studienabbruchs sowohl von seinen stabileren soziodemografischen Merkmalen als auch von seiner Erfahrung mit dem Leben auf dem Campus abhängt. In den meisten Fällen schnitt das gemeinsame Modell (also die Kombination aus institutionellen und Engagement-Merkmalen) besser ab als jedes einzelne Modell allein. Schließlich erbrachten die Random-Forest-Modelle in den meisten Fällen eine höhere Vorhersageleistung als das elastische Netz (durchschnittliches AUC-Elastiknetz = 70 %, AUC-Random-Forest = 75 %), was darauf hindeutet, dass die Merkmale bei der Vorhersage von Schülern wahrscheinlich miteinander interagieren Retention und hängt möglicherweise nicht immer linear mit dem Ergebnis zusammen.

Um Einblicke in die zugrunde liegenden Zusammenhänge zwischen Schülerbindung und soziodemografischen Merkmalen sowie Verhaltensmerkmalen zu erhalten, haben wir zwei Indikatoren für die Wichtigkeit von Merkmalen untersucht, die beide einzigartige Erkenntnisse bieten. Zunächst haben wir die Korrelationen nullter Ordnung zwischen den Merkmalen und dem Ergebnis für jede der vier Universitäten berechnet. Wir haben Korrelationen nullter Ordnung gegenüber elastischen Netzkoeffizienten gewählt, da sie die Beziehungen darstellen, die durch das Regularisierungsverfahren des Modells unverändert bleiben (d. h. die Beziehung zwischen einem Merkmal und dem Ergebnis wird unabhängig von der Bedeutung der anderen Merkmale im Modell angezeigt). Um die Robustheit unserer Ergebnisse zu verbessern, haben wir nur die Variablen einbezogen, die den Schwellenwert für die Datenaufnahme in unseren Modellen überschritten haben und bei denen weniger als 50 % der Daten unterstellt waren. Das obere Drittel von Tabelle 3 zeigt die 10 wichtigsten Merkmale (dh die höchste absolute Korrelation mit der Retention). Das Vorzeichen in Klammern gibt die Richtung der Auswirkungen an, wobei (+) einen Schutzfaktor und (−) einen Risikofaktor angibt. Features, die in den Top 10 von mehr als einer Universität auftauchten, sind fett hervorgehoben.

Zweitens haben wir die Wichtigkeitswerte der Permutationsvariablen für das elastische Netz und das Zufallswaldmodell berechnet. Für das elastische Netzmodell wird die Merkmalsbedeutung als Modellkoeffizient angegeben, nachdem die Koeffizienten entsprechend ihrer inkrementellen Vorhersagekraft verkleinert wurden. Im Vergleich zur Korrelation nullter Ordnung identifizieren die elastischen Nettokoeffizienten somit die Merkmale, die die stärkste eindeutige Varianz aufweisen. Für die Random-Forest-Modelle wird die Feature-Wichtigkeit als modellunabhängige Metrik angegeben, die die Wichtigkeit eines Features schätzt, indem sie den Abfall der Vorhersageleistung des Modells beobachtet, wenn die tatsächliche Assoziation zwischen dem Feature und dem Ergebnis durch zufälliges Mischen von Beobachtungen unterbrochen wird72,83. Ein Merkmal gilt als wichtig, wenn das Mischen seiner Werte den Modellfehler erhöht (und daher die Vorhersageleistung des Modells verringert). Im Gegensatz zu den Koeffizienten aus dem elastischen Netzmodell sind die Permutations-Feature-Wichtigkeitswerte ungerichtet und geben keine Einblicke in die spezifische Natur der Beziehung zwischen dem Feature und dem Ergebnis. Sie berücksichtigen jedoch die Tatsache, dass einige Funktionen möglicherweise selbst nicht prädiktiv sind, sich aber dennoch als wertvoll für die Gesamtleistung des Modells erweisen könnten, da sie die Auswirkungen anderer Funktionen abschwächen. Beispielsweise könnten Studierende einer Minderheit oder der ersten Generation mehr von der Einbettung in ein starkes soziales Netzwerk profitieren als Studierende der Mehrheitsbevölkerung, die nicht mit denselben Barrieren konfrontiert sind und wahrscheinlich über ein stärkeres externes Unterstützungsnetzwerk verfügen. Unten in Tabelle 3 sind die 10 wichtigsten Merkmale im elastischen Netz und im Random-Forest-Modell aufgeführt (d. h. die höchste Bedeutung der Permutationsvariablen).

Die Korrelationen nullter Ordnung untermauern die in RQ1 berichteten Ergebnisse und bestätigen, dass sowohl institutionelle als auch verhaltensbezogene Engagementmerkmale eine wichtige Rolle bei der Vorhersage der Schülerbindung spielen. Im Vergleich zu früheren Arbeiten erwies sich die Leistung der Studierenden (gemessen anhand des GPA oder ACT) wiederholt als einer der wichtigsten Prädiktoren über Universitäten und Modelle hinweg. Darüber hinaus hängen viele der Engagement-Funktionen (z. B. besuchte Dienste, Netzwerkzentralität von Chat-Nachrichten) mit sozialen Aktivitäten oder Netzwerkfunktionen zusammen, was die Annahme stützt, dass die sozialen Verbindungen und die Unterstützung eines Schülers eine entscheidende Rolle bei der Bindung des Schülers spielen. Darüber hinaus scheint das Ausmaß, in dem Studierende sich positiv mit ihren Institutionen befassen (z. B. durch die Teilnahme an Veranstaltungen und deren hohe Bewertung), eine entscheidende Rolle bei der Verhinderung von Studienabbrüchen zu spielen.

Um die Generalisierbarkeit unserer Modelle über Universitäten hinweg zu testen, verwendeten wir das an einer Universität (z. B. Universität 1) trainierte Vorhersagemodell, um den Verbleib der verbleibenden drei Universitäten (z. B. Universitäten 2–4) vorherzusagen. Die Abbildungen 3A und B zeigen die AUCs über alle möglichen Paare hinweg und geben an, welche Universität für die Ausbildung verwendet wurde (X-Achse) und welche für Tests verwendet wurde (Y-Achse; siehe Abbildung S1 in der SI für Diagramme, die die Ergebnisse für F1 und TNR veranschaulichen und TPR).

Leistung (durchschnittliche AUC) von hochschulübergreifenden Vorhersagen.

Insgesamt haben wir bei der Anwendung eines an einer Universität trainierten Modells auf die Daten einer anderen Universität ein recht hohes Maß an Vorhersageleistung beobachtet. Die beobachtete durchschnittliche AUC betrug 63 % (sowohl für das elastische Netz als auch für den Random Forest), wobei die höchste Vorhersageleistung 74 % erreichte (Training an Universität 1, Vorhersage an Universität 2), was nur 1 %-Punkt unter der beobachteten Vorhersageleistung liegt die Vorhersage aus dem eigenen Modell der Universität (trainiert an Universität 2, Vorhersage an Universität 2). Im Gegensatz zu den Ergebnissen in RQ1 schnitten die Random-Forest-Modelle bei Vorhersagen für andere Universitäten nicht besser ab als das elastische Netz. Dies deutet darauf hin, dass die Vorteile der Random-Forest-Modelle komplexe Interaktionsmuster erfassen, die für jede Universität in gewisser Weise einzigartig sind, sich aber möglicherweise nicht gut auf neue Kontexte übertragen lassen. Der größte Ausreißer bei der Generalisierbarkeit war Universität 4, wo keines der anderen Modelle eine viel bessere Genauigkeit als der Zufall erreichte und deren Modell relativ niedrige Genauigkeitsniveaus bei der Vorhersage der Studentenbindung an den Universitäten 1–2 lieferte. Dies ist wahrscheinlich auf die Tatsache zurückzuführen, dass sich Universität 4 in mehrfacher Hinsicht qualitativ von den anderen Universitäten unterschied, einschließlich der Tatsache, dass Universität 4 ein Community College war und aus 16 verschiedenen Campussen bestand, die für die Zwecke dieser Analyse zusammengelegt wurden (siehe Methoden). für mehr Details).

Wir zeigen, dass die Schülerbindung anhand institutioneller Daten, Daten zum Verhaltensengagement und deren Kombination vorhergesagt werden kann. Mithilfe von Daten von über 50.000 Studenten an vier Universitäten erreichen unsere Vorhersagemodelle eine Genauigkeit außerhalb der Stichprobe von bis zu 88 % (wobei 50 % Zufall sind). Bemerkenswert ist, dass sowohl institutionelle Daten als auch Daten zum Verhaltensengagement die Bindung signifikant vorhersagen, die Kombination aus beiden jedoch in den meisten Fällen die beste Leistung erbringt. Diese Feststellung wird durch unsere Analyse der Merkmalsbedeutung weiter gestützt, die darauf hindeutet, dass sowohl institutionelle als auch verhaltensbezogene Engagementmerkmale zu den wichtigsten Prädiktoren für die Schülerbindung gehören. Insbesondere die akademische Leistung, gemessen am Notendurchschnitt und Verhaltensmetriken im Zusammenhang mit dem Campus-Engagement (z. B. Teilnahme an Veranstaltungen oder Bewertungen) oder die Position eines Studenten im Netzwerk (z. B. Nähe oder Zentralität), erwiesen sich durchweg als Schutzfaktoren. Abschließend betonen wir die Verallgemeinerbarkeit unserer Modelle über Universitäten hinweg. Modelle, die an einer Universität trainiert wurden, waren in der Lage, die Studentenbindung an einer anderen Universität mit einigermaßen hoher Vorhersageleistung vorherzusagen. Wie zu erwarten ist, hängt die Generalisierbarkeit zwischen Universitäten stark davon ab, inwieweit die Universitäten in wichtigen Strukturdimensionen ähnlich sind, wobei die Vorhersagegenauigkeit in Fällen, in denen die Ähnlichkeit gering ist, radikal abnimmt (siehe niedrige Kreuzgeneralisierung für Universität 4).

Unsere Ergebnisse tragen in mehrfacher Hinsicht zur vorhandenen Literatur bei. Erstens reagieren sie auf die jüngsten Forderungen nach mehr prädiktiver Forschung in der Psychologie54,55 sowie dem Einsatz von Big-Data-Analysen in der Bildungsforschung56,57. Unsere Modelle berücksichtigen nicht nur soziodemografische Merkmale, die von Universitäten erfasst werden, sondern erfassen auch die täglichen Erfahrungen und das Engagement der Studenten an der Universität, indem sie Verhaltensweisen über die READY Education-App verfolgen. Unsere Ergebnisse legen nahe, dass diese eher psychologischen Prädiktoren für die Schülerbindung die Leistung von Vorhersagemodellen über soziodemografische Variablen hinaus verbessern können. Dies steht im Einklang mit früheren Erkenntnissen, die darauf hindeuten, dass die Einbeziehung von Engagement-Metriken die Leistung von Vorhersagemodellen verbessert16,84,85. Insgesamt zeigten unsere Modelle höhere Genauigkeiten als Modelle früherer Studien, die nur auf demografische Daten und Transkriptaufzeichnungen15,25 oder weniger umfassende Verhaltensmerkmale16 trainiert wurden, und lieferten Ergebnisse, die mit denen vergleichbar waren, die in Studien berichtet wurden, die zusätzlich eine breite Palette sozioökonomischer Variablen umfassten12. Angesichts der Tatsache, dass die READY Education-App nur einen Bruchteil der tatsächlichen Erfahrungen der Studierenden erfasst, sind die hohen Vorhersagegenauigkeiten ein noch stärkeres Argument für die Bedeutung des Engagements der Studierenden für den Verbleib im Studium.

Zweitens liefern unsere Ergebnisse Einblicke in die Merkmale, die für die Vorhersage, ob ein Student sein Studium abbrechen wird oder nicht, am wichtigsten sind. Auf diese Weise ergänzen sie unseren prädiktiven Ansatz um Verständnisebenen, die nicht nur zur Validierung unserer Modelle, sondern auch zur Gewinnung von Erkenntnissen über potenzielle Schutz- und Risikofaktoren beitragen. Am wichtigsten ist, dass unsere Ergebnisse die Relevanz der Verhaltens-Engagement-Kennzahlen für die Vorhersage der Schülerbindung unterstreichen. Die meisten in der Vorhersage als wichtig identifizierten Funktionen standen im Zusammenhang mit dem App- und Community-Engagement. Im Einklang mit früheren Untersuchungen erwiesen sich Merkmale, die auf eine frühe und tiefe soziale Integration hinweisen, wie z. B. die Interaktion mit Gleichaltrigen und Lehrkräften oder die Entwicklung von Freundschaften und sozialen Netzwerken, als äußerst prädiktiv16,41. Es kann beispielsweise davon ausgegangen werden, dass sich eine kurze Zeit zwischen der App-Registrierung und dem ersten Besuch einer Campus-Veranstaltung (eines der als wichtig identifizierten Merkmale) positiv auf die Bindung auswirkt, da Campus-Veranstaltungen ideale Möglichkeiten für Studierende bieten, Kontakte zu knüpfen86. Eine frühzeitige Teilnahme an einer Campus-Veranstaltung setzt eine frühzeitige Integration und Vernetzung mit anderen voraus, schützt Studierende vor wahrgenommenem Stress87 und sorgt für eine bessere soziale und emotionale Unterstützung88. Im Gegensatz dazu ist ein Student, der nie oder erst sehr spät im Semester an einer Veranstaltung teilnimmt, möglicherweise weniger mit dem Leben auf dem Campus und der Studentengemeinschaft verbunden, was wiederum die Wahrscheinlichkeit eines Studienabbruchs erhöht. Diese Interpretation wird durch die Tatsache gestützt, dass ein hoher Anteil positiver Ereignisbewertungen als wichtiger Prädiktor für die Fortsetzung des Studiums identifiziert wurde. Studierende, die eine Veranstaltung genießen, fühlen sich wahrscheinlich wohler, werden in das Universitätsleben integriert, knüpfen mehr Kontakte und bauen stärkere Verbindungen auf. Dies könnte zu einem positiven Kreislauf führen, in dem Studierende weiterhin Veranstaltungen besuchen und im Laufe der Zeit eine starke soziale Verbindung zu ihren Mitschülern aufbauen. Wie in den meisten früheren Arbeiten war ein hoher Notendurchschnitt durchweg mit einer höheren Wahrscheinlichkeit verbunden, sein Studium fortzusetzen21,24. Obwohl ihre Bedeutung von Universität zu Universität unterschiedlich ist, wurde festgestellt, dass auch die ethnische Zugehörigkeit eine wichtige Rolle für die Bindung spielt, wobei sich in unseren Vorhersagemodellen konsistente Ungleichheiten widerspiegeln12,19,47. Beispielsweise war die Wahrscheinlichkeit, dass schwarze Studierende ihr Studium abbrachen, im Durchschnitt höher, was darauf hindeutet, dass die Universitäten zusätzliche Ressourcen zum Schutz dieser Gruppe bereitstellen sollten. Wichtig ist, dass alle qualitativen Interpretationen post-hoc erfolgen. Während viele der Ergebnisse intuitiv sind und mit früheren Forschungen zu diesem Thema übereinstimmen, sollten zukünftige Studien unsere Ergebnisse validieren und die Kausalität untersuchen, die den Auswirkungen in experimentellen oder longitudinalen In-Person-Designs zugrunde liegt54,78.

Schließlich sind unsere Ergebnisse die ersten, die untersuchen, inwieweit die Beziehungen zwischen bestimmten soziodemografischen Merkmalen und Verhaltensmerkmalen idiosynkratisch und einzigartig für eine bestimmte Universität sein könnten. Durch den Vergleich der Modelle an vier verschiedenen Universitäten konnten wir zeigen, dass viele der an einer Universität gewonnenen Erkenntnisse genutzt werden können, um die Studentenbindung an einer anderen vorherzusagen. Unsere Ergebnisse weisen jedoch auch auf wichtige Randbedingungen hin: Je unterschiedlicher Universitäten in ihren Organisationsstrukturen und Studierendenerfahrungen sind, desto idiosynkratischer werden die Muster zwischen bestimmten soziodemografischen und verhaltensbezogenen Merkmalen bei der Studierendenbindung und desto schwieriger ist es, sie lediglich zu übersetzen allgemeine Einblicke in den jeweiligen Universitätscampus.

Unsere Erkenntnisse haben auch wichtige praktische Implikationen. In den USA führt die Abwanderung von Studenten zu einem durchschnittlichen jährlichen Einnahmeverlust von etwa 16,5 Milliarden US-Dollar pro Jahr9,10 und über 9 Milliarden US-Dollar werden durch Bundes- und Landeszuschüsse und Subventionen verschwendet, die an Studenten vergeben werden, die ihr Studium nicht abschließen11. Daher ist es wichtig, potenzielle Schulabbrecher so früh und genau wie möglich vorherzusagen, um gezielte Unterstützung anbieten und Ressourcen dort einsetzen zu können, wo sie am meisten benötigt werden. Unsere Modelle stützen sich ausschließlich auf Daten, die im ersten Semester an der Universität erhoben werden, und sind daher ein ideales „Frühwarnsystem“ für Universitäten, die vorhersagen möchten, ob ihre Studierenden ihr Studium voraussichtlich fortsetzen oder irgendwann abbrechen werden. Abhängig von den Ressourcen und Zielen der Universität können die Vorhersagemodelle für unterschiedliche Leistungskennzahlen optimiert werden. Tatsächlich könnte sich eine Universität dazu entschließen, sich auf die tatsächlich positive Quote zu konzentrieren, um so viele Studienabbrecher wie möglich zu erfassen. Während dies bedeuten würde, dass „gesunde“ Studierende fälschlicherweise als potenzielle Studienabbrecher eingestuft würden, könnten die Universitäten zu dem Schluss kommen, dass die Belastung durch die Bereitstellung „unnötiger“ Unterstützung für diese gesunden Studierenden das geringere Risiko, einen Studienabbrecher zu verpassen, aufwiegt. Wichtig ist, dass unsere Modelle über bloße soziodemografische Variablen hinausgehen und ein differenzierteres, persönlicheres Modell ermöglichen, das nicht nur berücksichtigt, „wer jemand ist“, sondern auch, wie seine Erfahrungen auf dem Campus aussehen. Unsere Modelle ermöglichen es daher, Individualität anzuerkennen, anstatt übermäßig verallgemeinerte Bewertungen ganzer soziodemografischer Segmente zu verwenden.

Wichtig ist jedoch, dass diese Modelle einer kontinuierlichen Qualitätssicherung unterzogen werden. Während Vorhersagemodelle es Universitäten ermöglichen könnten, gefährdete Studierende frühzeitig zu melden, könnten sie auch Vorurteile aufrechterhalten, die sich in den Vorhersagemodellen selbst verfestigen. Beispielsweise müssen Studierende, bei denen die Wahrscheinlichkeit, dass sie ihr Studium abbrechen, traditionell geringer ist, möglicherweise ein viel höheres Maß an dysfunktionalem Engagementverhalten durchlaufen, bevor ihre Akte als „gefährdet“ gekennzeichnet wird. Ebenso könnte eine Person aus einer traditionell unterrepräsentierten Gruppe unnötig viele zusätzliche Check-ins erhalten, obwohl sie im Alltag im Allgemeinen erfolgreich ist. Angesichts der Tatsache, dass die Einstufung als „gefährdet“ mit Stigmatisierung verbunden sein kann, die die Stigmatisierung historisch marginalisierter Gruppen verstärken könnte, wird es von entscheidender Bedeutung sein, sowohl die Leistung des Modells im Laufe der Zeit als auch die Wahrnehmung seiner Nützlichkeit bei Administratoren und Lehrkräften zu überwachen , und Studenten.

Unsere Studie weist mehrere Einschränkungen auf und zeigt Möglichkeiten für zukünftige Forschung auf. Erstens bestand unsere Stichprobe aus vier US-Universitäten. Daher sind unsere Ergebnisse nicht unbedingt auf Länder mit eher kollektivistischen Kulturen und anderen Bildungssystemen übertragbar, wie etwa Asien, wo die Gründe für den Schulabbruch unterschiedlich sein können89,90, oder Europa, wo die meisten Studierenden Teilzeitjobs haben und außerhalb des Campus leben. Zukünftige Forschungen sollten untersuchen, inwieweit sich unsere Modelle auf andere kulturelle Kontexte übertragen lassen, und die Merkmale der Schülerbindung identifizieren, die in allen Kontexten allgemein gültig sind.

Zweitens stützten sich unsere Vorhersagemodelle auf App-Nutzungsdaten. Daher konnte unser prädiktiver Ansatz nur auf Studierende angewendet werden, die sich für die Nutzung der App entschieden haben. Diese Auswahl allein führt wahrscheinlich zu einer Stichprobenverzerrung, da Schüler, die sich für die Nutzung der App entscheiden, möglicherweise eher daran festhalten, was die Varianz der Beobachtungen einschränkt und Schüler ausschließt, für die Daten zur App-Nutzung erhoben wurden Nicht verfügbar. Unsere Ergebnisse legen jedoch nahe, dass allein die institutionellen Daten unabhängig von den App-Funktionen eine Vorhersageleistung liefern, was dies zu einer praktikablen Alternative für Studierende macht, die die App nicht nutzen.

Drittens basieren unsere Vorhersagemodelle auf Querschnittsvorhersagen. Das heißt, wir beobachten das Verhalten eines Studierenden im Laufe eines Semesters und können anhand der bei anderen Studierenden beobachteten Muster vorhersagen, ob dieser Studierende voraussichtlich abbrechen wird oder nicht. Zukünftige Forschungen könnten versuchen, sowohl die Vorhersageleistung des Modells als auch seine Nützlichkeit für angewandte Kontexte zu verbessern, indem Trends innerhalb der Person dynamisch modelliert werden. Bei ausreichender Datenlage könnte das Modell das Grundverhalten einer Person beobachten und Änderungen gegenüber diesem Grundverhalten als potenziell problematisch identifizieren. Tatsächlich könnte in unserem Querschnittsmodell mehr sozialer Kontakt mit anderen Studierenden als Schutzfaktor angesehen werden. Allerdings gibt es erhebliche individuelle Unterschiede darin, wie viel soziale Kontakte Menschen suchen und genießen91. Daher mag das Versenden von 10 Chat-Nachrichten pro Woche für den einen als viel, für den anderen jedoch als sehr wenig angesehen werden. Zukünftige Forschungen sollten daher untersuchen, ob die Funktionen zur verhaltensbezogenen Einbindung ein dynamischeres In-Person-Modell ermöglichen, das es ermöglicht, Basistarife zu berücksichtigen und eine dynamische, momentane Einschätzung der Wahrscheinlichkeit eines Studienabbruchs eines Studierenden zu liefern.

Viertens: Obwohl die Engagement-Daten als Längsschnittzeitreihe mit zeitgestempelten Ereignissen erfasst wurden, haben wir die Daten zu einem einzigen Satz von Querschnittsmerkmalen für jeden Schüler zusammengefasst. Obwohl einige dieser Funktionen Variationen im Verhalten im Laufe der Zeit erfassen (z. B. Entropie und lineare Trends), sollte zukünftige Forschung versuchen, fortschrittlichere Modelle für maschinelles Lernen zu implementieren, um diese Zeitreihendaten direkt zu berücksichtigen. Beispielsweise sind Long-Short-Term-Memory-Modelle (LSTMs)92 – eine Art wiederkehrendes neuronales Netzwerk – in der Lage, Muster in longitudinalen, sequentiellen Daten wie unserem zu lernen.

Fünftens: Obwohl die aktuelle Forschung erste Einblicke in die Funktionsweise der Modelle liefert, indem sie die Bedeutung bestimmter Merkmale hervorhebt, sind die Schlussfolgerungen, die aus diesen Analysen gezogen werden können, begrenzt, da die Wichtigkeitsmetriken für die Gesamtbevölkerung berechnet werden. Zukünftige Forschungen könnten darauf abzielen, die Bedeutung bestimmter Merkmale auf individueller Ebene zu berechnen, um zu testen, ob ihre Bedeutung bei bestimmten soziodemografischen Merkmalen unterschiedlich ist. Durch die Schätzung der Bedeutung der Position einer Person im sozialen Netzwerk auf individueller Ebene könnte beispielsweise festgestellt werden, ob die Bedeutung mit institutionellen Daten wie dem Minderheitenstatus oder dem Status der ersten Generation korreliert.

Schließlich legen unsere Ergebnisse den Grundstein für die Entwicklung von Interventionen, die die Bindung fördern, indem sie die Erfahrungen der Studierenden an der Universität prägen93. Zu den Interventionen, die sich nachweislich positiv auf die Bindung auswirken, gehören Orientierungsprogramme und Studienberatung94, studentische Unterstützungsdienste wie Mentoring und Coaching sowie bedarfsgerechte Zuschüsse95. Allerdings scheinen die Studienanfängerprogramme zur Stärkung der sozialen Integration von Studienanfängern bisher keine positiven Ergebnisse gebracht zu haben96,97. Unsere Erkenntnisse könnten die Entwicklung von Interventionen unterstützen, die darauf abzielen, die Integration der Studierenden auf dem Campus zu verbessern und aufrechtzuerhalten. Auf hoher Ebene bieten die Einblicke in die wichtigsten Merkmale einen empirischen Weg für die Entwicklung relevanter Interventionen, die auf die wichtigsten Hebel der Schülerbindung abzielen. Da beispielsweise die Zeit zwischen der Anmeldung und dem ersten Veranstaltungsbesuch einen so großen Einfluss auf die Studierendenbindung hat, sollten Hochschulen alles tun, um Studierende so früh wie möglich für den Besuch von Veranstaltungen zu gewinnen. Ebenso könnten sie Interventionen entwickeln, die zu kohärenteren Netzwerken zwischen Kohorten führen und sicherstellen, dass sich alle Schüler mit ihrer Gemeinschaft verbinden. Auf einer tieferen, anspruchsvolleren Ebene könnten neue Ansätze zur Modellerklärbarkeit es den Universitäten ermöglichen, ihre Interventionen auf jeden Studenten zuzuschneiden98,99. Erklärbare KI ermöglicht es beispielsweise, Entscheidungsregeln für jeden Schüler abzuleiten, die angeben, welche Merkmale für die Vorhersage des Ergebnisses des Schülers entscheidend waren. Während bei Schüler A davon auszugehen ist, dass er das Studium abbricht, weil er nicht mit dem Netzwerk verbunden ist, könnte bei Schüler B davon ausgegangen werden, dass er das Studium abbricht, weil er nicht auf die richtigen Informationen in der App zugreift. Anhand dieser Informationen wären Universitäten in der Lage, ihre Angebote an die spezifischen Bedürfnisse der Studierenden anzupassen. Während Student A möglicherweise dazu ermutigt wird, mehr Zeit mit anderen Studenten zu verbringen, wird Student B möglicherweise daran erinnert, sich wichtige Kursinformationen anzusehen. Daher könnten Vorhersagemodelle nicht nur zur Identifizierung gefährdeter Schüler verwendet werden, sondern auch einen automatisierten Weg zur Bereitstellung personalisierter Beratung und Unterstützung bieten.

Mit jedem Studienabbruch zerplatzt ein Bildungstraum. Und jeder geplatzte Traum hat langfristig negative Auswirkungen sowohl auf den Studenten als auch auf die Universität, die er besucht hat. In dieser Studie stellen wir einen Ansatz zur genauen Vorhersage der Studentenbindung nach dem ersten Semester vor. Unsere Ergebnisse zeigen, dass die Schülerbindung mit relativ hoher Vorhersageleistung vorhergesagt werden kann, wenn institutionelle Daten, Daten zum Verhaltensengagement oder eine Kombination aus beidem berücksichtigt werden. Durch die Kombination soziodemografischer Merkmale mit passiv beobachteten Verhaltensspuren, die die täglichen Aktivitäten eines Studenten widerspiegeln, bieten unsere Modelle ein ganzheitliches Bild der Universitätserfahrungen der Studenten und ihrer Beziehung zur Bindung. Insgesamt haben solche Vorhersagemodelle großes Potenzial sowohl für die Früherkennung gefährdeter Studierender als auch für die Ermöglichung zeitnaher, evidenzbasierter Interventionen.

Rohdaten sind aufgrund ihres proprietären Charakters und der mit der Deanonymisierung verbundenen Risiken nicht öffentlich verfügbar, können aber auf begründete Anfrage beim entsprechenden Autor angefordert werden. Die vorverarbeiteten Daten und alle Analysecodes sind auf OSF (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc) verfügbar, um die Reproduzierbarkeit unserer Arbeit zu erleichtern. Die Daten wurden mit R, Version 4.0.0 (R Core Team, 2020; spezifische verwendete Pakete und Versionen siehe Unterabschnitte) analysiert. Das Design der Studie basiert auf Sekundärdaten und die Analysen wurden nicht vorab registriert.

Ginder, SA, Kelly-Reid, JE & Mann, FB Abschlussquoten für ausgewählte Kohorten, 2009–14; Ergebnismaße für das Kohortenjahr 2009–10; Studienbeihilfe, Studienjahr 2016–17; und Zulassungen an postsekundären Einrichtungen, Herbst 2017. Erster Blick (vorläufige Daten). NCES 2018–151. Nationales Zentrum für Bildungsstatistik (2018).

Snyder, TD, de Brey, C. & Dillow, SA Digest of Education Statistics 2017 NCES 2018-070. Natl. Cent. Educ. Stat. (2019).

NSC-Forschungszentrum. Persistenz und Retention – 2019. NSC Research Center https://nscresearchcenter.org/snapshotreport35-first-year-persistence-and-retention/ (2019).

Bound, J., Lovenheim, MF & Turner, S. Warum sind die College-Abschlussquoten gesunken? Eine Analyse der sich verändernden Studentenvorbereitung und Hochschulressourcen. Bin. Wirtschaft. J. Appl. Wirtschaft. 2, 129–157 (2010).

Artikel PubMed PubMed Central Google Scholar

Bowen, WG, Chingos, MM & McPherson, MS Überqueren der Ziellinie. in Crossing the Finish Line (Princeton University Press, 2009).

McFarland, J. et al. Der Zustand der Bildung 2019. NCES 2019-144. Natl. Cent. Educ. Stat. (2019).

Bildung, USD von. Faktenblatt: Ausrichtung der Hochschulbildung auf den Erfolg der Studierenden. [Informationsblatt] (2015).

Freudenberg, N. & Ruglis, J. Peer-Review: Schulabbruch als Problem der öffentlichen Gesundheit neu definieren. Vorher. Chronische Dis. 4, 4 (2007).

Google Scholar

Raisman, N. Die Kosten der Studienabwanderung an vierjährigen Colleges und Universitäten – eine Analyse von 1669 US-Einrichtungen. Politische Perspektive. (2013).

Wellman, J., Johnson, N. & Steele, P. Messung (und Verwaltung) der unsichtbaren Kosten der postsekundären Fluktuation. Policy Brief. Delta-Kostenprojekt. Bin. Institut. Res. (2012).

Schneider, M. Die erste Runde beenden: Die Kosten der Abwanderung von Erstsemesterstudenten an Amerikas vierjährigen Colleges und Universitäten (American Institutes for Research, 2010).

Google Scholar

Delen, D. Eine vergleichende Analyse maschineller Lerntechniken für das Bindungsmanagement von Studenten. Entscheidung. Support-System. 49, 498–506 (2010).

Artikel Google Scholar

Yu, R., Lee, H. & Kizilcec, RF Sollten Modelle zur Vorhersage von Studienabbrechern geschützte Attribute enthalten? in Proceedings of the Eighth ACM Conference on Learning@ Scale 91–100 (2021).

Tinto, V. Rekonstruktion des ersten Studienjahres. Planen. Hoch. Educ. 25, 1–6 (1996).

Google Scholar

Ortiz-Lozano, JM, Rua-Vieites, A., Bilbao-Calabuig, P. & Casadesús-Fa, M. Bindung von Universitätsstudenten: Beste Zeit und Daten, um Studenten zu identifizieren, bei denen das Risiko eines Studienabbruchs besteht. Innov. Educ. Unterrichten. Int. 57, 74–85 (2020).

Google Scholar

Ram, S., Wang, Y., Currim, F. & Currim, S. Verwendung von Big Data zur Vorhersage der Bindung von Studienanfängern. 2015 internationale Konferenz über Informationssysteme: Exploring the Information Frontier, ICIS 2015 (Association for Information Systems, 2015).

Levitz, RS, Noel, L. & Richter, BJ Strategische Maßnahmen für erfolgreiche Kundenbindung. N. Dir. Hoch. Educ. 1999, 31–49 (1999).

Artikel Google Scholar

Veenstra, CP Eine Strategie zur Verbesserung der Studienanfängerbindung. J. Qual. Mitmachen. 31, 19–23 (2009).

Google Scholar

Astin, AW Wie „gut“ ist die Bindungsrate Ihrer Institution? Res. Hoch. Educ. 38, 647–658 (1997).

Artikel Google Scholar

Coleman, JS Sozialkapital bei der Schaffung von Humankapital. Bin. J. Sociol. 94, S95–S120 (1988).

Artikel Google Scholar

Grund, RD Studentenvariablen, die die Bindung vorhersagen: Aktuelle Forschung und neue Entwicklungen. J. Stud. Aff. Res. Üben. 40, 704–723 (2003).

Google Scholar

Tinto, V. Hochschulabbrecher: Eine theoretische Synthese aktueller Forschung. Rev Educ Res 45, 89–125 (1975).

Artikel Google Scholar

Tinto, V. Abschluss des Colleges: Institutionelles Handeln neu denken (University of Chicago Press, 2012).

Buchen Sie Google Scholar

Astin, A. Schüler halten und zufriedenstellen. Educ. Empf. 68, 36–42 (1987).

Google Scholar

Aulck, L., Velagapudi, N., Blumenstock, J. & West, J. Vorhersage des Studienabbruchs im Hochschulbereich. arXiv-Vorabdruck arXiv:1606.06364 (2016).

Bogard, M., Helbig, T., Huff, G. & James, C. Ein Vergleich empirischer Modelle zur Vorhersage der Studentenbindung (Western Kentucky University, 2011).

Google Scholar

Murtaugh, PA, Burns, LD & Schuster, J. Vorhersage der Bindung von Universitätsstudenten. Res. Hoch. Educ. 40, 355–371 (1999).

Artikel Google Scholar

Porter, KB Aktuelle Trends bei der Studentenbindung: Eine Literaturübersicht. Unterrichten. Lernen. Krankenschwestern. 3, 3–5 (2008).

Artikel Google Scholar

Thomas, SL Bindungen, die binden: Ein sozialer Netzwerkansatz zum Verständnis der Integration und Beharrlichkeit von Schülern. J. Hoch. Educ. 71, 591–615 (2000).

Google Scholar

Peltier, GL, Laden, R. & Matranga, M. Studentenbeharrlichkeit im College: Ein Überblick über die Forschung. J. Coll. Zucht. Ret. 1, 357–375 (2000).

Artikel Google Scholar

Nandeshwar, A., Menzies, T. & Nelson, A. Lernmuster der Bindung von Universitätsstudenten. Expertensystem. Appl. 38, 14984–14996 (2011).

Artikel Google Scholar

Boero, G., Laureti, T. & Naylor, R. Eine ökonometrische Analyse des Studentenabzugs und -fortschritts an italienischen Universitäten nach der Reform. (2005).

Tinto, V. Das College verlassen: Die Ursachen und Heilmittel für Studentenabwanderung überdenken (ERIC, 1987).

Google Scholar

Choy, S. Schüler, deren Eltern kein College besucht haben: Zugang, Beharrlichkeit und Erfolg nach der Sekundarstufe. Erkenntnisse aus dem Bildungszustand, 2001. (2001).

Ishitani, TT Untersuchung des Abwanderungs- und Abschlussverhaltens von College-Studenten der ersten Generation in den Vereinigten Staaten. J. Hoch. Educ. 77, 861–885 (2006).

Artikel Google Scholar

Thayer, PB Bindung von Studierenden der ersten Generation und aus einkommensschwachen Verhältnissen. (2000).

Britt, SL, Ammerman, DA, Barrett, SF & Jones, S. Studienkredite, finanzieller Stress und Bindung von College-Studenten. J. Stud. Finanzen Hilfe 47, 3 (2017).

Google Scholar

McKinney, L. & Burridge, AB Helfen oder behindern? Die Auswirkungen von Krediten auf die Ausdauer von Community-College-Studenten. Res. Hohe Bildung. 56, 299–324 (2015).

Artikel Google Scholar

Hochstein, SK & Butler, RR Die Auswirkungen der Zusammenstellung eines Finanzhilfepakets auf die Studentenbindung. J. Stud. Finanzen Hilfe 13, 21–26 (1983).

Google Scholar

Singell, LD Jr. Kommen Sie und bleiben Sie eine Weile: Beeinflusst die finanzielle Unterstützung den Verbleib, wenn man sich an einer großen öffentlichen Universität einschreibt? Wirtschaft. Educ. Rev. 23, 459–471 (2004).

Artikel Google Scholar

Bean, JP Neun Themen über Studenten. Slg. Zucht. Zurückhalten. Formel-Stud. Erfolg 215, 243 (2005).

Google Scholar

Tinto, V. Aus der Sicht von Studenten. J. Coll. Zucht. Ret. 19, 254–269 (2017).

Artikel Google Scholar

Cabrera, AF, Nora, A. & Castaneda, MB College-Persistenz: Strukturgleichungsmodellierungstest eines integrierten Modells der Studentenbindung. J. Hoch. Educ. 64, 123–139 (1993).

Google Scholar

Roberts, J. & Styron, R. Zufriedenheit und Ausdauer der Studierenden: Faktoren, die für die Bindung der Studierenden von entscheidender Bedeutung sind. Res. Hoch. Educ. J. 6, 1 (2010).

Google Scholar

Gopalan, M. & Brady, Zugehörigkeitsgefühl von ST College-Studenten: Eine nationale Perspektive. Educ. Res. 49, 134–137 (2020).

Artikel Google Scholar

Hoffman, M., Richmond, J., Morrow, J. & Salomone, K. Untersuchung des „Zugehörigkeitsgefühls“ bei College-Studenten im ersten Jahr. J. Coll. Zucht. Ret. 4, 227–256 (2002).

Artikel Google Scholar

Terenzini, PT & Pascarella, ET Auf dem Weg zur Validierung von Tintos Modell der Abwanderung von College-Studenten: Ein Überblick über aktuelle Studien. Res. Hohe Bildung. 12, 271–282 (1980).

Artikel Google Scholar

Astin, AW Die Auswirkungen des Wohnens in Wohnheimen auf Studenten. Bildungsnachweis (1973).

Astin, AW Beteiligung von Studierenden: Eine Entwicklungstheorie für die Hochschulbildung. J. Coll. Zucht. Pers. 25, 297–308 (1984).

Google Scholar

Terenzini, PT & Pascarella, ET Studieren von College-Studenten im 21. Jahrhundert: Sich neuen Herausforderungen stellen. Rev. High Ed. 21, 151–165 (1998).

Google Scholar

Thompson, J., Samiratedu, V. & Rafter, J. Die Auswirkungen des Aufenthalts auf dem Campus auf Studienanfänger. NASPA J. 31, 41–47 (1993).

Artikel Google Scholar

Tinto, V. Forschung und Praxis der Studentenbindung: Wie geht es weiter? J. Coll. Zucht. Ret. 8, 1–19 (2006).

Artikel Google Scholar

Lazer, D. et al. Computergestützte Sozialwissenschaft. Science 1979(323), 721–723 (2009).

Artikel Google Scholar

Yarkoni, T. & Westfall, J. In der Psychologie Vorhersage statt Erklärung wählen: Lehren aus maschinellem Lernen. Perspektive. Psychol. Wissenschaft. 12, 1100–1122 (2017).

Artikel PubMed PubMed Central Google Scholar

Peters, H., Marrero, Z. & Gosling, SD Das Big-Data-Toolkit für Psychologen: Datenquellen und Methoden. in Die Psychologie der Technik: Sozialwissenschaftliche Forschung im Zeitalter von Big Data. 87–124 (American Psychological Association, 2022). doi:https://doi.org/10.1037/0000290-004.

Fischer, C. et al. Big Data-Mining im Bildungswesen: Kosten und Herausforderungen. Rev. Res. Educ. 44, 130–160 (2020).

Artikel Google Scholar

Hilbert, S. et al. Maschinelles Lernen für die Bildungswissenschaften. Rev. Educ. 9, e3310 (2021).

Artikel Google Scholar

Nationale Akademie für Bildung. Big Data in der Bildung: Die Vorteile der Bildungsforschung und der Privatsphäre der Studierenden in Einklang bringen. (2017).

Aulck, L., Nambi, D., Velagapudi, N., Blumenstock, J. & West, J. Mining von Universitätsregistrierungsunterlagen zur Vorhersage der Fluktuation im ersten Studienjahr. Int. Educ. Daten min. Soc. (2019).

Beaulac, C. & Rosenthal, JS Vorhersage des akademischen Erfolgs und des Hauptfachs von Universitätsstudenten mithilfe von Zufallswäldern. Res. Hohe Bildung. 60, 1048–1064 (2019).

Artikel Google Scholar

Berens, J., Schneider, K., Görtz, S., Oster, S. & Burghoff, J. Früherkennung gefährdeter Studierender – Vorhersage von Studienabbrüchen mithilfe administrativer Studierendendaten und Methoden des maschinellen Lernens. Verfügbar unter SSRN 3275433 (2018).

Dawson, S., Jovanovic, J., Gašević, D. & Pardo, A. Von der Vorhersage zur Wirkung: Evaluierung eines Learning Analytics-Retentionsprogramms. in Proceedings of the Seventh International Learning Analytics & Knowledge Conference 474–478 (2017).

Dekker, GW, Pechenizkiy, M. & Vleeshouwers, JM Vorhersage des Studienabbruchs: Eine Fallstudie. Int. Arbeiten. Gruppenpädagogik. Daten min. (2009).

del Bonifro, F., Gabbrielli, M., Lisanti, G. & Zingaro, SP Vorhersage des Studienabbruchs. in International Conference on Artificial Intelligence in Education 129–140 (Springer, 2020).

Hutt, S., Gardner, M., Duckworth, AL & D'Mello, SK Bewertung der Fairness und Generalisierbarkeit in Modellen zur Vorhersage des pünktlichen Abschlusses von Hochschulbewerbungen. Int. Educ. Daten min. Soc. (2019).

Jayaprakash, SM, Moody, EW, Lauría, EJM, Regan, JR & Baron, JD Frühwarnung für akademisch gefährdete Studenten: Eine Open-Source-Analyseinitiative. J. Lernen. Anal. 1, 6–47 (2014).

Artikel Google Scholar

Balakrishnan, G. & Coetzee, D. Vorhersage der Studentenbindung in massiven offenen Online-Kursen mithilfe von Hidden-Markov-Modellen. Wählen. Ing. Berechnen. Wissenschaft. Univ. Calif. Berkeley 53, 57–58 (2013).

Google Scholar

Hastie, T., Tibshirani, R. & Friedman, J. The Elements of Statistical Learning (Springer Series in Statistics, New York, NY, USA, 2001).

Buchen Sie MATH Google Scholar

Chawla, NV, Bowyer, KW, Hall, LO & Kegelmeyer, WP SMOTE: Eine synthetische Minderheits-Oversampling-Technik. J. Artif. Intel. Res. 16, 321–357 (2002).

Artikel MATH Google Scholar

Zou, H. & Hastie, T. Regularisierung und Variablenauswahl über das elastische Netz. JR-Stat. Soc. Seri. B-Stat. Methodol. 67, 301–320 (2005).

Artikel MathSciNet MATH Google Scholar

Friedman, J., Hastie, T. & Tibshirani, R. Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg. J. Stat. Softw. 33, 1 (2010).

Artikel PubMed PubMed Central Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen. 45, 5–32 (2001).

Artikel MATH Google Scholar

Liaw, A. & Wiener, M. Klassifizierung und Regression durch randomForest. R News 2, 18–22 (2002).

Google Scholar

Pargent, F., Schoedel, R. & Stachl, C. Eine Einführung in maschinelles Lernen für Psychologen in R. Psyarxiv (2022).

Hoerl, AE & Kennard, RW Ridge-Regression. in Encyclopedia of Statistical Sciences vol. 8 129–136 (John Wiley & Sons, Inc., 2004).

Tibshirani, R. Regressionsschrumpfung und Selektion über das Lasso. JR-Stat. Soc. Ser. B (Methodol.) 58, 267–288 (1996).

MathSciNet MATH Google Scholar

Hastie, T. & Qian, J. Glmnet-Vignette. Bd. 9 1–42 https://hastie.su.domains/Papers/Glmnet_Vignette.pdf (2016).

Orrù, G., Monaro, M., Conversano, C., Gemignani, A. & Sartori, G. Maschinelles Lernen in der Psychometrie und psychologischen Forschung. Vorderseite. Psychol. 10, 2970 (2020).

Artikel PubMed PubMed Central Google Scholar

Pargent, F. & Albert-von der Gönna, J. Prädiktive Modellierung mit psychologischen Paneldaten. Z Psychol (2019).

Pargent, F., Schoedel, R. & Stachl, C. Best Practices für überwachtes maschinelles Lernen: Ein Tutorial für Psychologen. Doi:https://doi.org/10.31234/osf.io/89snd (2023).

Friedman, J., Hastie, T. & Tibshirani, R. The Elements of Statistical Learning Vol. 1 (Springer Series in Statistics, 2001).

MATH Google Scholar

Rijsbergen, V. & Joost, CK Information Retrieval Butterworths London. Google Scholar Google Scholar Digital Library Digitale Bibliothek (1979).

Molnar, C. Interpretierbares maschinelles Lernen. (Lulu.com, 2020).

Aguiar, E., Ambrose, GA, Chawla, N. v, Goodrich, V. & Brockman, J. Engagement vs. Leistung: Verwendung elektronischer Portfolios zur Vorhersage der Persistenz von Ingenieurstudenten im ersten Semester. Journal of Learning Analytics vol. 1 (2014).

Chai, KEK & Gibson, D. Vorhersage des Fluktuationsrisikos für Studenten im Grundstudium mithilfe zeitbasierter Modellierung. Int. Assoc. Entwickler Inf. Soc. (2015).

Saenz, T., Marcoulides, GA, Junn, E. & Young, R. Die Beziehung zwischen College-Erfahrung und akademischer Leistung bei Minderheitsstudenten. Int. J. Educ. Manage (1999).

Pidgeon, AM, Coast, G., Coast, G. & Coast, G. Psychosoziale Moderatoren von wahrgenommenem Stress, Angstzuständen und Depressionen bei Universitätsstudenten: Eine internationale Studie. Öffnen Sie J. Soc. Wissenschaft. 2, 23 (2014).

Google Scholar

Wilcox, P., Winn, S. & Fyvie-Gauld, M. „Es hatte nichts mit der Universität zu tun, es waren nur die Menschen“: Die Rolle der sozialen Unterstützung im ersten Jahr der Hochschulbildung. Zucht. Hoch. Educ. 30, 707–722 (2005).

Artikel Google Scholar

Guiffrida, DA Auf dem Weg zu einer kulturellen Weiterentwicklung von Tintos Theorie. Rev. High Ed. 29, 451–472 (2006).

Artikel Google Scholar

Triandis, HC, McCusker, C. & Hui, CH Multimethodische Untersuchungen von Individualismus und Kollektivismus. J. Pers. Soc. Psychol. 59, 1006 (1990).

Artikel Google Scholar

Watson, D. & Clark, LA Extraversion und ihr positiver emotionaler Kern. im Handbuch der Persönlichkeitspsychologie 767–793 (Elsevier, 1997).

Greff, K., Srivastava, RK, Koutník, J., Steunebrink, BR & Schmidhuber, J. LSTM: Eine Suchraum-Odyssee. IEEE Trans. Neuronales Netz. Lernen. Syst. 28, 2222–2232 (2017).

Artikel MathSciNet PubMed Google Scholar

Arnold, KE & Pistilli, MD Kurssignale bei Purdue: Lernanalysen nutzen, um den Erfolg der Studierenden zu steigern. in Proceedings of the 2nd International Conference on Learning Analytics and Knowledge 267–270 (2012).

Braxton, JM & McClendon, SA Die Förderung der sozialen Integration und Bindung durch institutionelle Praxis. J. Coll. Zucht. Ret. 3, 57–71 (2001).

Artikel Google Scholar

Sneyers, E. & de Witte, K. Interventionen in der Hochschulbildung und ihre Auswirkung auf den Studierendenerfolg: Eine Metaanalyse. Educ. Rev. (Birm) 70, 208–228 (2018).

Artikel Google Scholar

Jamelske, E. Messung der Auswirkungen eines universitären Berufserfahrungsprogramms für das erste Studienjahr auf den Notendurchschnitt und die Bindung von Studierenden. Hohe Bildung. (Dordr) 57, 373–391 (2009).

Artikel Google Scholar

Purdie, JR & Rosser, VJ Untersuchung der akademischen Leistung und Bindung von Studienanfängern in lebenden Lerngemeinschaften und Erfahrungskursen für Studienanfänger. Slg. Zucht. Aff. J. 29, 95 (2011).

Google Scholar

Lundberg, SM et al. Von lokalen Erklärungen zum globalen Verständnis mit erklärbarer KI für Bäume. Nat. Mach. Intel. 2, 56–67 (2020).

Artikel PubMed PubMed Central Google Scholar

Ramon, Y., Farrokhnia, RA, Matz, SC & Martens, D. Erklärbare KI für psychologische Profilerstellung aus Verhaltensdaten: Eine Anwendung auf Big-Five-Persönlichkeitsvorhersagen aus Finanztransaktionsaufzeichnungen. Informationen 12, 518 (2021).

Artikel Google Scholar

Referenzen herunterladen

Columbia University, New York, USA

Sandra C. Matz & Heinrich Peters

Ludwig-Maximilians-Universität München, München, Deutschland

Christina S. Bukow

Ready Education, Montreal, Kanada

Christine Deacons

Universität St. Gallen, St. Gallen, Schweiz

Clemens Stachl

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

SCM, CB und CS haben die Forschung entworfen. CD lieferte die Daten. SCM, CB und HP analysierten die Daten. SCM und CB haben das Manuskript geschrieben. Alle Autoren haben das Manuskript überprüft. Frühere Versionen dieser Forschung waren Teil der Masterarbeit des CB, die von SCM und CS betreut wurde

Korrespondenz mit Sandra C. Matz.

CD ist ein ehemaliger Mitarbeiter von Ready Education. Bei keinem der anderen Autoren besteht ein Interessenkonflikt im Zusammenhang mit dieser Einreichung.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Matz, SC, Bukow, CS, Peters, H. et al. Verwendung von maschinellem Lernen zur Vorhersage der Schülerbindung anhand soziodemografischer Merkmale und App-basierter Engagement-Metriken. Sci Rep 13, 5705 (2023). https://doi.org/10.1038/s41598-023-32484-w

Zitat herunterladen

Eingegangen: 09. August 2022

Angenommen: 28. März 2023

Veröffentlicht: 07. April 2023

DOI: https://doi.org/10.1038/s41598-023-32484-w

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.