Forscher pilot-Modell-Daten-Ansatz zur Entwicklung von prädiktiven algorithmen

Patienten Bedenken hinsichtlich der Privatsphäre kann es schwer machen, zu entwickeln prädiktive Modelle anhand von Daten aus elektronischen Patientenakten. Aber eine neue Studie, diese Woche veröffentlicht in der Zeitschrift der American Medical Informatics Association schlägt vor, dass Forscher können die „Modell-zu-Daten“ – Ansatz, Modelle zu entwickeln, ohne direkten Zugriff auf die Patientendaten.

„Der Fokus des MTD-framework ist die Bereitstellung von Container-algorithmen, um Ihre privaten Daten, von irgendwelchen standardisierten form, ohne dass die Daten“, sagte der University of Washington-Forscher in der Studie.

„Mit der erhöhten Rechenleistung, die unsere Plattform könnte eine Skalierung auf bis zu behandeln Einsendungen von mehreren Vorhersage-Modelle, die von mehreren Forschern,“ sagte Sie.

WARUM ES WICHTIG IST

EHR-Systeme bieten eine fülle von Patientendaten für die mögliche Verwendung von prädiktiven Modellen, welche wiederum erlauben Anbieter Allokation der Ressourcen und die personelle Ausstattung und die Pflege optimieren.

Jedoch, Institutionen des Gesundheitswesens müssen auch in Betracht ziehen Patienten Privatsphäre in Bezug auf EHR-Daten. Dies ist möglich durch die de-Identifikation und synthetischen Daten, die Erstellung, der University of Washington-Forscher schrieb, aber weder die Methode ist ohne seine Nachteile.

„De-Identifizierung reduziert das Risiko des Durchsickerns von Informationen, kann aber immer noch ein eindeutiger Fingerabdruck von Informationen, die anfällig für reidentification,“ schrieb die Autoren der Studie. Obwohl „de-identifizierten Datensätze wie MIMIC-III für die Forschung verfügbar sind und dazu geführt haben, auf innovative Forschung, Studien,“ Sie stellten fest, dass solche Datensätze sind in der Größe begrenzt, den Umfang oder die Verfügbarkeit.

Keine Methode der synthetischen Daten anlegen, erklärten die Forscher, „können erzeugen eine ganze synthetischen repository unter Beibehaltung komplette längs-und korrelative Aspekte alle Merkmalen von der ursprünglichen klinischen repository“.

In einer pilot-Studie der Universität von Washington versuchten die Forscher zu untersuchen, die die Lebensfähigkeit einer Dritten Lösung: die MTD-framework, in welches Modell die Entwickler schicken Modelle, um eine isolierte Umgebung für die Ausbildung und Bewertung auf sensible Daten.

„Wir haben alle Patienten, die mindestens einen Besuch in der UW-OMOP repository, was einem Anteil von 1,3 Millionen Patienten, 22 Millionen visits, 33 Millionen Verfahren, 5 Millionen drug exposure records, 48 Millionen Konditionssätze, 10 Millionen Beobachtungen und 221 Millionen Messungen,“ die Forscher schrieb.

Für das MTD-Studie, die UW-team gebeten, den Modell-Entwicklern das erstellen eines Modells die Vorhersage der Wahrscheinlichkeit, dass die Mortalität der Patienten innerhalb von 180 Tagen die Patienten letzten Besuch.

„Dieses Modell wurde zunächst getestet, auf einen synthetischen Datensatz … durch den Modell-Entwickler, um sicherzustellen, dass das Modell nicht fehl, wenn der Zugriff auf Daten, Schulungen und die Erstellung von Prognosen,“ der Forscher erklärt. Nach dem Modell wurde eingereicht, um die UW-computing-Umgebung, fuhren Sie Fort, „die [Common Workflow-Sprache] pipeline-geprüft, gebaut und lief das Bild über 2 Stufen, das training und die Inferenz Phasen.“

Die Entwickler waren in der Lage, erstellen Sie drei verschiedene Modelle mit demographischen Informationen, demografische Informationen und fünf häufigsten chronischen Erkrankungen und der demographischen Informationen und der 1.000 häufigsten Funktionen von EHR-Zustand/Verfahren/Medikament-domains. Die Umsetzung der ersten hatte ein AUROC von 0.693; die zweite hatte ein AUROC von 0.861; und die Dritte hatte ein AUROC von 0,92.

DER GRÖßERE TREND

Trotz der möglichen Nachteile, die Forscher und Entwickler haben darauf hingewiesen, dass synthetische Daten als ein Weg, um die Probleme mit der realen Welt Informationen aus dem Gesundheitsbereich.

„Synthetische Daten ist wahrscheinlich nicht eine 100% genaue Darstellung der realen Welt der Ergebnisse wie Kosten-und der klinischen Qualität ist, sondern eher eine nützliche Annäherung an diese Variablen ist“, erklärte Robert Lieberthal, AUFTRAGGEBER für Gesundheitsökonomie an der MITRE Corporation, im HIMSS20 Digitale Präsentation früher in diesem Jahr.

“Darüber hinaus synthetische Daten ständig zu verbessern, und Methoden wie validation und-Kalibrierung weiter machen diesen Datenquellen mehr realistisch“, sagte er.

Und solche Anwendungen sind immer rechtzeitig: Früher in diesem Sommer, der Veterans Health Administration angekündigt, eine Herausforderung, vorherzusagen, COVID-19 Ergebnisse unter den Veteranen unter Verwendung von synthetischen Gesundheit Daten.

AUF DER PLATTE

„Die Verbreitung von EHR-Systemen in Krankenhäusern ermöglicht die Ansammlung und Nutzung von großen klinischen Daten, um bestimmte klinische Fragen. Angesichts der Größe und Komplexität dieser Daten, machine-learning-Ansätze bieten Einblicke in eine stärker automatisierte und skalierbare Art und Weise“, schrieb die UW-Forscher.

„Healthcare-Anbieter haben bereits begonnen, die Umsetzung von predictive analytics-Lösungen zur Optimierung der Patientenversorgung, einschließlich der Modelle für die 30-Tage-Wiederaufnahmen, Mortalität und sepsis“, fügten Sie hinzu. „Wie in Krankenhäusern, Verbesserung der Datenerfassung, die Qualität und Menge, Möglichkeiten für mehr granulare und wirkungsvolle Voraussage Fragen wird zunehmen.“

Kat Jercich ist senior editor von Healthcare-IT-News.
Twitter: @kjercich
Healthcare-IT-News ist die HIMSS Media-Publikation.