• יו"ר החברה: פרופ' רן בליצר
  • משנה ליו"ר החברה: מלי קושא
  • גזברית: ד״ר לילך צולר
  • מזכיר: ד״ר מוטי חיימי
הסטוריז של DoctorsOnly:
חדשות

מודל GPT-4o כללי יעיל ביותר באבחון מצבים רפואיים מורכבים

חוקרים מאוניברסיטת בן גוריון פיתחו מאגר נתונים פתוח לאבחון מקרים רפואיים ומציגים את הפוטנציאל של מודלי שפה כלליים, שאינם ממוקדים ברפואה, באבחון מקרים רפואיים מורכבים

ד"ר נדב רפופורט, המחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן גוריון. "מאגר הנתונים לקבלת החלטות קליניות במקרים רפואיים מורכבים פתוח וניתן לשחזור". צילום: דני מכליס/ אונ' בן גוריון

קבוצת מחקר מאוניברסיטת בן גוריון בנגב יצרה מאגר מודלי שפה של אלפי מקרים לאבחון מקרים רפואיים מורכבים, ערכה השוואה של מודלי השפה הגדולים - מודלים קליניים לצד מודלים כלליים, והופתעה מביצועי מודל GPT-4o. ממצאי המחקר הוצגו בכנס היוקרתי AAAI לבינה מלאכותית שהתקיים לאחרונה בפילדלפיה ופורסמו בכתב העת Proceedings of the AAAI Conference on Artificial Intelligence.

בחינת מודלי שפה גדולים לטובת אבחונים רפואיים התבססה עד כה על שאלות מתוך מבחני רפואה, שאלות מהספרות המקצועית על מחלות נפוצות, או בחינת מקרים קלאסיים והיפותטיים שאין להם את המורכבות של מטופלים אמיתיים. באמצעות מאגר הנתונים שיצרו, העריכו החוקרים את יכולות האבחון של מודלי שפה גדולים, לזהות ולאבחן מקרים רפואיים, בכלל זה מודלים כלליים (שאינם ממוקדים ברפואה) ומודלים שהותאמו לדומיין הרפואי. בנוסף, נבחנו ביצועי המודלים כאשר רק חלק מהמידע על המקרה היה זמין.

קבוצת המחקר כללה את הדוקטורנטים אוריאל פרץ ואופיר בן שוהם ואת החוקרים ד"ר ניר גרינברג וד"ר נדב רפופורט מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן גוריון בנגב. החוקרים פיתחו מאגר נתונים חדש של מקרים רפואיים מיוחדים והאבחונים המתאימים להם בשם CUPCaseי(Clinically Uncommon Patient Cases and Diagnosis Dataset). המאגר, המבוסס על 3,563 דיווחי מקרים אמיתיים שפורסמו ב-BMC, מציג מקרים קליניים מורכבים בפורמט של שאלות פתוחות ושאלות אמריקאיות ומאפשר הערכה מעמיקה של יכולות האבחון של מודלים שונים.

הממצאים הצביעו על כך שמודל GPT-4o, מודל כללי שאינו מתמחה ברפואה, משיג את הביצועים הטובים ביותר הן במשימת שאלות אמריקאיות (דיוק ממוצע של 87.9%) והן במשימת השאלות הפתוחות (76.4%). כלומר, מודל GPT-4o מציג ביצועים טובים יותר מאלה של מספר מודלי שפה שעברו התאמה מיוחדת לתחום הרפואי, כגון Meditron-70B ו-MedLM-Large. עוד עלה כי למודל GPT-4o יש יכולת לשמר כ-87% ו-88% מביצועיו כאשר ניתנים לו רק 20% הראשונים של המידע הקליני במקרה, בשאלות האמריקאיות ובשאלות הפתוחות, בהתאמה.

"הופתענו לראות שדווקא המודלים הכללים, כמו GPT-4o או Llama-3.1 הציגו ביצועים טובים יותר משל המודלים שהותאמו לרפואה במשימה הזו", ציינו החוקרים, "והצלחנו להראות שיש פוטנציאל לשימוש במודלי שפה גדולים לטובת אבחון של מקרים רפואיים מורכבים".

מאגר הנתונים המוצע במחקר פתוח לשימוש וניתן להרחבה בקלות בעזרת מקרי בוחן נוספים ויכול לאפשר הערכה של מודלי שפה חדשים בעתיד, תוך בחינת יכולתם לאבחן מקרים רפואיים מגוונים ומורכבים.

"כאשר רופאים נתקלים במקרה רפואי מורכב, הדרך לאבחנה עלולה להפוך למסע ממושך ולא ודאי. מקרים כאלה דורשים לעיתים קרובות סדרות של בדיקות וייעוצים עם מומחים, תהליך שיכול להימשך שבועות ואף חודשים. כתוצאה מכך, חולים עלולים להתמודד עם עיכובים בטיפול, עלויות רפואיות גבוהות, ומתח רגשי שהולך וגובר בעוד הצוות הרפואי מנסה לפענח את המקרה", אומר ד"ר רפופורט. "מאגר הנתונים CUPCase שבנינו מרחיב את היכולת שלנו להעריך מודלי שפה לתמיכה בקבלת החלטות קלינית עבור מקרים רפואיים מורכבים באופן פתוח וניתן לשחזור. יש בכך פוטנציאל נרחב לסיוע באבחון יעיל של מקרים קליניים מורכבים והדבר אף מוכיח שיש אפשרות לשפר את המודלים בתחום הרפואה".

ניתוח השגיאות שבוצע במחקר מצביע על המורכבות הרבה של משימת האבחון ומנסה להבין את תהליכי החשיבה של המודלים. החוקרים מדגישים כי למרות התוצאות המרשימות, מדובר בכלי תומך החלטה בלבד, ולא בתחליף לשיקול הדעת הקליני של הרופא.

נושאים קשורים:  ד"ר נדב רפופורט,  אוניברסיטת בן גוריון,  מודלי שפה,  צ'אט-בוט,  GPT-4o,  אבחון,  חדשות,  מאגר נתונים,  מחקרים
תגובות
אנונימי/ת
19.05.2025, 21:16

צודקים ב 100%.
אני מעביר את זה לבעל הבית- חמאס.
ברגע שיחזירו החטופים ויתפרקו מנשקם- יוכלו ילדי עזה לאכול ולשתות. לא דקה קודם. אבל לא נראה שזה מעניין אותם.