Google เปิดชุดโมเดลพัฒนา AI ด้านสุขภาพ MedGemma - MedSigLIP
MedGemma เป็นส่วนหนึ่งของHealth AI Developer Foundations (HAI-DEF) ซึ่งเป็นชุดโมเดลแบบเปิดน้ำหนักเบาที่ออกแบบมาเพื่อให้นักพัฒนามีจุดเริ่มต้นที่แข็งแกร่งสำหรับการวิจัยและพัฒนาแอปพลิเคชันด้านสุขภาพของตนเอง จุดเด่นของโมเดล HAI-DEF คือการที่นักพัฒนาสามารถควบคุมความเป็นส่วนตัว โครงสร้างพื้นฐาน และการปรับเปลี่ยนโมเดลได้อย่างเต็มที่
Google ได้ขยายชุด HAI-DEF ด้วย MedGemma ในเดือนพฤษภาคม 2025 ซึ่งเป็นชุดโมเดล generative ที่พัฒนาบนพื้นฐานของ Gemma 3 โดยมีเป้าหมายเพื่อเร่งการพัฒนา AI ด้านการดูแลสุขภาพและวิทยาศาสตร์ชีวภาพ
โมเดลใหม่ใน MedGemma Collection
ล่าสุดGoogle ได้ประกาศเปิดตัวโมเดลใหม่ 2 ตัวใน MedGemma collection ได้แก่: MedGemma 27B Multimodal: โมเดลนี้เสริม MedGemma 4B Multimodal และ 27B text-only ที่เปิดตัวไปก่อนหน้านี้ โดยเพิ่มความสามารถในการตีความเวชระเบียนอิเล็กทรอนิกส์ (EHR) ที่ซับซ้อนและมีข้อมูลหลายรูปแบบและในระยะยาว (longitudinal)
MedSigLIP: เป็นตัวเข้ารหัสรูปภาพและข้อความ (image and text encoder) น้ำหนักเบาสำหรับการจำแนก การค้นหา และงานที่เกี่ยวข้อง โดย MedSigLIP ใช้ตัวเข้ารหัสรูปภาพเดียวกับที่ใช้ใน MedGemma 4B และ 27B
MedGemma และ MedSigLIP เป็นจุดเริ่มต้นที่ยอดเยี่ยมสำหรับการวิจัยทางการแพทย์และการพัฒนาผลิตภัณฑ์ MedGemma มีประโยชน์สำหรับงานข้อความทางการแพทย์หรืองานภาพที่ต้องสร้างข้อความอิสระ เช่น การสร้างรายงานหรือการตอบคำถามเกี่ยวกับภาพ ในขณะที่ MedSigLIP เหมาะสำหรับงานภาพที่เกี่ยวข้องกับผลลัพธ์ที่มีโครงสร้าง เช่น การจำแนกประเภทหรือการดึงข้อมูล โมเดลทั้งหมดสามารถทำงานบน GPU ตัวเดียวได้ และ MedGemma 4B และ MedSigLIP ยังสามารถปรับให้ทำงานบนฮาร์ดแวร์มือถือได้อีกด้วย
ประสิทธิภาพของ MedGemma และ MedSigLIP
MedGemma Collection มีโมเดลในขนาด 4B และ 27B ซึ่งทั้งสองขนาดรองรับการป้อนข้อมูลทั้งรูปภาพและข้อความ และให้ผลลัพธ์เป็นข้อความ
MedGemma 4B Multimodal: ได้คะแนน 64.4% ใน MedQA ซึ่งจัดอยู่ในกลุ่มโมเดลเปิดขนาดเล็กมาก (น้อยกว่า 8B) ที่ดีที่สุด จากการศึกษาแบบไม่ปิดบังตา (unblinded study) รังสีแพทย์ที่ได้รับการรับรองจากสหรัฐอเมริกาตัดสินว่า 81% ของรายงานภาพถ่ายรังสีทรวงอกที่สร้างโดย MedGemma 4B มีความถูกต้องเพียงพอที่จะนำไปสู่การจัดการผู้ป่วยที่คล้ายคลึงกับรายงานต้นฉบับ นอกจากนี้ยังมีความสามารถในการจำแนกภาพทางการแพทย์ที่แข่งขันกับโมเดลที่ล้ำสมัยสำหรับงานเฉพาะด้าน
MedGemma 27B Text และ MedGemma 27B Multimodal: จากการประเมินภายในและที่เผยแพร่ โมเดล MedGemma 27B จัดอยู่ในกลุ่มโมเดลเปิดขนาดเล็ก (น้อยกว่า 50B) ที่มีประสิทธิภาพดีที่สุดในการวัดมาตรฐานความรู้และการให้เหตุผลทางการแพทย์ของ MedQA โดย MedGemma 27B text มีคะแนน 87.7% ซึ่งอยู่ภายใน 3 คะแนนของ DeepSeek R1 ซึ่งเป็นโมเดลเปิดชั้นนำ แต่มีค่าใช้จ่ายในการอนุมานประมาณหนึ่งในสิบ โมเดล MedGemma 27B ยังสามารถแข่งขันกับโมเดลขนาดใหญ่กว่าในการวัดมาตรฐานที่หลากหลาย รวมถึงการดึงและตีความข้อมูลเวชระเบียนอิเล็กทรอนิกส์
จากการตรวจสอบของรังสีแพทย์ทรวงอกที่ได้รับการรับรองจากสหรัฐอเมริกา พบว่า 81% ของรายงานภาพถ่ายรังสีทรวงอกของ MedGemma จะนำไปสู่การจัดการผู้ป่วยที่คล้ายคลึงกับรายงานรังสีแพทย์ต้นฉบับ
โมเดลเหล่านี้ได้รับการพัฒนาโดยการฝึกอบรมตัวเข้ารหัสภาพที่ปรับให้เหมาะสมทางการแพทย์ (ซึ่งเปิดตัวแยกต่างหากในชื่อ MedSigLIP) จากนั้นจึงฝึกอบรม Gemma 3 เวอร์ชัน 4B และ 27B ที่เกี่ยวข้องกับข้อมูลทางการแพทย์ กระบวนการนี้ยังคงรักษาความสามารถทั่วไป (ไม่ใช่ทางการแพทย์) ของ Gemma ไว้ ซึ่งช่วยให้ MedGemma สามารถทำงานได้ดีในงานที่ผสมผสานข้อมูลทางการแพทย์และไม่ใช่ทางการแพทย์ รวมถึงยังคงรักษาความสามารถในการปฏิบัติตามคำสั่งและความสามารถในภาษาที่ไม่ใช่ภาษาอังกฤษ
MedSigLIP: ตัวเข้ารหัสภาพเฉพาะทางสำหรับการดูแลสุขภาพ
MedSigLIP เป็นตัวเข้ารหัสภาพน้ำหนักเบาที่มีพารามิเตอร์เพียง 400M โดยใช้สถาปัตยกรรม Sigmoid loss for Language Image Pre-training (SigLIP) MedSigLIP ได้รับการปรับปรุงจาก SigLIP โดยการปรับแต่งด้วยข้อมูลภาพทางการแพทย์ที่หลากหลาย รวมถึงภาพถ่ายรังสีทรวงอก, histopathology patches, ภาพผิวหนัง และภาพ fundus ซึ่งช่วยให้โมเดลเรียนรู้คุณลักษณะที่ละเอียดอ่อนเฉพาะสำหรับรูปแบบเหล่านี้ ที่สำคัญคือ MedSigLIP ยังคงรักษาประสิทธิภาพที่แข็งแกร่งบนภาพธรรมชาติที่โมเดล SigLIP ดั้งเดิมได้รับการฝึกอบรมไว้ ซึ่งคงความหลากหลายในการใช้งาน
MedSigLIP ได้รับการออกแบบมาเพื่อเชื่อมช่องว่างระหว่างภาพทางการแพทย์และข้อความทางการแพทย์ โดยการเข้ารหัสทั้งสองอย่างให้อยู่ในพื้นที่ฝังตัวร่วมกัน MedSigLIP มีประสิทธิภาพการจำแนกประเภทที่คล้ายกันหรือดีขึ้นเมื่อเทียบกับโมเดลฝังตัวภาพเฉพาะงาน ในขณะที่ยังคงมีความหลากหลายในโดเมนภาพทางการแพทย์
MedSigLIP เหมาะสำหรับ:
-การจำแนกภาพแบบดั้งเดิม: สร้างโมเดลที่มีประสิทธิภาพเพื่อจำแนกภาพทางการแพทย์
-การจำแนกภาพแบบ Zero-shot: จำแนกภาพโดยไม่ต้องมีตัวอย่างการฝึกอบรมเฉพาะ โดยการเปรียบเทียบการฝังตัวของภาพกับการฝังตัวของป้ายชื่อคลาสข้อความ
-การดึงภาพเชิงความหมาย: ค้นหารูปภาพที่คล้ายกันทั้งทางสายตาหรือเชิงความหมายจากฐานข้อมูลภาพทางการแพทย์ขนาดใหญ่
พลังของโมเดลแบบเปิด
เนื่องจาก MedGemma collection เป็นแบบเปิด โมเดลจึงสามารถดาวน์โหลด สร้างขึ้น และปรับแต่งได้เพื่อรองรับความต้องการเฉพาะของนักพัฒนา โดยเฉพาะอย่างยิ่งในพื้นที่ทางการแพทย์ แนวทางแบบเปิดนี้มีข้อดีที่แตกต่างกันหลายประการเมื่อเทียบกับโมเดลที่อิงตาม API:
ความยืดหยุ่นและความเป็นส่วนตัว: โมเดลสามารถทำงานบนฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ในสภาพแวดล้อมที่นักพัฒนาต้องการ รวมถึงบน Google Cloud Platform หรือในเครื่อง ซึ่งสามารถแก้ไขข้อกังวลด้านความเป็นส่วนตัวหรือนโยบายของสถาบันได้
การปรับแต่งเพื่อประสิทธิภาพสูง: โมเดลสามารถปรับแต่งและแก้ไขได้เพื่อให้ได้ประสิทธิภาพสูงสุดในงานและชุดข้อมูลเป้าหมาย
ความสามารถในการทำซ้ำและความเสถียร: เนื่องจากโมเดลถูกแจกจ่ายเป็นสแนปช็อต พารามิเตอร์ของพวกมันจึงถูกตรึงไว้ และไม่เหมือน API ซึ่งจะไม่เปลี่ยนแปลงโดยไม่คาดคิดเมื่อเวลาผ่านไป ความเสถียรนี้มีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชันทางการแพทย์ที่ความสอดคล้องและความสามารถในการทำซ้ำเป็นสิ่งสำคัญ
เพื่อให้เข้าถึงได้ง่ายและใช้งานง่าย Hugging Face collection ของ Google เสนอ MedSigLIP และ MedGemma ในรูปแบบ Hugging Face safetensors ที่ได้รับความนิยม
สิ่งที่นักพัฒนากำลังสร้างด้วย MedGemma และ MedSigLIP
นักวิจัยและนักพัฒนากำลังสำรวจโมเดล MedGemma สำหรับกรณีการใช้งานของตน และพบว่าโมเดลมีความสามารถในการแก้ไขปัญหาสำคัญบางอย่างได้ นักพัฒนาที่ DeepHealth ในแมสซาชูเซตส์ สหรัฐอเมริกา ได้สำรวจ MedSigLIP เพื่อปรับปรุงการคัดแยกภาพถ่ายรังสีทรวงอกและการตรวจหาสิ่งผิดปกติ นักวิจัยที่โรงพยาบาล Chang Gung Memorial ในไต้หวัน ตั้งข้อสังเกตว่า MedGemma ทำงานได้ดีกับวรรณกรรมทางการแพทย์ภาษาจีนดั้งเดิม และสามารถตอบคำถามของเจ้าหน้าที่ทางการแพทย์ได้ดี นักพัฒนาที่ Tap Health ใน Gurgaon อินเดีย ตั้งข้อสังเกตถึงการเข้าใจบริบททางการแพทย์ที่เหนือกว่าของ MedGemma โดยระบุถึงความน่าเชื่อถือในงานที่ต้องการความละเอียดอ่อนต่อบริบททางคลินิก เช่น การสรุปบันทึกความคืบหน้าหรือการแนะนำการแจ้งเตือนที่สอดคล้องกับแนวทาง
Google รู้สึกตื่นเต้นที่จะได้เรียนรู้เกี่ยวกับกรณีการใช้งานเหล่านี้และกรณีอื่นๆ จากนักพัฒนาในขณะที่พวกเขาสร้างเครื่องมือ AI ด้านสุขภาพรุ่นต่อไปด้วย MedGemma และ MedSigLIP