본문 바로가기
중국

GPT-5를 꺾은 중국의 AI 의사? 백천지능(Baichuan) 'M3' 공개: AI 의료의 판도가 바뀐다

by 북경먼지 2026. 1. 19.
반응형

"말만 잘하는 AI는 끝났다. 이제는 스스로 진단하고 의사결정하는 시대!"

지난 1월 13일, 중국의 AI 스타트업 **백천지능(Baichuan AI)**이 차세대 의료 특화 대규모 언어 모델인 **'Baichuan-M3'**를 발표하고 오픈소스로 공개했습니다. 단순히 성능이 좋아진 것을 넘어, OpenAI의 최신 모델인 **GPT-5.2(가상)**를 뛰어넘는 지표를 보여주며 전 세계 테크 업계를 놀라게 하고 있습니다.

오늘 포스팅에서는 왜 이 모델이 'AI 의료의 분수령'이라 불리는지 핵심만 정리해 드립니다.

 

 

1. 지표로 증명된 성능: "GPT-5.2를 넘어서다"

M3는 OpenAI가 주도하는 권위 있는 의료 평가 데이터셋인 HealthBench에서 글로벌 종합 1위를 기록했습니다.

  • 난이도 높은 데이터셋(HealthBench Hard): 44.4점을 기록하며 GPT-5.2를 공식적으로 추월했습니다.
  • SCAN-bench 1위: 병력 청취, 보조 검사, 진단 등 실제 임상 과정의 핵심 지표에서 최고점을 받았습니다.
  • 최저 환각률: AI의 고질적인 문제인 '할루시네이션(환각)'을 업계 최저 수준으로 낮추어 안전성을 확보했습니다.

2. M3의 핵심 혁신: "의사처럼 질문하는 능력"

지금까지의 의료 AI는 환자가 정보를 주면 답만 하는 수준이었습니다. 하지만 M3는 '엔드 투 엔드(End-to-End) 엄숙 문진' 능력을 갖췄습니다.

  • 주도적 질문: 환자가 정보를 횡설수설하더라도, 의사처럼 중요한 단서를 먼저 물어보며 위험 신호를 찾아냅니다.
  • 의사결정 지원: 단순한 정보 전달을 넘어 실제 진료 프로세스에 참여해 의사의 판단을 돕는 수준까지 진화했습니다.
  • 실제 의사 수준: 문진 능력 테스트 결과, 실제 전문의의 평균 수준을 상회하는 것으로 나타났습니다.

3. '백천지능'이 선택한 어렵지만 옳은 길

CEO 왕샤오촨(王小川)은 왜 코드나 검색이 아닌 '의료'에 집중했을까요?

중국은 한국과 비슷하게 대형 병원에 환자가 쏠리고 우수한 의사 자원이 부족한 문제를 겪고 있습니다. 백천지능은 단순히 재미있는 AI가 아니라 **"환자의 의사결정을 돕는 가치 있는 AI"**를 목표로 삼았습니다.

이를 위해 세 가지 독자 기술을 도입했습니다.

  1. 동적 강화 학습: 모델이 스스로의 오류를 학습하며 한계를 깨뜨림.
  2. SPAR 알고리즘: 긴 문진 과정 중 어느 단계에서 실수가 있었는지 찾아내 정교하게 수정.
  3. Fact-aware RL: 외부 정보에만 의존하지 않고 모델 자체가 사실 여부를 판단하도록 훈련.

 

💡 마무리하며: AI 의료, '비서'에서 '파트너'로

그동안의 AI 의료 앱들이 가벼운 건강 상담이나 정보 검색 수준이었다면, Baichuan-M3는 실제 진료 현장에서 의사와 함께 고민하는 '결정 지원 시스템'으로의 도약을 선언했습니다.

중국 AI 기술이 이제는 미국을 따라가는 수준을 넘어, 특정 전문 분야(의료)에서는 표준을 새로 쓰고 있다는 점이 무섭게 느껴집니다. 우리나라도 이러한 변화에 어떻게 대응할지 지켜봐야겠습니다.

반응형

댓글