의료 수술까지 도맡는 AI, 의사 대신 할까?

자료제공/엔비디아

자동차를 학습시켜 더 나은 결정을 내리도록 돕는 AI가 수술실에서도 같은 힘을 발휘할 수 있을까? 시어터(Theator)의 목표는 이 질문의 답을 찾는 것이다. 캘리포니아주 팰로앨토에 본사를 둔 스타트업 시어터는 텔아비브 소재의 연구개발단지를 운영하며 의료수술 자동화 혁신에 새로운 동력을 불어넣고 있다.
시어터의 공동 창립자 겸 최고기술책임자(CTO) 도탄 애셀만(Dotan Asselmann)에 따르면 이 신생 기업은 자율주행 자동차의 발전 상황을 청사진으로 삼아 AI 기반 애널리틱스로 의사 결정을 개선하는 방식에 집중해 왔다.
자율주행 자동차 제조사들이 사고 발생 전에 차량 운행을 중단할 수 있는 방법을 모색하는 것처럼 시어터는 실수가 생기기 전에 수술을 중단할 방안을 찾고 있다. 그리고 그 실마리를 전세계의 수술 영상 분석에서 찾고 있다.
애셀만 CTO는 “AI는 확장성이 있기 때문에 의사들보다 훨씬 많은 경험을 축척할 수 있다”라면서 “시어터의 모델은 이미 수천 건의 수술을 분석했다. 개별 의사의 직접 경험으로는 도저히 달성할 수 없는 수준이죠”라고 말했다.

영상의 공유지식화

애셀만과 시어터 팀이 파악한 문제는 수술 과정이 표준화되어 있지 않다는 점이다. 의사들 대부분이 소수의 교육자로부터 기술을 배울 뿐, 사실 그들이 가진 의료 지식의 상당 부분은 직접 경험을 통해 습득된다는 것이 애셀만 CTO의 설명이다.
“의사간 데이터의 수평적 공유는 제한적으로 이뤄져 왔다. 그 주무대가 바로 학회였는데, 코로나 대유행이 시작되면서 의사들이 전문 지식을 확장할 기회가 가로막히고 말았다.”
수술에 시각적 보조를 활용하는 기법들은 이미 활발히 사용되고 있고 대부분의 수술실에 녹화용 카메라들이 설치되어 있지만 수술 장면의 캡처, 저장, 분석이 정례적으로 실시되는 것은 아니다. 시어터는 바로 이 부분에 착안하여 수술에 AI와 컴퓨터 비전을 활용하는 방안을 모색하고 있다.
시어터의 테크놀로지는 수술실의 복강경 카트에 엣지 어플라이언스를 탑재하는 것이다. 여기에서 NVIDIA Jetson AGX Xavier 플랫폼이 수술 영상을 처리하고 시어터의 소프트웨어로 익명화를 진행한 후 아마존(Amazon)과 애저(Azure) 클라우드에 마련된 훈련용 환경에 업로드한다.
이 클라우드에서 다양한 AI 모델들이 구동된다. 훈련은 NVIDIA V100 Tensor Core GPU 클러스터, 추론은 NVIDIA T4 Tensor Core GPU에서 실행한다.

AR(의료)-1.jpg

일단 수술 영상의 처리가 완료되면 의사들은 중요한 결정이 내려진 순간들을 엄선해 집중 조명하는 하이라이트 패키지를 즉시 확인할 수 있다. 각 수술의 내용은 시어터의 훈련용 데이터세트에 추가되어 모델 확장에 일조하게 된다.
시어터의 플랫폼은 수술 영상에 AI 기반 애널리틱스를 적용하여 데이터를 단계별, 상황별, 의사 결정과 주요 사건별로 분류한다. 이를 활용하여 수술의 사후 검토를 진행하면서 해당 수술의 특정 과정을 기존 수술의 동일 과정과 비교할 수 있다.
또한 기존 수술을 바탕으로 수술 전 지원을 제공하고, 영상들을 서로 비교 분석하여 수술 후 합병증의 원인을 규명할 수도 있다. 향후 애플리케이션에는 합병증에 따른 비용과 시간을 예측하고 절감하는 기능들이 포함될 예정이다.
예를 들어 수술 후 발열 증상은 절개 부위의 봉합 미비로 인한 출혈의 결과일 수 있다. 앞으로는 스캔이나 교정 수술을 진행하기에 앞서 시어터의 영상 요약본을 시청하는 것으로 수술 과정에 문제가 있었는지 여부를 판별할 수 있게 될 전망이다.

결정의 정확도를 높이는 방법

애셀만 CTO는 1~2년 내로 자사 플랫폼에서 클라우드 요소를 제거하고 실시간 수술 지원의 쾌거를 달성할 것으로 내다보고 있다. 최소침습수술이 진행되는 동안 오직 AI 알고리즘에만 의존하여 애널리틱스 전반을 온프레미스 환경에서 수행하는 것이다.
시어터는 현재 수술의 지원에 집중하고 있지만 향후 5년 이내에는 수술의 반자동화가 가능할 것으로 기대한다. 애셀만 CTO에 따르면 핵심적 부분은 여전히 외과의가 담당하더라도 기술적으로는 레벨 3 또는 4 수준의 자동화가 가능하다. 이 테크놀로지는 50억에 달하는 인구가 적절한 외과적 치료를 받지 못하는 개발도상국에 우선적으로 도입될 것이다.
시어터는 AI와 데이터 사이언스 분야의 스타트업을 위한 액셀러레이터 프로그램 NVIDIA Inception과 함께해 왔다. 애셀만 CTO는 NVIDIA Inception이 “모델의 훈련 효율성을 높이고 컴퓨팅 비용의 절감을 돕는 한편 자사의 엣지 디바이스에 적합한 하드웨어를 선택하는 길잡이가 되어준다”고 평가했다.
NVIDIA Inception 프로그램을 통해 시어터는 NVIDIA Clara Guardian AI 헬스케어 프레임워크의 비공개 데모와 NVIDIA DeepStream 소프트웨어 개발 키트를 제공받았다. 이를 이용해 고효율의 실시간 영상 파이프라인을 구축할 수 있었다.
NVIDIA의 지원에 힘입어 시어터는 전세계 수술실에서 매일같이 내려지는 결정들에 중요한 컨텍스트(context)를 지속적으로 제공하고 있다.
애셀만 CTO는 “외과의들은 수술 중에 갖가지 방향에서 끝없이 흘러나오는 파라미터의 홍수를 경험한다. 시어터의 목표는 인지 과부하를 줄이고 환자와 상황에 맞는 최적의 결정을 적시에 내릴 수 있도록 지원하는 것이다. 수술의 지휘는 여전히 의사가 맡는다. 하지만 AI와 함께라면 훨씬 나은 의사가 될 수 있다”라고 설명했다.

INTERVIEW

AR(의료)-02.jpg 이 달의 AI 인터뷰는 이탈리아 모데나 레지오 에밀리아 대학교(University of Modena and Reggio Emilia)의 로렌조 바랄디(Lorenzo Baraldi) 조교수를 만나본다. 바랄디 조교수는 대학 강단에 서기 전 페이스북 AI 리서치(Facebook AI Research)의 연구 인턴으로 일했다. 현재는 학술지 의 부주필로 활동하면서 시각, 언어, 임베디드 AI의 통합을 연구하고 있다.

>> 본인의 연구 분야를 설명한다면?
저는 컴퓨터 비전과 딥 러닝을 연구하는 그룹인 A이미지랩(AimageLab)에 소속되어 있다. 주로 시각, 언어, 행위의 통합에 집중하고 있죠. 세계를 인지하고 그 안에서 행동하는 동시에 인간과 소통할 수 있는 에이전트를 개발하는 것이 우리 연구의 최종 목표이다.

>> 이 분야에 관심을 갖게 된 계기는?
우리를 둘러싼 시각 세계를 인지하는 능력과 이를 행동 및 자연어로 표현하는 능력의 결합은 인간 본연의 역량인 동시에 인간의 지능을 이해하는 핵심이기도 하다. 지난 몇 년 간 우리는 이 능력들을 단독으로 활용하는 분야에서 엄청난 성장을 목격했다. 바로 컴퓨터 비전, 자연어 처리, 로보틱스이다. 이제는 이들을 어떻게 결합할 수 있는지 이해하는 것에 많은 관심이 모아지고 있다.

>> 현재 진행중인 프로젝트를 설명한다면?
우리 연구는 세 가지 방향으로 진행된다. 첫째, 시각과 언어를 통합한다. 이미지를 자연어로 표현할 수 있는 알고리즘을 예로 들 수 있다. 이 분야의 최신 논문이 CVPR 2020 학술대회의 이미지 캡셔닝을 위한 트랜스포머 기반 모델(Transformer-based model for image captioning) 부문에 제출된 바 있다. 둘째, 자동 항법이 가능한 에이전트를 개발해 시각과 행위를 통합한다. 실내와 실외의 다양한 시나리오에서 움직이며 여러 혼잡한 상황에서도 인간과 상호작용할 수 있는 에이전트를 개발하는 것이다. 셋째, 앞서 언급한 두 가지 연구를 언어 이해 능력과 통합한다. 지시에 따라 움직이는 에이전트, 경로상의 시각정보를 묘사할 수 있는 조사 중심 에이전트들의 훈련이 이에 해당한다.

>> 본인의 연구를 통해 해결하고자 하는 문제는?
우리가 해결해야 할 주요 문제 중 하나는 시각이나 텍스트, 운동의 인식으로부터 얻어지는 멀티모달 정보를 정확히 통합하는 방법을 찾는 것이다. 다시 말해 이 정보들을 적합하게 처리할 수 있는 아키텍처가 필요한 것인데, 이는 우리 연구의 상당 부분에 새로운 아키텍처의 설계가 수반되는 이유이기도 하다. 또 다른 문제는 우리가 만들어내는 접근법의 대다수가 생성적이고 순차적이라는 데 있다. 우리가 문장(sentence)을 생성하고, 로봇의 행위나 이동 경로도 우리가 생성하는 방식이다. 멀티모달 정보에 적합한 시퀀스의 생성은 여전히 난관으로 남아 있다.

>> 본인의 연구가 해당 분야/공동체/세계에 끼치는 영향을 설명한다면?
이 분야에 헌신하고 있는 연구자들의 노력이 성공을 거둔다면 일상생활 속에서 우리를 이해하고 조력을 제공하는 알고리즘, 우리와 함께 세상을 바라보고 그 속에서 도움이 되는 알고리즘을 갖게 될 것이다. 장기적으로는 우리가 컴퓨터와 상호작용하는 방식을 바꿔 보다 쉽고 언어에 기반한 접근이 가능해질 것으로 기대한다.

>> 연구에 NVIDIA 테크놀로지를 사용해본 적이 있는지?
NVIDIA GPU상에서 진행하는 대규모 훈련은 우리 연구의 핵심 요소이며, 앞으로 그 중요성은 더욱 커질 것이다. 현재 로컬 훈련은 우리 연구소의 분산 GPU 클러스터에서 수행하며 그보다 규모가 큰 훈련은 이탈리아 슈퍼컴퓨팅 센터 시네카(CINECA), 그리고 NVIDIA AI Technical Centre(NVAITC) 모데나 지부와 협력하여 진행한다. NVAITC 및 CINECA와의 파트너십은 컴퓨팅 용량을 증가시켰을 뿐 아니라 NVIDIA의 테크놀로지를 최대한 활용하는 데 필요한 지식과 지원을 제공해주기도 했다. 이 협업은 우리의 연구 역량에 정말 중요한 부분을 차지하고 있다.

>> NVIDIA 테크놀로지로 달성한 혁신이나 흥미로운 연구 결과를 소개한다면?
우리가 수행하는 연구의 거의 대부분이 NVIDIA 테크놀로지를 통해 구현된다. 시각, 언어, 행위의 통합 부분에서 거둔 결실 외에도 제가 특히 자긍심을 느끼는 연구들이 있는데, 그 중 하나가 바로 영상의 이해이다. 사람과 사물의 감지, 그들 관계의 이해, 시공간적 피처(feature)를 추출하는 최선의 방법 발견은 중요한 도전이다. 우리는 연구 내용을 문화 유산에 적용해보는 것도 즐긴다. NVIDIA GPU를 사용해 자연어로 그림을 검색하는 알고리즘과 회화작품에 실제성을 부여하는 생성 네트워크를 개발하기도 했다.

>> 향후의 연구 계획은?
우리의 연구 분야가 급격한 진화를 거듭하고 있는 것은 사실이지만 해결을 요하는 문제들은 여전히 산재해 있다. 우리 연구소도 바로 이 부분에 집중하고 있다. 그 중 하나가 데이터세트 내에서 감독에 따라 학습과 대립을 진행한다는 오랜 편견을 넘어서는 것이다. 우리가 궁극적으로 원하는 알고리즘은 현재의 데이터세트 너머의 이미지와 텍스트 간 연관성을 묘사·이해하는 것이다. 이를 위해 우리는 훈련용 데이터세트에 제시되지 않는 오브젝트도 묘사할 수 있는 알고리즘의 개발을 추구하고 있으며, 자체 감독 또는 감독의 정도가 낮은 훈련이 가져올 새로운 가능성들을 지속적으로 탐구하고 있다. 시간 차원의 적절한 관리 또한 우리 연구의 핵심 주제인데, 새로운 아키텍처 설계의 측면에서 단어의 시퀀스 관리뿐 아니라 영상 스트림의 이해 또한 개선해 왔다.

>> 새내기 연구자들에게 하고 싶은 조언이 있다면?
크게 세 가지 능력의 강화에 집중할 것을 권하고 싶다. 첫째는 코드를 제대로, 품격 있게 배우라는 것이다. 아이디어의 현실화에는 언제나 구현(implementation)이 필요한 법이다. 둘째는 좋은 아이디어를 갖는 법을 배우는 것이다. 상당히 까다로운 일이기는 하겠지만 값진 연구는 좋은 아이디어에서 시작하기 때문에 이 부분이 아주 중요하다. 연구자료들, 특히 과거의 연구들을 많이 읽으면서 개방적이고 자유롭게, 크고 넓게 생각하는 것이 큰 도움이 된다. 셋째는 시간 관리이다. 보다 중요한 일에 집중하라.

신제품 발표

죄송합니다. 더 이상 지원되지 않는 웹 브라우저입니다.

아래의 링크에서 브라우저를 업그레이드 하시기 바랍니다.

Internet Explorer 다운로드 | Chrome 다운로드