‘인공지능기반 진단보조 소프트웨어’ 식약처, 미국식약처 허가…임상검증의 시작일 뿐

‘인공지능기반 진단보조 소프트웨어’ 식약처, 미국식약처 허가…임상검증의 시작일 뿐 - 대한영상의학회, 대한의사협회지 통해 주요 평가 원칙 제시 - 의약품 허가요구 수준 엄격한 근거 요구하지 않아, 디지털 예외주의의 등 … - 제도의 신속/간소화로 인한 선도입-후평가…국내에는 후평가 관리체계도 …

기사등록 2019-01-15 11:11:58

최근 국내외에서 여러 인공지능기반 진단보조 소프트웨어(이하 인공지능기반기기)들이 식품의약품안전처 및 US Food and Drug Administration(FDA)와 같은 규제 기관들의 허가를 통과하기 시작하면서 논란이 일고 있다.

인공지능진단보조소프트웨어를 포함한 첨단 디지털 헬스케어 의료기기들에 대하여 적절한 임상검증이 이루어지지 않는 상황에서 무리하게 보험급여가 되거나 임상도입이 되어 문제가 될 수 있다는 지적이 제기된 것이다.

대한영상의학회(회장 오주형, 경희대병원 영상의학과 교수)는 대한의사협회지 2018년 12월호에 ‘첨단디지털헬스케어 의료기기를 진료에 도입할 때 평가원칙’라는 주제의 논문을 통하여 ‘인공지능기반 진단보조 소프트웨어’ 의 식약처 및 FDA 허가는 임상검증의 시작일 뿐이라는 점과 최신 인공지능기반기기에 대한 기본적인 평가 원칙들을 소개하였다.

◆식약처와 US FDA 허가의 의미는?

인공지능기반기기가 의료기기로 환자에게 이용되기 위해서는 가장 먼저 국내의 경우 식약처의 허가를, 미국의 경우 FDA의 허가를 받아야 한다.

이 허가시 안전성과 유효성에 대하여 일정 수준의 평가를 하기는 하지만 단지 인체를 대상으로 해당기기를 사용할 수 있다는 점과 이러한 목적으로 판매할 수 있다는 허가라는 점이 중요하다.

최근에는 정부가 첨단 디지털 헬스케어 의료기기에 대하여 식약처 평가로부터 건강보험심사평가원 평가에 이르는 여러 단계의 평가 과정을 신속하게 진행하는 방법(선도입-후평가 개념)도 구상중이다.

문제는 인공지능기반기기에 대한 식약처와 US FDA 허가가 이미 의약품의 허가 수준의 매우 엄격한 근거를 요구하지 않는다는 점과 디지털 예외주의로 인하여 충분히 검증되지 않은 소프트웨어를 무분별하게 퍼뜨릴 수 있다는 지적이다.

특히 선도입-후평가 상황에서는 제도의 시행에 앞서 먼저 후 평가를 어떻게 적절히 수행할 수 있을지에 대한 구체적이고 체계적인 대비가 중요하지만 국내에는 후평가를 위한 체계가 잘 갖춰져 있지 않다는 점도 해결해야 할 과제이다.

반면 US FDA의 경우는 ‘National Evaluation System for Health Technology’라는 체계를 만들어 대비를 하고 있다.

대한영상의학회 박성호(울산의대 서울아산병원 영상의학과 교수)임상연구네트워크장은 “인공지능기반기기에 대한 식약처 또는 US FDA의 허가는 임상검증의 끝이 아닌 시작에 불과하다”며, “해당 인공지능기반기기가 실제 환자에게 도움이 되는지 제대로 임상검증을 하는 것은 진료현장의 의료인의 몫이며, 선도입-후평가 방식의 제도하에서는 진료현장의 모든 의료인이 보다 많은 임상검증의 부담을 안게 된다”고 밝혔다.

또 “새로운 인공지능기반기기들이 정말로 환자와 진료에 도움이 되는지를 면밀하게 평가하려는 적극적 자세를 갖는 것이 중요하다”며, “식약처 또는 US FDA의 허가는 단지 임상검증의 시작이라는 개념을 산업/기술계에 잘 이해시킬 수 있도록 노력하여야 한다”고 덧붙였다.

◆진료현장 도입 및 급여결정에 대한 원칙

인공지능기반기기를 광범위하게 진료 현장에 도입하거나 급여를 적용하기에 앞서 필요한 적절한 임상검증과 평가에 대하여 분명한 원칙과 근거가 필요하다는 지적이다.

가장 분명한 기준은 편향 없이 잘 수행된 임상시험을 통해 어떤 인공지능기반기기를 사용함에 따라 환자의 궁극적 치료결과가 좋아짐이 입증되어야 하고, 더 나아가 이 인공지능기반기기를 사용하는 진료행위가 비용대비효과가 높다는 것이 입증되어야 한다.

인공지능기반기기가 환자에게 직접적으로 위해를 가할 가능성이 낮다고 생각할 수도 있지만 소프트웨어로 인한 진단의 오류는 궁극적으로 환자에게 부적절한 검사나 치료를 유발할 수 있고 결과적으로 환자의 건강에 심각한 위해를 초래할 수 있다.

또 환자의 치료 결과에 궁극적으로 도움을 주지 못하는 소프트웨어의 도입은 불필요한 의료비의 상승으로 이어지게 된다. 충분히 검증되지 않은 소프트웨어에 대하여 급여가 제공될 경우 이는 제한된 의료보험재원의 소모를 유발하고 이로 인해 꼭 필요한 의료행위를 급여하기가 더 어려워지는 이중의 문제를 야기할 수 있다.

박성호 임상연구네트워크장은 “산업/기술계가 이 부분에 대하여 잘 이해를 할 수 있도록 지식과 정보를 제공하는 것도 환자에 대한 궁극적 책임을 가지는 의료인의 중요한 역할이다”며, “인공지능기반기기의 진료 현장 도입 및 급여결정은 안전성, 임상적 유용성, 경제성 모두에 대한 평가를 기반으로 해야 하며, 이는 모든 의료기기에 공통적으로 적용되는 원칙이다”고 설명하였다.

또 “인공지능 의료용 디지털기기가 환자진료에 어느 정도 도움을 준다 하더라도 이 소프트웨어를 사용하는 진료가 이를 사용하지 않는 기존의 진료에 비하여 비용대비효과가 낮다면 이 소프트웨어를 진료에 사용하는 것이 반드시 최선의 진료라 할 수 없으며 제한된 의료보험재정을 효율적으로 사용하는 방법이 될 수 없다”고 덧붙였다.

◆“심평원 및 보건의료원구원 평가 자체 배제는 비합리적이며 비윤리적”

최근 산업계에서 인공지능 의료용 소프트웨어를 포함한 첨단 디지털 헬스케어 의료기기에 대한 건강보험심사평가원이나 한국보건의료연구원의 평가 과정을 불합리한 과도한 규제로 보는 시각이 있다.

또 이러한 평가자체를 배제하는 것은 비합리적이며 비윤리적이라는 지적이다.

박성호 임상연구네트워크장은 “양 기관의 중복되는 측면, 절차적 개선과 효율화가 필요할 것으로 판단되지만 이러한 평가 자체를 배제하고 충분한 임상적 근거를 갖추지 못한 디지털 헬스케어 의료기기에 대하여 무리한 급여나 진료 현장 도입을 요구하는 것은 비합리적이며 비윤리적이다”고 밝혔다.

또 “인공지능기반기기에 대한 신의료기술평가를 무리하게 신속/간소화 하는 것은 신의료기술평가를 인공지능기반기기와 관련하여 비급여 의료행위 확대의 창구로 변질시킬 우려가 있다”며, “이는 현 정부의 ‘문재인케어’가 추구하는 환자에게 도움이 되는 의료행위를 가능한 많이 급여로 제공하고 비급여를 줄이려는 정책 방향과 오히려 반대로서 신의료기술평가의 근본 취지를 퇴색시킨다”고 덧붙였다.

첨단 디지털 헬스케어 산업의 육성을 위해 신의료기술평가 체계의 근본을 왜곡시키는 것은 매우 근시안적인 정책이며, 보다 적절한 다른 지원 방법들에 대한 고려가 필요하다는 것이다.

박성호 임상연구네트워크장은 “산업육성을 위한 목적의 보상이라면 근본적으로 산업계 내 별도의 진흥기금 등을 통한 보상체계를 마련하는 것이 보다 타당할 것이다. 국민건강권 보장을 위해 사용되어야 하는 국민건강보험의 재원을 디지털 헬스케어 산업의 육성을 위해 사용하는 것은 매우 부적절하며 이는 궁극적으로 국민의 건강에 위해가 되는 정책이 될 것이다”고 지적하였다.

◆의료계, 산업계, 정부의 상호이해와 협력 필수적

특히 충분한 임상검증이 이루어지지 않은 기술을 무리한 보험급여를 통해 지원하는 것은 적절하지 않으며, 이런 보상은 산업계에 ‘대충 만들어도 인공지능 디지털 혁신이란 말만 붙이면 사업을 할 수 있다’는 식의 잘못된 메시지를 전달 할 수 있고 의료계에 ‘환자에게 도움이 되지 않더라도 급여/보상을 받기 위해 일단 기기를 사고/쓰고 보자’는 도덕적 해이와 오남용을 유발할 수 있다는 문제도 제기되었다.

박성호 임상연구네트워크장은 “첨단 디지털 헬스케어 의료기기의 발전이 국민건강증진과 산업육성 모두에 균형 있게 도움이 되기 위해서는 의료계, 산업계, 정부의 상호이해와 협력이 필수적이다”며, “첨단 인공지능기반기기와 관련하여, 인공지능 의료용 소프트웨어의 개발, 임상검증, 허가, 진료현장 도입 및 지속적 감시에 있어 환자를 최우선으로 생각하고, 기술과 산업 중심의 편향된 시각을 지양하고 의료와 기술/산업을 균형 있게 고려하며, 이를 통해 기술과 산업의 발전이 의료의 발전에 기여하되 환자에게 위해가 되거나 불필요한 의료비의 증가를 초래하는 일이 없도록 하여야 한다”고 강조하였다.

대한영상의학회 오주형 회장은 “첨단 디지털 헬스케어 의료기기를 진료에 도입할 때, 학술적 원칙과 객관적 근거를 바탕으로 국민건강증진에 기여할 수 있는 가치중립적 전문가의 역할을 하고 있다”며, “국민들에게 정확한 정보를 제공하고, 합리적인 정책을 제안하며, 산업계 및 유관정부기관들과의 올바른 관계형성과 협력을 위해 지속적으로 노력할 것이다”고 밝혔다.

한편 인공지능은 인간의 인지능력이 필요한 행위를 컴퓨터가 수행할 수 있도록 하는 시스템 혹은 알고리듬을 통칭하는 넓은 의미의 용어이다.

[첨단 인공지능기반기기의 교훈적 사례들]

인공지능기반기기의 진정한 경쟁력 강화와 육성은 올바른 임상검증의 촉진을 통하여 만들 수 있다. 대표적이고, 교훈적인 사례는 다음과 같다.

▲안저영상 자동분석 당뇨망막병증 진단 인공지능 소프트웨어

구글이 2016년 말 10만 건 이상 안저영상으로 학습한 딥러닝을 이용한 당뇨망막병증 진단 인공지능 소프트웨어를 개발하고 외부자료를 이용하여 진단능을 검증한 결과를 JAMA에 발표하였으며, 인공지능 소프트웨어가 안과전문의와 견줄 만한 높은 진단 정확도를 낼 수 있음을 보였다. 또 2017년에는 싱가폴 의료진이 주축이 되어 수행한 다국적 다기관 연구가 JAMA에 발표되었다.

이 연구는 7만 건 이상의 영상으로 학습한 딥러닝기반 인공지능 소프트웨어를 중국, 싱가폴, 미국, 오스트레일리아, 멕시코, 홍콩에 있는 10개의 다양한 상황의 외부 의료기관의 자료를 이용하여 진단능을 검증하였고, 인공지능 소프트웨어가 당뇨망막병증 진단에 있어 높은 정확도를 낼 수 있음을 재차 확인하였다.

박성호 임상연구네트워크장은 “다수의 외부 의료기관의 자료를 이용하여 복수의 연구진들이 인공지능 기술의 정확도를 철저하게 거듭 검증하는 것이 중요하고 가치가 있다는 것을 잘 보여주는 사례이다”고 설명하였다.

▲진통 중 산모의 자궁수축과 태아의 심장박동을 자동분석하는 인공지능 소프트웨어

영국의 K2 Medical Systems가 진통 중인 산모의 자궁수축과 태아의 심장박동을 지속적으로 자동 감시/분석하여 태아에게 문제가 의심될 경우 의사에게 주의 경고를 실시간으로 보내주는 소프트웨어를 만들었다.

이어 영국과 아일랜드의 24개 병원에서 약 4만 7,000명의 고위험 산모들을 무작위 배정에 따라 두 군으로 나누어 한 군은 이소프트웨어를 사용하며 진료를 하고 다른 군은 기존의 진료방식에 따라 진료를 한 후 두 군의 결과를 비교하는 대규모 임상시험을 수행하였다.

연구결과, 두 군 간에 아기와 산모 모두에 있어 진료결과에 있어 유의한 차이가 없었으며 이 소프트웨어를 사용하더라도 아기와 산모에게 추가의 의학적인 이익이 없다는 결론을 Lancet에 발표하였다.

이 연구는 결과자체보다도 △기존에 잘 정립되어 있는 임상시험 방법론을 인공지능 진단보조 소프트웨어의 임상검증에도 잘 적용할 수 있음을 보여준 사례라는 점, △2009년 영국에서 환자에 대한 소프트웨어의 사용허가(식품의약품안전처 또는 US FDA허가에 해당)를 받은 직후 곧바로 무작위 임상시험이 진행되어 2010년 1월에 대상환자 모집을 시작하였다는 점, △임상시험에 6백만 파운드(약 88억 원)의 연구비가 소요되었는데 영국 정부의 Department of Health가 연구비를 제공하였다는 점 등에서 주목할 부분이라는 설명이다.

박성호 임상연구네트워크장은 “환자에 대한 사용허가를 받은 직후 해당 회사와 영국 정부가 보여준 엄격한 임상시험을 통해 이 소프트웨어가 환자에게 정말로 도움이 되는지를 먼저 파악하려는 적극적인 자세는 비록 임상시험을 통해 기대하였던 모든 결과를 달성하지는 못하였더라도, 이 소프트웨어의 사용자가 될 의료인들과 환자들로부터 신뢰를 쌓아가는 중요한 과정이 되리라 판단한다”며, “이러한 사례와 임상적으로 충분히 검증되지 않은 인공지능 소프트웨어지만 어떻게든 빨리 판매해 사업을 하려는 경우를 비교한다면 어느 쪽이 의료인과 환자의 신뢰를 받고 경쟁력을 키울 수 있을 것인지는 쉽게 판단할 수 있다”고 밝혔다.

▲심장리듬을 지속적으로 감시하여 심방세동을 진단하는 웨어러블 전자 패치

최근 미국에서 수행된 심장의 리듬을 지속적으로 감시하는 스티커 형태의 웨어러블 전자 패치가 심방세동의 진단에 있어 도움이 되는지를 밝히는 임상시험 결과가 JAMA에 발표되었다.

이 임상시험은 심방세동의 위험인자를 가지고 있는 사람들에게 이 웨어러블 전자 패치를 착용하도록 할 경우 그렇지 않은 경우보다 유의하게 높은 빈도로 심방세동을 진단해 낼 수 있음을 보여 이 전자 패치의 임상적 유용성을 상당부분 잘 입증하였다.

이 임상시험에서 주목할 부분은 웨어러블 전자 패치의 임상적 유용성 평가는 기존에 정립되어 있는 전형적인 임상시험 방법론을 그대로 적용하는 것이 어렵다는 점을 사전에 충분히 고려하여 새로운 디지털 의료기기에 맞춘 새로운 형태의 실용임상시험 연구설계를 하였다는 점이다.

실제 웨어러블 전자 패치를 착용하는 대상이 심방세동이 이미 발생되어 병원을 방문하는 환자가 아닌 심방세동의 위험인자를 가지고는 있지만 질병 발생 이전 상태의 일반인이라는 점을 고려하여 통상의 병원기반의 임상시험과는 다른 방법으로 임상시험 대상자를 모집하였다.

Aetna라는 회사의 의료보험에 가입된 사람들의 데이터 베이스를 이용하여 대규모의 임상시험 대상자 후보를 발굴한 후 전자우편또는 우편을 통한 안내 그리고 인터넷을 통한 임상시험 설명과 동의획득을 통해 총 6,000여 명 정도의 일반인을 모집하였다.

연구의 평가 변수인 심방세동의 진단여부도 같은 의료보험회사의 청구자료 데이터를 분석하여 확인하였다. 이러한 임상시험 설계를 통해 대규모의 임상시험을 짧은 시간에 수행할 수 있었고, 그 결과도 빠른 시간 내에 분석하여 발표하였다.

박성호 임상연구네트워크장은 “첨단 디지털 헬스케어 의료기기의 임상적 유용성을 평가하기 위한 임상시험을 어떻게 효과적으로 수행할 수 있는지에 대한 좋은 본보기가 되는 연구로 생각된다. 국내의 경우처럼 공공의료보험 환경에서는 이와 같은 연구가 가능하기 위해서는 관련 정부기관들의 지원과 협조가 필수적이다”고 밝혔다.

또 “이상의 사례들은 인공지능진단보조소프트웨어를 포함한 첨단 디지털 헬스케어 기기 산업의 진정한 경쟁력과 성공은 디지털 예외주의가 아닌 제대로 된 임상검증을 통해 새로운 디지털 의료기기의 의학적 가치를 증명하고 소비자의 신뢰를 쌓아 나가는 과정을 통해 이루어진다는 것을 잘 보여준다”며, “의료계, 산업계, 정부 모두 이러한 높은 수준의 근거 창출을 위한 노력에 보다 높은 가치를 부여하여야 한다”고 덧붙였다.

[메디컬월드뉴스 김영신 기자]

관련기사

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://medicalworldnews.co.kr/news/view.php?idx=1510929067

기자프로필

김영신 기자 김영신 기자 의 다른 기사 보기