AD
■ 진행 : 함형건 앵커
■ 출연 : 문송천 카이스트 경영대학원 교수
* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기 바랍니다. 인용 시 [YTN 뉴스라운지] 명시해주시기 바랍니다.
[앵커]
요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가도 나오고 있습니다. 오늘은 인공지능과 소프트웨어 산업, 공공행정을 망라하는 국내 데이터 관리 체계의 현황과 그 불편한 진실에 대해서 얘기를 나눠볼까 합니다. 문송천 카이스트 경영대학원 교수 나오셨습니다. 안녕하세요.
일단 지난 금요일부터 먹통 사태를 빚었었죠. 행정 전산망 마비 사태. 이 부분에 대해서 잠깐 얘기를 하고 넘어가야 할 것 같습니다. 일단 관련 지방행정 전산 서비스는 모두 정상화됐다 이렇게 정부가 발표하기는 했는데 정확한 원인을 규명해야 되지 않겠습니까? 아직도 그 원인 규명이 안 되고 있는 것 같은데요. 전문가마다 조금씩 엇갈린 진단이 나오고 있는 것 같습니다. 어떻게 보고 계십니까?
[문송천]
전문가마다 자기 분야에 따라 망의 문제다, 네트워크의 문제다, 정보 보호의 문제다, 여러 가지 보안의 문제다, 이렇게 얘기하는데 어떤 문제가 터지면 대개 얼마 안에 고치는 시한이 있지 않습니까? 그러나 이것이 사흘을 끌었다고 하는 것은 가장 정보 시스템에서 해결하기 어려운 부분이 있었지 않았느냐, 그런 정황을 짐작하게 하는 사건이라고 볼 수 있고 하드웨어, 소프트웨어 데이터 중에서 데이터가 가장 우리가 말로 데이터라고 하지만 데이터가 뭔지도 모르고 데이터라고 하는 사람들이 많거든요. 데이터 부분에서 장애가 일어나지 않았느냐. 데이터 찾아가는 길이 막혀서 거기서 시스템이 자동 스톱되지 않았느냐, 이런 정황을 생각해 보게 됩니다.
[앵커]
물론 외부 전문가가 투입이 돼서 이면을 직접 눈으로 들여다보고 찬찬히 분석을 해봐야지 정확한 원인이 규명될 것 같은데 문 교수님께서는 워낙 데이터베이스 쪽을 계속 연구를 하셨고 그래서 문 교수님 관점에서 보면 뭔가 데이터베이스의 설계가 잘못됐을 가능성이 높다는 거죠?
[문송천]
정부의 공직사회의 문제는 그렇습니다. 이게 법적으로 외부 전문가에게 데이터를 공개할 수 없다는 철칙, 일종의 바꿀 수 없는 법이 있어요. 법 때문에 전문가로 하여금 들여다볼 기회를 안 주는. 그럼에도 불구하고 저는 개인적으로 금융정보분석원 FIU 거래 시스템을 제가 직접 설계했습니다마는 그때는 시스템을 고치기 위해서 투입이 됐고 저한테 안 보여줄 수 없는 상황에서 제가 봤고. 그래서 그런 것들을 통해서 여러 가지를 추정해 보면 데이터 관리가 가장 정부 시스템. 전산망이라고 하는데 사실 망이 아니고요. 정부 전산 시스템의 가장 허점이 많은 부분이 아닌가. 저는 그렇게 많은 경험을 해 왔습니다.
[앵커]
일단 그 문제인식을 염두에 두고 좀 더 시야를 확대해서 하나하나 얘기를 해 보겠습니다. 문 교수님께서는 국내 전산학 박사 1호라고 제가 들었고요. 또 우리가 클라우드라는 말을 쓰는데 클라우드라는 용어를 만드는 데도 같이 참여하셨다고 들었습니다.
[문송천]
네, 세 사람이 만들었는데 세 명 중 한 명이 저고 박사 과정 학생들이 만든 겁니다.
[앵커]
그래서 국내 소프트웨어 산업, 또 데이터베이스 설계, 관리 현황 누구보다 잘 알고 계실 것 같은데 일단 데이터가 굉장히 중요하다고는 합니다마는 국내에 얼마나 잘 구축돼 있는지. 아까 이번 행정전산망 마비 사태도 뭔가 데이터 설계와 관련이 있을 거라고 말씀하셨습니다마는 전반적으로 봤을 때 국내 데이터 환경, 점수를 주신다면 몇 점 정도 주실 수 있습니까?
[문송천]
한 C학점 됩니다. 왜냐하면 데이터를 우리가 우리가 제2의 석유다, 제2의 반도체다, 말은 그렇게 부르지만 데이터가 과연 뭐냐, 이걸 알고 넘어가야지, 모르고 그냥 데이터, 아무거나 다 데이터다 이러면 안 되잖아요. 데이터라는 건 한마디로 딱 알아듣기 쉽게 한다고 하면 음식을 만들고 완제품 요리를 만들어야 돼요. 식재료. 처음에 사용하는 식재료. 생선으로 말하면 횟감. 그게 데이터입니다. 횟감이 튀겨지고 프라이팬에 요리되고 볶고 지지고 이런 요리 과정을 거치면 그건 데이터가 아니고요. 그때부터는 우리는 전문용어로 정보라고 그러지. 데이터라고 말을 안 해요.
데이터라는 말을 굳이 쓰는 이유는 데이터가 중요하기 때문에. 데이터가 중요하다는 얘기는 데이터의 품격을 지켜라. 품질 좋은 데이터 아니면 데이터가 아니다 이런 얘기거든요. 그래서 클라우드의 CL이 클래스, 데이터의 품격을 가리키는 겁니다. 그런데 그 말의 뜻을 잘 모르고 그냥 아무거나 보이면 다 데이터지 그걸 왜 가려 이러다 보면 이게 식재료인지 만든 요리인지 완제품 나오기 전 중간 상태의 요리인지 모르고 그냥 우리가 막 먹는 거예요. 그러다 보면 체하고 별일 다 생기는 거죠.
[앵커]
굉장히 좋은 비유를 해 주셨는데. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 맛있지 않습니까, 음식이? 그런데 반대로 재료를 상한 걸 쓰면 어떤 레시피를 갖다 쓰더라도 음식은 문제 있는 음식이 나올 것이고 그래서 데이터 분석에도 원데이터, 로데이터, 얼마나 품질이 좋은 데이터인지 이게 중요할 수밖에 없는데 그러면 문 교수님의 견지에서는 지금 우리 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점이 뭐라고 보십니까?
[문송천]
그래서 문제점이 뭐냐 하면 그 품질 좋은 데이터만이 등장하는 전체 데이터 지도가 한 페이지로 나와야 돼요. 그런데 그 지도가 한 페이지로 나오지 않고 예를 들면 행정안전부를 보면 수백 가지 조각으로 나온다고요. 하나로 합쳐지지 않고, 파편화되고. 파편화됐는데 파편화된 것들 사이에 불필요한 중복이 많고 쓰레기들이 많이 들어가서, 잡동사니가 많이 들어가서 쓸데없이 부풀려져 있고. 예를 들어서 하나의 데이터 지도. 우리가 데이터 지도를 이렇게 보시면 됩니다, 시청자들께서는. 전국도로교통지도라고 보시면 돼요. 전국도로교통지도 같은 지도가 지도가 우리 회사에도 전체 지도가 있어야 하는데 그걸 데이터 지도라고 부르는데 만든 적도 없고 본 적도 없고.
그런데 그걸 만들면 장점이 뭐냐 하면 데이터가 아무리 큰 데이터 지도도 2만 개 이내예요, 데이터 개수가. 데이터 개수라는 건 뭐냐 하면 성명, 주소, 연령. 이게 데이터 3개입니다, 제가 지금 드린 게. 그런 데이터가 2만 개 이상 나오는 지구상에 조직은 없어요, 기업도 없고. 그래서 2만 개가 한꺼번에 나오게 조직을 하면 데이터 지도가 만들어지는 거고 그렇지 않고 만들어봤더니 100만 개, 200만 개가 되네. 그러면 엉터리. 지도라고 부를 수도 없는 엉터리 그림이죠. 그런데 우리 국가기관의 데이터 지도가 다 그렇게 돼 있다는 얘기예요. 그러면 고쳐야 되는데 이걸 어떻게 고칠 거냐? 이게 문제죠. 공직사회에서는 전문가를 사실 사용하려고 합니다. 그런데 법이 못하게 막고 있어요.
[앵커]
시청자분들의 이해를 돕기 위해서 조금 더 구체적인 질문을 드리면 우리가 흔히 데이터라고 하면 사무실 환경에서도 많이 쓰는 그런 데이터가 엑셀 데이터라든가 스프레드시트 같은 것들이 많이 떠오르는데 그런 데이터 시트를 보면 여러 칼럼이 있고요. 지금 말씀하신 여러 속성들을 하나의 시트에 몰아넣어서 쓰게 되는데 지금 말씀하신 개념은 그거하고 좀 다른 것 같습니다.
[문송천]
여러 칼럼, 칼럼에 나온 것이 데이터가 되는데 과연 그 칼럼에 나온 것이 데이터가 될 자격이 있냐, 그걸 심사해야 해요.
[앵커]
칼럼 하나하나를 다 떼어서 별도의 데이터를 만든다는 거죠?
[문송천]
심사해서 자격이 있으면 데이터베이스에 들어가고 자격이 없으면 미안하지만 들어가지 말고 다른 데 가 있으라는 거예요.
[앵커]
그러면 기업이라든가 아니면 관청이라든가 이런 데 자문도 굉장히 많이 하셨을 것 같은데 만약에 어떤 기관에 가서 데이터 전반을 점검해보자 할 때 가면 어떤 질문을 먼저 던지십니까?
[문송천]
제가 제일 먼저 여기 데이터 개수가 몇 개입니까? 그러면 대개 IT 최고 전문가도 데이터 개수 아직 세어본 적이 없는데 한 2~3일 시간을 주시면 얘기해 드리겠다고 하는데 틀리게 대답을 해요. 데이터 개수를 카운트해 본 적이 없으니까. 데이터라는 게 아무거나 다... 우리 회사 데이터 무지하게 많습니다. 한 200테라바이트 되고요. 이런 식으로 나온다고요. 그 볼륨이 아니고 성명, 주소, 연령 같은 개수를 얘기하는 건데, 그래서 데이터 개수를 세어본 적이 없는 게 제일 문제고 그다음에 데이터 중복률이 어떻게 되느냐. 그게 제가 두 번째 던진 질문이에요.
우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 데이터 비만도라고 하는데 데이터 비만도가 높으면 그 기업의 정보 업무가 마비됩니다. 사람이 고지혈증 이런 걸로 쓰러지듯이 기업도 쓰러져요. 데이터 중복률이 얼마냐 그러면 계산해본 적이 없다는 거예요. 계산하는 방법을 가르쳐주잖아요. 그러면 한 시간 뒤에 계산해서 가져와요. 그거 틀려요. 계산해 본 적이 없기 때문에 공식을 가르쳐도 못 하는 거예요. 그러니까 이게 뭐냐 하면 데이터 최고 전문가도 없고 우리가 기업에서 CEO, CFO 여러 가지 말을 많이 하지 않습니까? CIO. CDO도 없고 데이터는 그냥 아무렇게나.
[앵커]
외국 같은 경우는 기관마다 데이터 관리 최고책임자가 있죠.
[문송천]
CDO가 있죠.
[앵커]
그런데 우리나라에서는 아직 그런 제도나 개념이 제대로 도입되거나 정책되지 않은.
[문송천]
그렇습니다. 영국에서는 CDO를 누구를 임명했냐면 디지털부 장관을 임명했어요. 그 사람이 CDO예요. 그런 식이에요. 앞서나가는 나라들하고 뒤처지는 나라들의 차이가 나타납니다.
[앵커]
국내에서 그러면 언뜻 지금 저희 생각을 해보면 대표적으로 서울시 같은 경우에 데이터를 적극적으로 활용하기 위해서 여러 가지 정책을 펴고 있습니다마는 서울시 같은 경우에는 중복률이 어느 정도 되는 것 같습니까?
[문송천]
서울시 같은 경우에 중복률이 놀랍게도 높습니다. 보통 중복률이 15% 이상이면 우리가 인체의 체지방률과 비슷하게 데이터 중복률이 15%가 넘어선다 그러면 이건 문제가 있다, 손을 봐야 되겠다 이렇게 되는데 심지어 제가 계산한, 제가 직접 계산한 바에 의하면 서울시 데이터를 보고 1만 900%가 나옵니다.
[앵커]
그러면 중복률로 따지면 우리의 예상하는 수준을 훨씬 넘어서는.
[문송천]
기하학적 수준이죠. 그래서 그게 어떻게 가능하냐 하면 데이터가 2만 개 이내여야 하는데 다 합해보면 200만 개가 넘어요. 200만 개가 넘는다는 얘기는 그중에 한 거의 2만 개 빼고 200만 개면 얼마입니까? 218만 개는 불필요한 잉여 데이터, 쓸데없는 데이터라는 거 아니에요. 그런데 그걸 제거하면 작업에 들어가면 돼요. 그런데 제거할 수 있는 법령이 없다는 거예요.
[앵커]
그런데 데이터 중복률을 제가 질문을 드렸는데 제 예상으로는 15%, 15BMI.가 아니고 30%, 40% 이렇게 말씀하실 줄 알았는데 그 정도가 아니라는 말씀이십니까?
[문송천]
30, 40이면 B학점 정도로 봐주는 정도인데 우리가 마라톤 선수처럼 진짜 최적의 뛸 수 있는 컨디션을 갖는 몸의 신체구조를 갖는다, 그렇게 되면 마라톤 선수가 한 15%, 15BMI. 그 정도하고 데이터 비만률하고 똑같아요. 아주 희한하리만큼 똑같습니다.
[앵커]
그러면 그 중복률은 최대 몇 퍼센트가 될 수 있는 겁니까, 이론적으로는?
[문송천]
20%를 넘으면 안 됩니다. 그리고 그렇게 하기 위해서 표준형이 나와 있고 데이터를 만들 때는 이렇게 표준화해라. 국제적인 이론이 나와 있고 표준화가 나와 있고, 50~60년 전에 나왔는데 50~60년 전에 나온 데이터 표준화 이론을 안 쓰고 그냥 주먹구구식으로 하고 그런 식으로 정부 시스템이 구성돼 있다고 하면 그걸 만약에 국민들이 알면 정부에 대한 신뢰도가 어떻게 됩니까?
그러니까 정권에 상관없이 지난 30~40년 동안 계속 이렇게 해왔단 말입니다.
[앵커]
아까 서울시가 몇 퍼센트라고 하셨죠, 중복률이?
[문송천]
1만 900% 나옵니다.
[앵커]
그게 100%를 넘어설 수 있는 겁니까, 이론적으로?
[문송천]
말이 안 됩니다.
[앵커]
그렇다면 이게 한마디로 얘기하면 데이터 설계와 관리가 얼마나 엉망으로 되고 있는가, 나타나는 지표로 대표적으로 지금 말씀하시고 있는 것 같은데, 그렇게 데이터 중복률이 높고 불량하게 관리가 된다면 실제 데이터를 활용할 때 어떤 문제가 구체적으로 발생하는 겁니까?
[문송천]
답이 틀리게 나오죠. 왜냐하면 불필요한 것들이 쓸데없이 여러 군데, 성명도 여러 군데 들어가면 홍길동이만 나오는 것이 아니라 홍길동이 김철수로 들어가 있으면 김철수로 나오고. 답이 틀리는 거예요. 그리고 답이 빨리 나오는 건 소용이 없어요. 정확하게 나와야지. 그러니까 우리가 지금 행정 전산망에 내가 접속하려고 한다, 정확히 접속하는 게 문제지 속도가 문제가 아니거든요. 이게 마비될 정도로 느리면 안 되고 3초 이내에 접속하면 그걸 뭐라 그래요? 괜찮다고 하지. 1초 이내에 접속하는 걸 누가 욕합니까?
속도와 효율성뿐만 아니라 나왔다 하면 답은 정확해야지 정확하지 않으면 누군가 책임을 져야 되는데 공직사회에서는 책임지는 사람이 없다. 행정망 사태가 터졌어요. 예를 들어서 카카오톡에서 무슨 사태가, 마비 사태가 일어났다 그러면 정부에다가 카카오에다 손해배상을 하시지 이럴 수 있는데 정부가 잘못한 일을 정부가 정부에게 책임을 집니까? 자기한테 자기가 책임지는 일이 어디 있어요. 그러니까 안 돼요. 안 되는 걸 우리가 알기 때문에 이게 손해배상 문제로 갈 거냐? 안 가죠. 당연히 아는데 어떻게 갑니까.
[앵커]
지금 많은 문제점을 한꺼번에 말씀해 주셔서 이걸 어떻게 우리가 대응해나갈 것인가 궁금하긴 한데, 최근 몇 년 동안에 여러 정부기관에서 이런 전산망 관련 마비 사태라든가 먹통 사태가 굉장히 많이 일어났죠. 문제점도 일어났조. 구체적으로 어떤.
[문송천]
최근 5개월 전에 교육부 시스템에서 이런 일이 있었습니다. 어느 학교 선생님이 자기 학교 중간고사 문제를 검색을 했더니 다른 학교 답안지가 나왔어요. 이것이 일반인들에게는 컴퓨터가 어떻게 그런 답을 내냐고 이럴 수 있을지 모르지만 저는 어떤 수순으로 그게 가능한지 길을 알아요. 보인다고요, 제 눈에는. 그러면 그렇게 설계되고 했다고 하면 데이터 품질의 품자도 안 지킨 거죠.
데이터 품질을 안 지키면 별의별 불상사가 다 일어날 수가 있고 감춰져 있던 지하실에 있던 것들이 수면 위로 올라와서 이번 행안부 사태처럼 사건 사고로 터지는 것입니다. 그러니까 교육부만이 아니라 보건복지부, 법무부, 국방부, 다 있어요. 그런데 이것이 빙산의 일각처럼 나온 거죠. 그래서 빙산의 일각처럼 나왔다는 것을 정부가 만약에 인지한다면 이건 그냥 넘어갈 수 있는 일이 아니다, 이렇게까지 가야 되는데 여러 가지 법제도적인 문제 때문에 거기까지 안 가는 게 유감입니다.
[앵커]
IT 강국이라는 대한민국. 우리 데이터 환경의 민낯을 보게 되는 것 같은데 그렇다면 왜 이런 문제점이 계속 누적되고 방치된 상태로 가는 걸까요?
[문송천]
지금 IT 기술을 생활 속에 극대로 활용하는 쪽에서는 행안부나 서울시나 굉장히 앞서 있고 그 부분에서는 OECD와 UN의 평가를 받고 항상 매년 1, 2, 3위를 하고 있어요. 그런데 우리가 인생에서 삶의 질이 중요하지, 수입과 내가 무슨 자동차 타고 다니는 것이 중요하지 않듯이 국가의 질은 데이터의 질로 평가됩니다.
국가의 경쟁력이 아니고 국가의 질은 그 나라에서 어떤 데이터를 다루느냐. 데이터 질에 의해서 결정되는 거예요. 우리 삶의 질과 같은 것이기 때문에 이건 정량화하기도 힘들고 우선 피부로 느끼는 게 있어야 돼요. 우리가 삶의 질이 좋아졌다, 이런 게 있어야 되는데 정부가 우리나라 국가의 데이터 질이 좋아졌다 하는 체감할 수 있는 노력을 해야 한다는 거죠.
[앵커]
그렇다면 그런 문제점들을 행정당국이나 아니면 지자체나 각 기관의 책임자라든가 담당자들이 인지하고 있다고 보십니까?
[문송천]
네, 저는 인지하고 있다고 보고요. 왜 인지했냐면 정부 각 부처나 각 지자체에 디지털혁신관이라는 게 다 있습니다. 데이터혁신관의 임무는 그걸 인지하는 데 있어요. 인지 못하는 혁신관은 저는 하나도 없다고 보는데 그 혁신관 중에는 컵에 물이 절반 남은 걸 보고 이제 이건 내가 고쳐야 되겠다, 이렇게 생각하는 사람이 있고 어떤 사람은 절반밖에 안 남았는데 뭘 고쳐, 그냥 넘어가지, 이런 혁신관의 대조적인 면이 극명하게 드러나는 걸 볼 때 우리가 정말 그런 일은 있어서는 안 된다. 어떻게 하든지 노력하는 쪽으로 나가야지 그거 왜 해 이런 사람이 혁신관으로 있다고 하면 그 사람이 혁신의 아이콘입니까? 혁신을 방어하는 방어관이지.
[앵커]
지금 말씀을 들어보면 사실 전반적으로 우리 데이터 환경, 데이터 구축 체계가 불량하게 관리가 돼 있고. 설계도 잘못돼 있다. 그 말이 맞다면 지금 우리가 인공지능 시대라고 합니다마는 사실 아무리 좋은 컴퓨터나 좋은 소프트웨어나 인공지능이라고 하더라도 거기에 투입되는 자료가 잘못돼 있으면 결과가 잘못 나오는 것 아니겠습니까?
[문송천]
데이터 품질이 엉터리면 AI가 갖다 쓰는 데이터가 엉터리기 때문에 AI의 결과도 엉터리고. AI는 지금 이미지 분석이나 영상 분석하는 데는 기가 막힌 역할을 해요. 그런데 기업에서 이미지 분석하고 영상 분석하는 업무가 어디 있어요. 다 문서 업무, 행정 업무지. 거기서는 AI가 할 부분이 없다고요. 지금 식으로 데이터가 품질 개선이 안 된다면. 개선하면 물론 AI가 세상을 혁신할 수도 있죠.
[앵커]
시간은 거의 다 됐는데요. 한 가지만 더 질문을 드리면 그러면 데이터 품질을 개선하고 설계를 정확하게 하고 잘 관리하기 위해서는 관련 인력도 잘 육성을 해야 될 것 같은데 어떻게 육성되고 있습니까?
[문송천]
데이터 품질학과가 없듯이 지금 데이터 사이언스 학과가 있다고 합니다마는 그건 빅데이터, 이렇게 데이터 분석하는, 수학적 분석하는 학과지 데이터 품질을 전혀 다루지 않거든요. 데이터 품질 학과를 만드는 이런 움직임으로 나간다고 하면 우리나라가 세계 최초의 디지털 선진국이 될 수가 있습니다.
그냥 미국, 영국에서 어떻게 하나 보고 초등학교에서 코딩 가르치니까 우리도 가르쳐야지 이런 따라가는 식으로 계속하다가는 디지털 시대에 진짜 앞서나갈 수 없는, 대통령께서 말씀하시는 디지털 장전, 이런 말씀을 가끔 하지 않으셨습니까? 거기서 세계 다른 나라들이 한국을 봐라, 이런 데이터 품질에 대해서 신경 쓰는 나라가 있구나, 이런 앞장서는 모습을 보인다면 우리나라 전체 질이 격상되지 않는가 저는 그렇게 생각합니다.
[앵커]
알겠습니다. 이게 어떤 전문적인 한 분야의 얘기가 아니고 우리 삶의 질 그리고 국가 경쟁력의 문제일 것 같기도 한데 오늘 하신 말씀 잘 우리가 고민을 해 봐야 될 것 같습니다. 문송천 카이스트 경영대학원 교수와 함께했습니다. 고맙습니다.
※ '당신의 제보가 뉴스가 됩니다'
[카카오톡] YTN 검색해 채널 추가
[전화] 02-398-8585
[메일] social@ytn.co.kr
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]
■ 출연 : 문송천 카이스트 경영대학원 교수
* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기 바랍니다. 인용 시 [YTN 뉴스라운지] 명시해주시기 바랍니다.
[앵커]
요즘 데이터가 무엇보다 중요한 자산이라고는 하지만 IT 강국이라는 우리나라 데이터 환경의 이면을 들여다보면 여전히 갈 길이 멀다는 평가도 나오고 있습니다. 오늘은 인공지능과 소프트웨어 산업, 공공행정을 망라하는 국내 데이터 관리 체계의 현황과 그 불편한 진실에 대해서 얘기를 나눠볼까 합니다. 문송천 카이스트 경영대학원 교수 나오셨습니다. 안녕하세요.
일단 지난 금요일부터 먹통 사태를 빚었었죠. 행정 전산망 마비 사태. 이 부분에 대해서 잠깐 얘기를 하고 넘어가야 할 것 같습니다. 일단 관련 지방행정 전산 서비스는 모두 정상화됐다 이렇게 정부가 발표하기는 했는데 정확한 원인을 규명해야 되지 않겠습니까? 아직도 그 원인 규명이 안 되고 있는 것 같은데요. 전문가마다 조금씩 엇갈린 진단이 나오고 있는 것 같습니다. 어떻게 보고 계십니까?
[문송천]
전문가마다 자기 분야에 따라 망의 문제다, 네트워크의 문제다, 정보 보호의 문제다, 여러 가지 보안의 문제다, 이렇게 얘기하는데 어떤 문제가 터지면 대개 얼마 안에 고치는 시한이 있지 않습니까? 그러나 이것이 사흘을 끌었다고 하는 것은 가장 정보 시스템에서 해결하기 어려운 부분이 있었지 않았느냐, 그런 정황을 짐작하게 하는 사건이라고 볼 수 있고 하드웨어, 소프트웨어 데이터 중에서 데이터가 가장 우리가 말로 데이터라고 하지만 데이터가 뭔지도 모르고 데이터라고 하는 사람들이 많거든요. 데이터 부분에서 장애가 일어나지 않았느냐. 데이터 찾아가는 길이 막혀서 거기서 시스템이 자동 스톱되지 않았느냐, 이런 정황을 생각해 보게 됩니다.
[앵커]
물론 외부 전문가가 투입이 돼서 이면을 직접 눈으로 들여다보고 찬찬히 분석을 해봐야지 정확한 원인이 규명될 것 같은데 문 교수님께서는 워낙 데이터베이스 쪽을 계속 연구를 하셨고 그래서 문 교수님 관점에서 보면 뭔가 데이터베이스의 설계가 잘못됐을 가능성이 높다는 거죠?
[문송천]
정부의 공직사회의 문제는 그렇습니다. 이게 법적으로 외부 전문가에게 데이터를 공개할 수 없다는 철칙, 일종의 바꿀 수 없는 법이 있어요. 법 때문에 전문가로 하여금 들여다볼 기회를 안 주는. 그럼에도 불구하고 저는 개인적으로 금융정보분석원 FIU 거래 시스템을 제가 직접 설계했습니다마는 그때는 시스템을 고치기 위해서 투입이 됐고 저한테 안 보여줄 수 없는 상황에서 제가 봤고. 그래서 그런 것들을 통해서 여러 가지를 추정해 보면 데이터 관리가 가장 정부 시스템. 전산망이라고 하는데 사실 망이 아니고요. 정부 전산 시스템의 가장 허점이 많은 부분이 아닌가. 저는 그렇게 많은 경험을 해 왔습니다.
[앵커]
일단 그 문제인식을 염두에 두고 좀 더 시야를 확대해서 하나하나 얘기를 해 보겠습니다. 문 교수님께서는 국내 전산학 박사 1호라고 제가 들었고요. 또 우리가 클라우드라는 말을 쓰는데 클라우드라는 용어를 만드는 데도 같이 참여하셨다고 들었습니다.
[문송천]
네, 세 사람이 만들었는데 세 명 중 한 명이 저고 박사 과정 학생들이 만든 겁니다.
[앵커]
그래서 국내 소프트웨어 산업, 또 데이터베이스 설계, 관리 현황 누구보다 잘 알고 계실 것 같은데 일단 데이터가 굉장히 중요하다고는 합니다마는 국내에 얼마나 잘 구축돼 있는지. 아까 이번 행정전산망 마비 사태도 뭔가 데이터 설계와 관련이 있을 거라고 말씀하셨습니다마는 전반적으로 봤을 때 국내 데이터 환경, 점수를 주신다면 몇 점 정도 주실 수 있습니까?
[문송천]
한 C학점 됩니다. 왜냐하면 데이터를 우리가 우리가 제2의 석유다, 제2의 반도체다, 말은 그렇게 부르지만 데이터가 과연 뭐냐, 이걸 알고 넘어가야지, 모르고 그냥 데이터, 아무거나 다 데이터다 이러면 안 되잖아요. 데이터라는 건 한마디로 딱 알아듣기 쉽게 한다고 하면 음식을 만들고 완제품 요리를 만들어야 돼요. 식재료. 처음에 사용하는 식재료. 생선으로 말하면 횟감. 그게 데이터입니다. 횟감이 튀겨지고 프라이팬에 요리되고 볶고 지지고 이런 요리 과정을 거치면 그건 데이터가 아니고요. 그때부터는 우리는 전문용어로 정보라고 그러지. 데이터라고 말을 안 해요.
데이터라는 말을 굳이 쓰는 이유는 데이터가 중요하기 때문에. 데이터가 중요하다는 얘기는 데이터의 품격을 지켜라. 품질 좋은 데이터 아니면 데이터가 아니다 이런 얘기거든요. 그래서 클라우드의 CL이 클래스, 데이터의 품격을 가리키는 겁니다. 그런데 그 말의 뜻을 잘 모르고 그냥 아무거나 보이면 다 데이터지 그걸 왜 가려 이러다 보면 이게 식재료인지 만든 요리인지 완제품 나오기 전 중간 상태의 요리인지 모르고 그냥 우리가 막 먹는 거예요. 그러다 보면 체하고 별일 다 생기는 거죠.
[앵커]
굉장히 좋은 비유를 해 주셨는데. 사실 식재료 같은 경우에도 원재료가 굉장히 싱싱하고 좋으면 요리사가 초보라고 하더라도 맛있지 않습니까, 음식이? 그런데 반대로 재료를 상한 걸 쓰면 어떤 레시피를 갖다 쓰더라도 음식은 문제 있는 음식이 나올 것이고 그래서 데이터 분석에도 원데이터, 로데이터, 얼마나 품질이 좋은 데이터인지 이게 중요할 수밖에 없는데 그러면 문 교수님의 견지에서는 지금 우리 전반의 공공 데이터 환경에서 데이터의 가장 큰 문제점이 뭐라고 보십니까?
[문송천]
그래서 문제점이 뭐냐 하면 그 품질 좋은 데이터만이 등장하는 전체 데이터 지도가 한 페이지로 나와야 돼요. 그런데 그 지도가 한 페이지로 나오지 않고 예를 들면 행정안전부를 보면 수백 가지 조각으로 나온다고요. 하나로 합쳐지지 않고, 파편화되고. 파편화됐는데 파편화된 것들 사이에 불필요한 중복이 많고 쓰레기들이 많이 들어가서, 잡동사니가 많이 들어가서 쓸데없이 부풀려져 있고. 예를 들어서 하나의 데이터 지도. 우리가 데이터 지도를 이렇게 보시면 됩니다, 시청자들께서는. 전국도로교통지도라고 보시면 돼요. 전국도로교통지도 같은 지도가 지도가 우리 회사에도 전체 지도가 있어야 하는데 그걸 데이터 지도라고 부르는데 만든 적도 없고 본 적도 없고.
그런데 그걸 만들면 장점이 뭐냐 하면 데이터가 아무리 큰 데이터 지도도 2만 개 이내예요, 데이터 개수가. 데이터 개수라는 건 뭐냐 하면 성명, 주소, 연령. 이게 데이터 3개입니다, 제가 지금 드린 게. 그런 데이터가 2만 개 이상 나오는 지구상에 조직은 없어요, 기업도 없고. 그래서 2만 개가 한꺼번에 나오게 조직을 하면 데이터 지도가 만들어지는 거고 그렇지 않고 만들어봤더니 100만 개, 200만 개가 되네. 그러면 엉터리. 지도라고 부를 수도 없는 엉터리 그림이죠. 그런데 우리 국가기관의 데이터 지도가 다 그렇게 돼 있다는 얘기예요. 그러면 고쳐야 되는데 이걸 어떻게 고칠 거냐? 이게 문제죠. 공직사회에서는 전문가를 사실 사용하려고 합니다. 그런데 법이 못하게 막고 있어요.
[앵커]
시청자분들의 이해를 돕기 위해서 조금 더 구체적인 질문을 드리면 우리가 흔히 데이터라고 하면 사무실 환경에서도 많이 쓰는 그런 데이터가 엑셀 데이터라든가 스프레드시트 같은 것들이 많이 떠오르는데 그런 데이터 시트를 보면 여러 칼럼이 있고요. 지금 말씀하신 여러 속성들을 하나의 시트에 몰아넣어서 쓰게 되는데 지금 말씀하신 개념은 그거하고 좀 다른 것 같습니다.
[문송천]
여러 칼럼, 칼럼에 나온 것이 데이터가 되는데 과연 그 칼럼에 나온 것이 데이터가 될 자격이 있냐, 그걸 심사해야 해요.
[앵커]
칼럼 하나하나를 다 떼어서 별도의 데이터를 만든다는 거죠?
[문송천]
심사해서 자격이 있으면 데이터베이스에 들어가고 자격이 없으면 미안하지만 들어가지 말고 다른 데 가 있으라는 거예요.
[앵커]
그러면 기업이라든가 아니면 관청이라든가 이런 데 자문도 굉장히 많이 하셨을 것 같은데 만약에 어떤 기관에 가서 데이터 전반을 점검해보자 할 때 가면 어떤 질문을 먼저 던지십니까?
[문송천]
제가 제일 먼저 여기 데이터 개수가 몇 개입니까? 그러면 대개 IT 최고 전문가도 데이터 개수 아직 세어본 적이 없는데 한 2~3일 시간을 주시면 얘기해 드리겠다고 하는데 틀리게 대답을 해요. 데이터 개수를 카운트해 본 적이 없으니까. 데이터라는 게 아무거나 다... 우리 회사 데이터 무지하게 많습니다. 한 200테라바이트 되고요. 이런 식으로 나온다고요. 그 볼륨이 아니고 성명, 주소, 연령 같은 개수를 얘기하는 건데, 그래서 데이터 개수를 세어본 적이 없는 게 제일 문제고 그다음에 데이터 중복률이 어떻게 되느냐. 그게 제가 두 번째 던진 질문이에요.
우리가 인체에 불필요한 지방이 너무 많이 쌓이면 체지방률이 높아지듯이 데이터 지방률, 데이터 비만도라고 하는데 데이터 비만도가 높으면 그 기업의 정보 업무가 마비됩니다. 사람이 고지혈증 이런 걸로 쓰러지듯이 기업도 쓰러져요. 데이터 중복률이 얼마냐 그러면 계산해본 적이 없다는 거예요. 계산하는 방법을 가르쳐주잖아요. 그러면 한 시간 뒤에 계산해서 가져와요. 그거 틀려요. 계산해 본 적이 없기 때문에 공식을 가르쳐도 못 하는 거예요. 그러니까 이게 뭐냐 하면 데이터 최고 전문가도 없고 우리가 기업에서 CEO, CFO 여러 가지 말을 많이 하지 않습니까? CIO. CDO도 없고 데이터는 그냥 아무렇게나.
[앵커]
외국 같은 경우는 기관마다 데이터 관리 최고책임자가 있죠.
[문송천]
CDO가 있죠.
[앵커]
그런데 우리나라에서는 아직 그런 제도나 개념이 제대로 도입되거나 정책되지 않은.
[문송천]
그렇습니다. 영국에서는 CDO를 누구를 임명했냐면 디지털부 장관을 임명했어요. 그 사람이 CDO예요. 그런 식이에요. 앞서나가는 나라들하고 뒤처지는 나라들의 차이가 나타납니다.
[앵커]
국내에서 그러면 언뜻 지금 저희 생각을 해보면 대표적으로 서울시 같은 경우에 데이터를 적극적으로 활용하기 위해서 여러 가지 정책을 펴고 있습니다마는 서울시 같은 경우에는 중복률이 어느 정도 되는 것 같습니까?
[문송천]
서울시 같은 경우에 중복률이 놀랍게도 높습니다. 보통 중복률이 15% 이상이면 우리가 인체의 체지방률과 비슷하게 데이터 중복률이 15%가 넘어선다 그러면 이건 문제가 있다, 손을 봐야 되겠다 이렇게 되는데 심지어 제가 계산한, 제가 직접 계산한 바에 의하면 서울시 데이터를 보고 1만 900%가 나옵니다.
[앵커]
그러면 중복률로 따지면 우리의 예상하는 수준을 훨씬 넘어서는.
[문송천]
기하학적 수준이죠. 그래서 그게 어떻게 가능하냐 하면 데이터가 2만 개 이내여야 하는데 다 합해보면 200만 개가 넘어요. 200만 개가 넘는다는 얘기는 그중에 한 거의 2만 개 빼고 200만 개면 얼마입니까? 218만 개는 불필요한 잉여 데이터, 쓸데없는 데이터라는 거 아니에요. 그런데 그걸 제거하면 작업에 들어가면 돼요. 그런데 제거할 수 있는 법령이 없다는 거예요.
[앵커]
그런데 데이터 중복률을 제가 질문을 드렸는데 제 예상으로는 15%, 15BMI.가 아니고 30%, 40% 이렇게 말씀하실 줄 알았는데 그 정도가 아니라는 말씀이십니까?
[문송천]
30, 40이면 B학점 정도로 봐주는 정도인데 우리가 마라톤 선수처럼 진짜 최적의 뛸 수 있는 컨디션을 갖는 몸의 신체구조를 갖는다, 그렇게 되면 마라톤 선수가 한 15%, 15BMI. 그 정도하고 데이터 비만률하고 똑같아요. 아주 희한하리만큼 똑같습니다.
[앵커]
그러면 그 중복률은 최대 몇 퍼센트가 될 수 있는 겁니까, 이론적으로는?
[문송천]
20%를 넘으면 안 됩니다. 그리고 그렇게 하기 위해서 표준형이 나와 있고 데이터를 만들 때는 이렇게 표준화해라. 국제적인 이론이 나와 있고 표준화가 나와 있고, 50~60년 전에 나왔는데 50~60년 전에 나온 데이터 표준화 이론을 안 쓰고 그냥 주먹구구식으로 하고 그런 식으로 정부 시스템이 구성돼 있다고 하면 그걸 만약에 국민들이 알면 정부에 대한 신뢰도가 어떻게 됩니까?
그러니까 정권에 상관없이 지난 30~40년 동안 계속 이렇게 해왔단 말입니다.
[앵커]
아까 서울시가 몇 퍼센트라고 하셨죠, 중복률이?
[문송천]
1만 900% 나옵니다.
[앵커]
그게 100%를 넘어설 수 있는 겁니까, 이론적으로?
[문송천]
말이 안 됩니다.
[앵커]
그렇다면 이게 한마디로 얘기하면 데이터 설계와 관리가 얼마나 엉망으로 되고 있는가, 나타나는 지표로 대표적으로 지금 말씀하시고 있는 것 같은데, 그렇게 데이터 중복률이 높고 불량하게 관리가 된다면 실제 데이터를 활용할 때 어떤 문제가 구체적으로 발생하는 겁니까?
[문송천]
답이 틀리게 나오죠. 왜냐하면 불필요한 것들이 쓸데없이 여러 군데, 성명도 여러 군데 들어가면 홍길동이만 나오는 것이 아니라 홍길동이 김철수로 들어가 있으면 김철수로 나오고. 답이 틀리는 거예요. 그리고 답이 빨리 나오는 건 소용이 없어요. 정확하게 나와야지. 그러니까 우리가 지금 행정 전산망에 내가 접속하려고 한다, 정확히 접속하는 게 문제지 속도가 문제가 아니거든요. 이게 마비될 정도로 느리면 안 되고 3초 이내에 접속하면 그걸 뭐라 그래요? 괜찮다고 하지. 1초 이내에 접속하는 걸 누가 욕합니까?
속도와 효율성뿐만 아니라 나왔다 하면 답은 정확해야지 정확하지 않으면 누군가 책임을 져야 되는데 공직사회에서는 책임지는 사람이 없다. 행정망 사태가 터졌어요. 예를 들어서 카카오톡에서 무슨 사태가, 마비 사태가 일어났다 그러면 정부에다가 카카오에다 손해배상을 하시지 이럴 수 있는데 정부가 잘못한 일을 정부가 정부에게 책임을 집니까? 자기한테 자기가 책임지는 일이 어디 있어요. 그러니까 안 돼요. 안 되는 걸 우리가 알기 때문에 이게 손해배상 문제로 갈 거냐? 안 가죠. 당연히 아는데 어떻게 갑니까.
[앵커]
지금 많은 문제점을 한꺼번에 말씀해 주셔서 이걸 어떻게 우리가 대응해나갈 것인가 궁금하긴 한데, 최근 몇 년 동안에 여러 정부기관에서 이런 전산망 관련 마비 사태라든가 먹통 사태가 굉장히 많이 일어났죠. 문제점도 일어났조. 구체적으로 어떤.
[문송천]
최근 5개월 전에 교육부 시스템에서 이런 일이 있었습니다. 어느 학교 선생님이 자기 학교 중간고사 문제를 검색을 했더니 다른 학교 답안지가 나왔어요. 이것이 일반인들에게는 컴퓨터가 어떻게 그런 답을 내냐고 이럴 수 있을지 모르지만 저는 어떤 수순으로 그게 가능한지 길을 알아요. 보인다고요, 제 눈에는. 그러면 그렇게 설계되고 했다고 하면 데이터 품질의 품자도 안 지킨 거죠.
데이터 품질을 안 지키면 별의별 불상사가 다 일어날 수가 있고 감춰져 있던 지하실에 있던 것들이 수면 위로 올라와서 이번 행안부 사태처럼 사건 사고로 터지는 것입니다. 그러니까 교육부만이 아니라 보건복지부, 법무부, 국방부, 다 있어요. 그런데 이것이 빙산의 일각처럼 나온 거죠. 그래서 빙산의 일각처럼 나왔다는 것을 정부가 만약에 인지한다면 이건 그냥 넘어갈 수 있는 일이 아니다, 이렇게까지 가야 되는데 여러 가지 법제도적인 문제 때문에 거기까지 안 가는 게 유감입니다.
[앵커]
IT 강국이라는 대한민국. 우리 데이터 환경의 민낯을 보게 되는 것 같은데 그렇다면 왜 이런 문제점이 계속 누적되고 방치된 상태로 가는 걸까요?
[문송천]
지금 IT 기술을 생활 속에 극대로 활용하는 쪽에서는 행안부나 서울시나 굉장히 앞서 있고 그 부분에서는 OECD와 UN의 평가를 받고 항상 매년 1, 2, 3위를 하고 있어요. 그런데 우리가 인생에서 삶의 질이 중요하지, 수입과 내가 무슨 자동차 타고 다니는 것이 중요하지 않듯이 국가의 질은 데이터의 질로 평가됩니다.
국가의 경쟁력이 아니고 국가의 질은 그 나라에서 어떤 데이터를 다루느냐. 데이터 질에 의해서 결정되는 거예요. 우리 삶의 질과 같은 것이기 때문에 이건 정량화하기도 힘들고 우선 피부로 느끼는 게 있어야 돼요. 우리가 삶의 질이 좋아졌다, 이런 게 있어야 되는데 정부가 우리나라 국가의 데이터 질이 좋아졌다 하는 체감할 수 있는 노력을 해야 한다는 거죠.
[앵커]
그렇다면 그런 문제점들을 행정당국이나 아니면 지자체나 각 기관의 책임자라든가 담당자들이 인지하고 있다고 보십니까?
[문송천]
네, 저는 인지하고 있다고 보고요. 왜 인지했냐면 정부 각 부처나 각 지자체에 디지털혁신관이라는 게 다 있습니다. 데이터혁신관의 임무는 그걸 인지하는 데 있어요. 인지 못하는 혁신관은 저는 하나도 없다고 보는데 그 혁신관 중에는 컵에 물이 절반 남은 걸 보고 이제 이건 내가 고쳐야 되겠다, 이렇게 생각하는 사람이 있고 어떤 사람은 절반밖에 안 남았는데 뭘 고쳐, 그냥 넘어가지, 이런 혁신관의 대조적인 면이 극명하게 드러나는 걸 볼 때 우리가 정말 그런 일은 있어서는 안 된다. 어떻게 하든지 노력하는 쪽으로 나가야지 그거 왜 해 이런 사람이 혁신관으로 있다고 하면 그 사람이 혁신의 아이콘입니까? 혁신을 방어하는 방어관이지.
[앵커]
지금 말씀을 들어보면 사실 전반적으로 우리 데이터 환경, 데이터 구축 체계가 불량하게 관리가 돼 있고. 설계도 잘못돼 있다. 그 말이 맞다면 지금 우리가 인공지능 시대라고 합니다마는 사실 아무리 좋은 컴퓨터나 좋은 소프트웨어나 인공지능이라고 하더라도 거기에 투입되는 자료가 잘못돼 있으면 결과가 잘못 나오는 것 아니겠습니까?
[문송천]
데이터 품질이 엉터리면 AI가 갖다 쓰는 데이터가 엉터리기 때문에 AI의 결과도 엉터리고. AI는 지금 이미지 분석이나 영상 분석하는 데는 기가 막힌 역할을 해요. 그런데 기업에서 이미지 분석하고 영상 분석하는 업무가 어디 있어요. 다 문서 업무, 행정 업무지. 거기서는 AI가 할 부분이 없다고요. 지금 식으로 데이터가 품질 개선이 안 된다면. 개선하면 물론 AI가 세상을 혁신할 수도 있죠.
[앵커]
시간은 거의 다 됐는데요. 한 가지만 더 질문을 드리면 그러면 데이터 품질을 개선하고 설계를 정확하게 하고 잘 관리하기 위해서는 관련 인력도 잘 육성을 해야 될 것 같은데 어떻게 육성되고 있습니까?
[문송천]
데이터 품질학과가 없듯이 지금 데이터 사이언스 학과가 있다고 합니다마는 그건 빅데이터, 이렇게 데이터 분석하는, 수학적 분석하는 학과지 데이터 품질을 전혀 다루지 않거든요. 데이터 품질 학과를 만드는 이런 움직임으로 나간다고 하면 우리나라가 세계 최초의 디지털 선진국이 될 수가 있습니다.
그냥 미국, 영국에서 어떻게 하나 보고 초등학교에서 코딩 가르치니까 우리도 가르쳐야지 이런 따라가는 식으로 계속하다가는 디지털 시대에 진짜 앞서나갈 수 없는, 대통령께서 말씀하시는 디지털 장전, 이런 말씀을 가끔 하지 않으셨습니까? 거기서 세계 다른 나라들이 한국을 봐라, 이런 데이터 품질에 대해서 신경 쓰는 나라가 있구나, 이런 앞장서는 모습을 보인다면 우리나라 전체 질이 격상되지 않는가 저는 그렇게 생각합니다.
[앵커]
알겠습니다. 이게 어떤 전문적인 한 분야의 얘기가 아니고 우리 삶의 질 그리고 국가 경쟁력의 문제일 것 같기도 한데 오늘 하신 말씀 잘 우리가 고민을 해 봐야 될 것 같습니다. 문송천 카이스트 경영대학원 교수와 함께했습니다. 고맙습니다.
※ '당신의 제보가 뉴스가 됩니다'
[카카오톡] YTN 검색해 채널 추가
[전화] 02-398-8585
[메일] social@ytn.co.kr
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]