본문 바로가기
Data Shit

데이터 사이언티스트에 대한 단상 (feat. 현업에서 본)

by 아비투스 2023. 11. 13.
반응형

 

 최근에 핫했던 직업이 있다면 '데이터 사이언티스트'일 것이다. 미국에선 21세기의 가장 핫한(Sexist job) 직업으로 불리기도 한다. 데이터 개발자나 분석가도 아니고 '과학자가?' 많은 사람들의 관심과 궁금함을 일으키기에 충분했다. 

  이미 다양한 자료에서  데이터 사이언티스트의 정의와 하는 일, 그리고 필요 스킬셋에 대해서는 자세히 나와 있으니 현업에서 바라본 데이터 사이언티스트(이하 '데싸')의 현실에 대해서 이야기하고자 한다. 

 

 참고로 필자는 현역 데이터 사이언티스트는 아니다. 굳이 글 주제에 맞게 분류하자면 '씨티즌 데이터 사이언티스트' 경험이 있는 (커머스)서비스 기획자 라고 하는게 맞다. 데이터 사이언티스트 전체에 대한 이야기가 아닌 필자가 개인적으로 겪은 제한적인 경험임을 참고해주길 바란다. 

  글 주제와 맞는 필자의 백그라운드와 주요 스킬셋은 아래와 같다. 

 

  • 기초적인 R 활용 
  • EDA (데이터 탐색)
  • 데이터 표준화 
  • Domain Knowledge
  • 기초적인 모델링 지식 (랜덤 포레스트 등)
  • 데이터 시각화
  • Data Warehouse 나 Lake 아키텍처, BI (Power BI) 활용 등 
  • 소속 기업 그룹 주관 데이터 사이언스 심화 교육 이수  

  나열해 놓으니 그럴싸한 스킬셋같지만, 겉할기식으로 경험한 얕은 지식이다. 얕게나마 위 경험을 통해 '아 데싸가 이런일을 하는구나' 와 '이런 과제를 해결할 수 있구나' 정도를 알게 되었는데 덕분에 근무하던 직장에서 데이터 사이언스 관련 프로젝트 PM 직무를 수행하며 외부 전문가 (실제 데싸)들과 협업할 수 있는 기회가 있었다. 

 

 다시 한 번 말하지만, 필자가 근무시 느꼈던 제한적이고 개인적인 경험을 이야기하는 것이니 참고만 해주시길 바란다.  그럼 현업에서 바라본 데이터 사이언티스트의 현실 본론으로 들어가자. 

 

출처 : decube.

1. 첫 경력이 데이터 사이언티스트인 경우는 매우 드물다. 

  많은 교육 기관에서 데이터 사이언티스트 관련 전공(통계학 등)을 공부하면 고연봉으로 좋은 기업에 바로 취업할 수 있다며 홍보한다. 하지만, 실제 기업에서 신입 데이터 사이언티스트를 채용하는 경우는 0%에 가깝다. 이미 시장에서 높은 몸 값을 받고있는 데싸들은 어느정도 다른 직군에서 경험이 있다가 데싸로 직군을 피벗한 경우가 많다. 데이터 사이언스 관련 석사나 박사 학위가 있다고해도 관련 인더스트리에서 실무 경험이 없다면 좋은 기회를 얻기엔 제한적일 수 있다. 정책 연구기관이나 비영리 기관이 아닌 일반 기업에서는 거의 비슷한 분위기일듯 하다.  

  설령 첫 커리어를 운좋게 데이터 사이언티스트로 시작한다고해도 그게 행운인지는 모르겠다. 아래 내용을 보자. 

   

2. 데이터나 도메인 지식을 모르는 경우 

 기업에는 정말 많은 데이터가 하루에도 테라 단위로 쌓이기도 한다. 필자가 근무했던 기업도 데이터 필드값만 1만개가 넘는다. 테이블 정의서가 기록유지되고 있지만 조금만 OUT DATE 되어도 쓰기 쉽지 않다. 불친절한 설명은 덤이다. 막상 찾고자 하는 필드값을 찾았다해도 까보면 데이터의 품질은 Garbage일 확률이 99%이다. 데이터 안에는 중복된 데이터, 결측 데이터등 표준이 없는 경우가 많다. 색상과 관련된 필드값만 몇십개에 달하고 여기서는 RED, 저기서는 '빨강' 으로 텍스트로 적재되고 있는 경우가 많다. 

  무엇보다 이 데이터가 어디서 쌓였고 누가 어떻게 쓰는지에 대해서 잘 알기가 어렵다. 현업에서 이 데이터를 어떻게 사용하고, 어떻게 해석하는지, 어떤 가려움이 있는지에 대해서도 소통이 어렵다. 왜냐면 현업은 현업대로, 현업의 요청을 받아서 개발해준 개발자는 개발자대로 각자 파편화된 이야기를 할 수 밖에 없기 때문이다. (그래서 데이터 표준에 관련한 지식이 있는 기획자가 경쟁력이 있다.) 더군다나 매년 이런 개선사항을 도출하기 위해 PI 부서의 요청으로 긴 시간 인터뷰 했지만 달라지는게 크게 없었을 것이다. 협조적이기 힘든데다 데이터를 잘 쌓는다 한들 당장 현업 입장에서 좋아지는 것이 없다. CDO정도 되는 C레벨 임원이 힘을 가지고 밀어 붙히지 않는 이상 조직 전체적으로 데이터에 대한 개선 함의가 있기는 어렵낟. 

  이런 적대적인 환경에서 신입 '데이터 사이언티스트'가 짜잔하고 등장한다고 한들, 할 수 있는것이 많지가 않다. 

 

 

3. 당연히도 SQL과 R(혹은 파이선)은 필수 

  자, 데이터를 구하기도 힘들고 현업의 도메인 지식도 알 수 없지만 개발자와 현업 실무자의 바짓가랭이를 붙잡고 늘어지는 헝그리 정신으로 모든 난관을 통과했다고 가정하자. 비로소 개선과제를 도출했고 어떤 데이터를 쓰는지도 파악했다. 다음 단계로는 데이터 탐색과 추출이다. IT기반 DNA가 있는 플랫폼기업은 이미 아마존이나 구글 클라우드 기반의 데이터 추출 솔루션이 구축되어 있을것이다. 게다가 추출한 데이터를 모델링 해보고 머신러닝까지 단박에 되는 솔루션도 있을것이다. 하지만 제조사나, 커머스 같은 국내 일반 기업의 경우엔 일단 DB접근을 위한 결재, 보안 점검, 망분리 등 정책적인 허들을 마주할 것이다.  왜 DB에 접근해야 하냐며 개발자 + 보안 담당자가 실눈을 치켜뜨고 심문할 것이다. 다행이 CDO의 지원 사격으로 정책적인 허들을 넘었다고 하자. 그럼 마주치는 것은 오라클 오렌지 같은 다소 투박한 DB툴일 것이다.

  SQLD 자격증을 따며 공부했던 쿼리문을 떠듬떠듬 날려가며 데이터를 추출해보지만, 앗차.. 이 필드값이 아니다. 엇.. 이건 왜 비어있지? 중간중간 NULL이 아니라 0이있네... 성별에 왜 Female도 있고 여성도 있지... 이런 지지부진한 과정을 겪게된다. 

  데이터 추출과 데이터 표준화를 마무리했다고 한다면, R이나 파이선으로 이제부터 본 게임을 시작할 수 있다. 테스트 데이터와 학습 데이터를 나누고, 적합한 모델을 설정하면서 돌려 보았더니 드디어 보석같은 결과값과 인싸이트가 도출되었다. 

  무려 의류 상품의 반품율을 0.3%나 개선할 수 있는 옵션별 최적 재고 (S&OP)  예측 모델이라던지 특정 환경에서 89%의 정확도나 보이는 매출을 예측할  수 있는 모델링을 개발했다. 최근 학회에서 가장 정확도가 높은 모델을 적용하기까지 했다. 보석을 캐냈다는 생각이든다. 뿌듯하다.   

 

4. 막상 현업에서 어떻게 쓸 줄 모른다. 

  그렇게 나온 진주를 들고 현업으로 뛰어갔다. 회사의 문제였던 많은 문제들이 해결되며 매출이 상승하고 비용이 절감되는 드라마틱 효과가 나올것이다. 하지만 현업의 반응은 시큰둥하다. 시스템에 내재화 되지 않았기 때문에 매번 엑셀이나 CSV로 데이터를 뽑아서 (이것도 요청해서) 모델을 돌려야 한다. 여간 복잡한게 아니다. 데이터의 효용은, 바로 사용이 가능할 때 있다. 데이터 사이언티스트 홀홀 단신으로는 이런 싸이클을 이뤄내기 어렵다. 기업에서 사용하는 레거시 시스템에 모델링을 녹여낼 수 있는 개발 조직과 협업하는 것이 중요하다.

  개발 조직을 설득해서 레거시 시스템에 녹여냈다고 하자. 정확도가 89%인 예측 시스템과 반품율을 0.3% 정도 개선하는 모델링을 도출하는 것에 대해 100번 설명해도 현업은 시큰둥하다. 100%가 아닌 89%의 예측 정확도를 어디에 쓰며 반품 0.3% 이 무슨 의미가 있냐는 것이냐. 차라리 엑셀 돌리고 반품율 계산할 시간에 노출 구좌를 늘려서 매출을 더 뽑아내는게 이득이다. 무엇보다 예측이 무슨 의미냐는 것이다. 

  실제로, 현업은 이런 머리 아픈 일을 싫어한다. 300개의 상관계수가 높은 변수를 학습시켜 뽑아낸 모델이라고 한들 MD들이 믿고 있는 자신의 직감.. 그 외에는 모두 헛소리가 될 가능성이 크다. 모델이고 변수고 알고 싶지 않고 당장 매출에 도움되는게 중요하다. 모델보다는 마케터가 발급하는 쿠폰 한장이 더 소중하다. 

 

5. 기대하는 바는 크지만, 바뀌는 바는 크지 않을 것이다. 

  그렇게 청연의 꿈을 안고 입사한 신입 데싸는 현실에 물들어간다. 기업에서 높은 몸 값을 주며 데싸를 서로 모셔가려 전쟁을 하던 때가 있었다. 슈퍼 노트북 한대만 들고 다니며 각종 데이터 분석 프로젝트에 프리랜서로 업무를 하는 돈키호테 같은 노년의 데이터 사이언티스트가 있다는 도시전설도 들려왔다. 하지만 현업에서 기대하는 슈퍼맨 같은 데이터 사이언티스트와 실제 데이터 사이언티스트의 벽은 높다. 반대로 데이터 사이언티스트가 상상했던 현업의 모습도 매우 실망적일것이다. 데싸가 보는 현업은 어렵고 머리아프다며 징징대는 어린아이 같다. 같은 곳을 바라보지만 꾸는 꿈은 다른 동상이몽이다. 

 

 

그래서, 안 좋은거야? 데싸?

 

  너무 현실적이고 비관적인 이야기도 했지만, 필자가 만나본 데이터 사이언티스트중엔 매우 역량있고 성공적으로 커리어를 쌓아가는 분들도 계셨다. 이 분들의 공통적인 부분이 있다고 한다면 대부분이 백엔드 개발자 출신이었다. 백엔드 개발자로 커리어를 시작해 현업 요청으로 매일 데이터 뽑는다. BO 개발을 하며 데이터도 쌓는 설계도하고, 데이터 조회가 느린 BO에서 쿼리 튜닝도 해본다. 그렇게 도메인 지식을 쌓았다. 그러다가 모델에 대해서 관심을 가지고 통계학적인 부분도 조금 공부하고 문제점도 알다보니 어느덧 모델링을 하는 자신의 모습을 발견하는 자연스러운 과정을 거쳐 데싸로 거듭난다. 

  

  다시 한 번 말하지만, 필자의 개인적인 경험에 기반한 소수의 이야기다. 반도체 제조사나 플랫폼 기업에서는 0.1% 수치 개선 하나만으로 엄청난 비용 절감 효과가 있다고 하니 그런 도메인에서는 데이터 사이언티스트가 저마다의 날개를 활짝 피고 있을 것이다. 

  하지만, 어떤 기업에서는 데이터 사이언스를 어떻게 활용하거나 어떻게 육성해야 되는지도 모르는 경우도 있다. 글을 보시는 분 중에 혹시 데이터 사이언티스트 커리어를 키워나가고자 한다면, 더군다나 첫 커리어의 시작을 데이터 사이언스 분야에서 시작하고자 한다면 '이러한 현실도 있구나' 하며 참고하면 좋겠다. 특히 너무 과도한 홍보나 거품 (특히 미국 데이터 사이언티스트의 VLOG 같은...) 에 현혹되지 않고 진정 데이터 사이언티스트가 되어가는 과정에서 즐거움을 얻을 수 있다면, 그것만으로도 충분히 도전할 가치가 있는 직군이라고 생각한다. 무엇보다 작은 향상심을 항상 가지고 현재의 문제를 조금씩 개선하다보면 어느순간 원하는 곳에 와있지 않을까 한다. 

  

  

 

반응형

댓글