https://towardsdatascience.com/machine-learning-science-or-alchemy-655bea25b227
Machine Learning: Science or Alchemy?
Scientific rigor in an empirical field starts with the hypothesis
towardsdatascience.com
머신러닝과 딥러닝은 2010년대 가장 혁신적인 기술이라고 해도 과언이 아니라고 생각합니다.
2016년, 이세돌 9단과 Google Deepmind의 알파고의 대국을 통해 딥러닝에 대해 처음 알게 된 분들이 많았습니다. 저도 마찬가지구요.
2023년에는 Open AI의 ChatGPT의 등장으로 또 한번 세상이 들썩이고 있는 것 같아요.
위 칼럼은 제가 데이터 분석에 대해 처음 입문할 당시 읽었던 칼럼입니다.
머신러닝과 딥러닝 모델링을 하시는 실무자들이나 혹은 입문 단계를 막 벗어난 분들이 한번쯤 생각해봤을 법한 내용입니다.
머신러닝과 딥러닝은 흔히 데이터셋을 훈련 세트와 테스트 세트(+ 평가 세트)로 자료를 나눈 후에, 모델에 훈련 세트를 학습시켜 테스트 세트를 통해 모델을 평가하는 방법을 사용합니다.
실무에서, ML/DL 엔지니어 분들은 정확도를 높이기 위한 다양한 모델 학습 방법을 고안하고 적용하는 데에 힘쓰고 계시죠.
하지만, 모델링을 하면서 이런 생각이 들 수 있을 것 같습니다.
왜 정확도가 높게 나왔지?
칼럼 제목에 적힌 질문에 대한 정답은 없는 것 같습니다.
저 또한 생각이 명료하게 정리되지 않아 글을 어떻게 마무리해야 할 지도 감이 오지 않네요.
만약, 좋은 의견이 떠오르면 업데이트를 하겠습니다
과거에 칼럼을 이미 읽으셨거나, 이번 기회에 읽게 되신 분이 있다면,
다양한 의견을 댓글로 남겨주시면 감사하겠습니다.
용어 정리
HARKing : (Hypothesis After Results are Known) 결과를 도출한 후에, 이를 설명하는 가설을 만드는 방법
'데이터분석가 > 데분당태 블로그챌린지' 카테고리의 다른 글
통계학이 제품 분석의 실제 도구가 되는 과정 (0) | 2023.04.29 |
---|---|
데이터 분석가 면접 보러가서 내가 해봤던 질문 14가지 (0) | 2023.04.28 |
의심 많은 데이터 분석가가 지표를 볼 때 하는 생각들 (0) | 2023.04.27 |
시계열 데이터 교차검증 방법 9가지 (0) | 2023.04.26 |
목적 조직에서의 DA가 하는일 (0) | 2023.04.25 |
댓글