책소개
Data Lake의 실체를 밝힌다!
데이터 웨어하우스의 시대가 가고 Data Lake의 시대가 옵니다. 기업의 모든 구성원이 Data Scientist를 꿈꿉니다. 빅데이터는 Data Scientist만의 전유물이 아닙니다. 모든 구성원이 빅데이터를 활용할 수 있어야만 치열한 전쟁터에서 살아남을 수 있습니다. 이제는 전 사원이 빅데이터를 활용하여 업무를 혁신해야 합니다. 이를 가능하게 하는 것이 바로 Data Lake입니다. 기업은 Data Lake에 과감한 투자를 해야 하는 시점이 왔습니다. Data Lake가 “데이터 늪”이 되지 않기 위해서는 반드시 이 책을 읽어야 할 것입니다.
저자소개
경영/IT 컨설턴트, Data Lake 연구가
1999년 S/W 개발자로 커리어를 시작하여, 15년 이상 경영 컨설턴트와 IT 컨설턴트로서 업무를 수행해 왔습니다. 주로 IT 전략 기획 업무를 수행하였으며, 최근에는 빅데이터 전략, 데이터 플랫폼 전략, Data Lake 프로젝트 수행과 관련 문헌 작성에 전념하고 있습니다.
학력
- 경남과학고등학교 졸업
- KAIST 기계공학과 학사
- KAIST 경영대학원 경영정보 MBA
주요 경력
- 시스템 엔지니어 ( LG CNS )
- ?경영/IT 컨설턴트 ( A.T. Kearney / (전)밸텍컨설팅 / 딜로이트컨설팅 )
주요 저서
《차세대 빅데이터 플랫폼 Data Lake》, 좋은땅, 2021.
목차
머리말
왜 이 책을 쓰게 되었는가? 005
이 책은 어떤 내용을 담고 있는가? 006
이 책은 어떤 사람들을 대상으로 하는가? 008
내용상의 한계점 010
감사의 말 011
제1장 Introduction
1. 데이터 분석 플랫폼 발전 과정 021
2. Data Lake 구축 방식 선정 023
3. Data Lake 추진 로드맵 수립 025
4. Data Lake 아키텍처 설계 026
5. Data Lake 플랫폼 활용도 향상 032
6. Data Lake 거버넌스 033
7. Data Lake 추진 조직 036
제2장 Data Lake란 무엇인가?
1. Data Lake의 개념 041
2. Data Lake의 기원 044
3. Data Lake vs. Data Warehouse 045
4. Data Lake vs. 빅데이터(Hadoop) 플랫폼 053
5. Data Lake vs. Data Puddle/Pond 055
6. Data Lake vs. Data Swamp 059
7. Data Lake의 지향점 061
제3장 Data Lake는 어떻게 구축해야 하는가?
1. Data Lake 구현 방식: On-Premise vs. Cloud 065
2. Data Lake 구축 로드맵 070
3. Data Lake 목표 아키텍처 082
4. 데이터 수집 Layer 085
5. 데이터 적재 Layer 092
6. 데이터 제공 Layer 096
7. 데이터 서비스 Layer 100
1) 데이터 검색 104
2) 데이터 Context 이해 112
3) 데이터 확보 120
4) 타 서비스 연계 123
8. Data Catalog 솔루션 127
제4장 ?Data Lake를 잘 활용하기 위한
방안은 무엇인가?
1. Data Lake의 타깃을 일반 사용자로 할 것(UI/UX 측면) 133
2. 기존 사용자들이 많이 활용하는 도구와 연계 138
3. 데이터 큐레이션의 우선순위화 140
4. 게임화(Gamification)의 도입 142
5. 빅데이터 과제와 연계 추진 145
6. 전사적 전환(Transformation) 프로그램 146
제5장 Data Lake 거버넌스
1. 데이터 품질 관리 155
2. 보안 관리 157
3. 데이터 수명 주기 관리 162
결론
향후 발전방향 170
1) 데이터 중복의 최소화 170
2) 별도의 Data Hub? 172
3) ‘지식관리(KM)’와의 통합 173
4) 온라인 서비스 플랫폼에의 적용 174
참고문헌 176