책 이미지

책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 자료구조/알고리즘
· ISBN : 9791197301001
· 쪽수 : 252쪽
· 출판일 : 2020-12-30
책 소개
목차
제 1부 데이터 엔지니어링
1. 왜 데이터 엔지니어링인가?
2. 데이터를 바라보는 새로운 시각
2.1 데이터 웨어하우스에서 데이터 레이크로
3. 데이터 엔지니어링
3.1 빅데이터 환경에서 데이터 엔지니어의 역할
3.2 데이터 엔지니어와 DataOPS
3.3 데이터 사이언티스트와 데이터 엔지니어
3.4 데이터 엔지니어링의 기능
4. 데이터 엔지니어링 솔루션
4.1 데이터 엔지니어링 솔루션의 구성
4.2 데이터 수집 인터페이스
4.3 데이터 처리 프레임워크
4.4 데이터 파이프라인
4.5 데이터 저장소
4.6 데이터 외부 연동 인터페이스
4.7 시스템 관리, 구성 플랫폼
제 2부 데이터 엔지니어링, 로그프레소를 만나다
5. 파이프라인의 시작과 끝
5.1 실시간 수집 인터페이스
5.2 외부 전송 인터페이스
6. 데이터 파이프라인과 쿼리
6.1 실시간을 품은 유니버설 쿼리
6.2 실시간 스트림 데이터 파이프라인
6.3 배치 처리 기반의 데이터 파이프라인
6.4 ETL 기반의 데이터 파이프라인
6.5 데이터 분석과 파이프라인
7. 데이터 저장소
7.1 데이터 엔지니어의 숨은 무기
7.2 검색 작업
7.3 집계 작업
7.4 데이터 샌드박스
8. 데이터 엔지니어링의 툴킷
8.1 실시간 대시보드
8.2 외부 시스템 확장
8.3 클라우드에서의 적용
저자소개
책속에서
데이터 엔지니어링은 어떤 데이터를 어떻게, 어디로 움직이고, 어떤 역할을 하도록 정의하는 등의 설계 및 작업에 관련된 대부분의 행위들을 의미한다. 전통적으로 ETL 엔지니어들이 이러한 역할들을 수행하기도 했으나 데이터 엔지니어링은 빅데이터 기반에서 데이터 사이언티스트는 물론 데이터를 필요로 하는 사람들 모두와 협업을 진행하게 된다. 이런 차원에서 데이터 엔지니어링은 빅데이터로 촉발한 트렌드가 성숙하면서 자연 발생적으로 생겨나게 된 영역이라고 할 수 있다.
DataOps는 DevOps에 대응하여 나온 용어로 개발자가 개발과 운영을 상호 협의를 통해 빠르게 적용하는 것처럼 데이터 엔지니어가 데이터의 모든 처리, 적응 작업을 협업을 통해 빠르게 진행하자는 정도로 이해하면 될 것이다. 여기서 눈 여겨 볼 지점은 두 가지로 하나는 데이터 처리는 운영과 개발이 유리될 수 없음을 의미하는 것과 또 다른 하나는 이 과정은 계속해서 반복한다는 의미가 있다.
데이터 파이프라인은 데이터 수집에서 데이터의 최종 목적지까지 데이터를 이동, 변형하는 전 단계를 의미한다. 데이터 파이프라인은 그 필요에 따라 실시간 스트리밍 방식의 처리, 스케줄링 처리, ETL 방식의 처리가 있는데 데이터 엔지니어는 데이터의 활용 목적에 따라 적절한 방식으로 데이터 파이프라인을 구성해야 한다.