카프카 핵심 가이드

책 이미지

eBook 미리보기

책 정보

· 제목 : 카프카 핵심 가이드 (실시간 데이터와 스트림 프로세싱)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 개발/방법론 > 데이터베이스 프로그래밍 > 데이터베이스 구축
· ISBN : 9791188621330
· 쪽수 : 356쪽
· 출판일 : 2018-10-25

책 소개

카프카를 개발한 컨플루언트와 링크드인의 엔지니어들이 직접 저술한 카프카 구축과 운영 핵심 실무서. 카프카를 이해하기 위해 반드시 알아야 할 내용이 가득한 실용적인 안내서이며, 카프카의 아키텍처 및 내부 프로세스에 대한 전반적인 내용을 다루고 있다.

CHAPTER 1 카프카 훑어보기 __1
메시지 발행과 구독하기 ...... 2
카프카 살펴보기 ...... 4
카프카를 사용하는 이유 ...... 10
데이터 생태계 ...... 12
카프카의 기원 ...... 15
카프카 시작하기 ...... 17

CHAPTER 2 카프카 설치와 구성하기 __ 19
제일 먼저 할 일 ...... 19
카프카 브로커 설치하기 ...... 23
브로커 구성 ...... 25
하드웨어 선택 ...... 31
클라우드에서 카프카 사용하기 ...... 33
카프카 클러스터 ...... 34
실제 업무 사용 시 고려사항 ...... 40
요약 ...... 43

CHAPTER 3 카프카 프로듀서: 카프카에 메시지 쓰기 __ 45
프로듀서 개요 ...... 46
카프카 프로듀서 구성하기 ...... 48
카프카에 메시지 전송하기 ...... 51
프로듀서 구성하기 ...... 54
직렬처리기 ...... 58
파티션 ...... 66
구버전의 프로듀서 API들 ...... 69
요약 ...... 69

CHAPTER 4 카프카 컨슈머: 카프카에서 데이터 읽기 __ 71
카프카 컨슈머의 중요 개념 ...... 71
카프카 컨슈머 생성하기 ...... 77
토픽 구독하기 ...... 78
폴링 루프 ...... 79
컨슈머 구성하기 ...... 81
커밋과 오프셋 ...... 85
리밸런싱 리스너 ...... 92
특정 오프셋을 사용해서 레코드 소비하기 ...... 95
어떻게 폴링 루프를 벗어나야 할까? ...... 98
역직렬처리기 ...... 100
독자 실행 컨슈머: 그룹 없이 하나의 컨슈머만 사용하는 이유와 방법 ...... 104
구버전의 컨슈머 API들 ...... 105
요약 ...... 106

CHAPTER 5 카프카 내부 메커니즘 __ 107
클러스터 멤버십 ...... 107
컨트롤러 ...... 109
복제 ...... 110
요청 처리 ...... 112
스토리지 ...... 120
요약 ...... 128

CHAPTER 6 신뢰성 있는 데이터 전달 __ 129
신뢰성 보장 ...... 130
복제 ...... 131
브로커 구성 ...... 132
신뢰성 있는 시스템에서 프로듀서 사용하기 ...... 137
신뢰성 있는 시스템에서 컨슈머 사용하기 ...... 141
시스템 신뢰성 검사하기 ...... 146
요약 ...... 149

CHAPTER 7 데이터 파이프라인 구축하기 __ 151
데이터 파이프라인 구축 시 고려사항 ...... 152
카프카 커넥트 vs. 프로듀서/컨슈머 ...... 158
카프카 커넥트 ...... 159
카프카 커넥트의 대안 ...... 175
요약 ...... 176

CHAPTER 8 크로스 클러스터 데이터 미러링 __ 179
크로스 클러스터 미러링의 이용 사례 ...... 180
다중 클러스터 아키텍처 ...... 181
아파치 카프카의 미러메이커 ...... 194
다른 크로스 클러스터 미러링 솔루션 ...... 204
요약 ...... 207

CHAPTER 9 카프카 관리하기 __ 209
토픽 작업 ...... 209
컨슈머 그룹 ...... 215
동적 구성 변경 ...... 220
파티션 관리 ...... 224
메시지 읽기와 쓰기 도구 ...... 233
클라이언트 ACL ...... 240
안전하지 않은 작업 ......
요약 ...... 243

CHAPTER 10 카프카 모니터링 __ 245
메트릭 개요 ...... 245
카프카 브로커 메트릭 ...... 248
클라이언트 모니터링 ...... 270
지연 모니터링 ...... 278
End-to-End 모니터링 ...... 279
요약 ...... 280

CHAPTER 11 스트림 프로세싱 __ 281
스트림 프로세싱이란? ...... 282
스트림 프로세싱 개념 ...... 285
스트림 프로세싱 디자인 패턴 ...... 291
카프카 스트림즈 사용 예 ...... 300
카프카 스트림즈: 아키텍처 오버뷰 ...... 309
스트림 프로세싱 이용 사례 ...... 313
스트림 프로세싱 프레임워크 선택하기 ...... 315
요약 ...... 316

APPENDIX 다른 운영체제에 카프카 설치하기 __ 317
윈도우 시스템에 설치하기 ...... 317
맥OS에 설치하기 ...... 322

저자소개

네하 나크헤데 (지은이) 정보 더보기

현재 아파치 카프카를 전문으로 서비스하는 컨플루언트(Confluent)의 공동 창업자이자 CTO다. 이전에는 링크드인(Linkedln)에서 아파치 카프카와 삼자(Samza) 기반의 스트리밍 기반 인프라스트럭처 구축을 담당하였다. 또한 대규모 분산 시스템 구축 및 확장 전문가이며, 아파치 카프카 초기 개발자 중 한 사람이다. 과거에는 오라클에서 데이터베이스 검색 관련 일을 하였으며, 조지아 공과대학교의 컴퓨터공학 석사 학위를 갖고 있다.

펼치기

네하 나크헤데의 다른 책 >

그웬 샤피라 (지은이) 정보 더보기

컨플루언트의 제품 담당 책임자이자 아파치 카프카 프로젝트의 PMC 멤버다. 아파치 플룸(Flume)과의 통합에 공헌하였고, 아파치 스쿱(Sqoop)의 커미터이기도 하다. 15년간의 확장 가능한 데이터 아키텍처 구축 경험이 있으며, 이전에는 클라우데라(Cloudera)의 소프트웨어 엔지니어, Pythian의 선임 컨설턴트, 오라클 ACE 이사, NoCOUG의 임원을 역임하였다.

펼치기

그웬 샤피라의 다른 책 >

토드 팔리노 (지은이) 정보 더보기

링크드인의 수석 엔지니어이며, 링크드인에 대규모로 구축된 아파치 카프카와 주키퍼 및 삼자 시스템의 운영 및 유지 관리를 맡고 있다. 또한 모니터링 시스템의 생성을 포함해서 아키텍처, 시스템 운영, 도구 개발 책임도 담당하고 있으며, 오픈 소스 프로젝트 버로우와 카프카 컨슈머 모니터링 도구의 개발자이기도 하다.

펼치기

토드 팔리노의 다른 책 >

심재철 (옮긴이) 정보 더보기

20년 넘게 프로그래머로 활동하면서 데이터베이스 및 애플리케이션 개발 등에 참여했다. 현재는 프리랜서로, 프로그래밍/데이터베이스/모바일 시스템 관련 컨설팅과 번역을 하고 있다. 새로운 테크놀로지와 다양한 프로그래밍 언어를 실무에 활용하고 가르치는 것을 좋아한다. 저서로는 《핵심만 골라 배우는 코틀린 프로그래밍》이 있으며, 번역서로는 《소프트웨어 요구사항의 정수》, 《소프트웨어 개발의 진주》, 《실무에 바로 적용하는 안드로이드 프로그래밍》, 《스프링 인 액션》, 《카프카 핵심 가이드》 등이 있다.

펼치기

심재철의 다른 책 >

책속에서

데이터를 처리하기 위해 구축한 환경에는 많은 애플리케이션이 있다. 그리고 데이터를 생성하는 애플리케이션에 맞춰 입력 형식이 정의되며, 메트릭, 리포트 등으로 출력 형태가 정의된다. 또한, 특정 컴포넌트를 사용해서 시스템의 데이터를 읽은 후 다른 소스에서 받은 데이터를 사용해서 변환시킨다. 그다음에 어디서든 사용될 수 있도록 최종 데이터를 데이터 기반 구조에 전달한다. 이런 작업은 고유한 콘텐츠와 크기, 용도를 갖는 다양한 유형의 데이터로 처리된다. 이것이 메시지 데이터의 처리 흐름이다.

브로커가 커밋 요청에 응답할 때까지 애플리케이션이 일시 중지된다는 것이 수동 커밋의 한 가지 단점이다. 이로 인해 애플리케이션의 처리량을 제한하게 된다. 물론 커밋을 자주 하지 않으면 처리량이 증가될 수 있다. 그러나 리밸런싱으로 인해 생기는 중복 처리 레코드의 수가 증가한다.

이처럼 역할을 분리하는 것이 커넥트 API 사용 시의 장점이며, 이것이 종래의 컨슈머/프로듀서 API와는 다른 점이다. 카프카로부터 데이터를 읽어서 데이터베이스에 추가하는 코드를 작성하려면 대략 하루나 이틀 정도 걸리지만, 구성, 에러, REST API, 모니터링, 배포, 규모 확장/축소, 장애 등을 모두 처리하려면 수개월은 족히 소요된다는 것을 경험 있는 개발자라면 알 수 있을 것이다. 그러나 커넥터를 사용해서 데이터 복사를 구현할 때는 그런 복잡한 작업을 해주는 작업 프로세스에 우리 커넥터를 연결하면 된다.