책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 컴퓨터 공학 > 소프트웨어 공학
· ISBN : 9791161759791
· 쪽수 : 584쪽
· 출판일 : 2026-03-30
책 소개
목차
1부 - SRE 핵심 이해: 역할, 업무, 필요성
01장 SRE 직무: 주요 활동과 책임
개인 성장의 과정
__SRE의 원동력
__SRE의 역량
__SRE의 특징
사고방식과 취미
__SRE 성향 테스트
__SRE의 기본 원칙
__SRE의 취미
데브옵스 엔지니어 vs SRE vs 또 다른 엔지니어
__데브옵스 엔지니어와 SRE
__소프트웨어 엔지니어와 SRE
주요 책임
__운영 업무 책임
__엔지니어링 업무 책임
일상 업무
__대응 업무
__예방 업무
영감을 주는 사람들
__제레미의 감사: 폴 티마
__로드의 감사: 인고 아버덩크, 진 브라운
요약
더 읽을거리
02장 핵심 수치: 신뢰성 통계
SLA 협약: 숫자를 넘어선 소통
__내부 파트너를 위한 SLA
__외부 파트너를 위한 SLA
__9의 가치
__SLA 마무리
SLO 및 SLI 정의와 효과적인 활용법
__SLO
__SLO와 측정 기간
MTBF를 활용한 서비스 중단 빈도 추적
MTTR을 활용한 서비스 중단 시간 측정
수익 및 고객 영향도 분석
__서비스 중단 투명성 확보
__능력치 만렙 SRE의 SLA
요약
03장 위험한 습관: 임시방편 아키텍처와 스파게티 코드
비용으로 보는 소프트웨어 개발 사업
__소프트웨어의 가치
__사업 보호의 가치
__사업 성장의 가치
__인건비 절감의 가치
A/B 테스트 사고방식
__고객 상호작용과 A/B 테스트
__A/B 테스트 결과 분석
__분기 실적과 A/B 테스트
개발자의 헌신과 직업의식
__효과적인 소통 방법
병합 요청 검토
__형식적인 승인은 금물
__운영 환경 배포 시 고려 사항
모범 사례를 외면하는 이유
__개발자 업무 소유권
__개발 비용 추정의 결함
__속도, 품질, 비용: 선택의 문제
__관측 가능성: 신뢰성 문제의 해답
__고가용성과 비용
나쁜 코드 개선 전략
__장애 알림
__로깅 강화
__예외 처리
__신중한 재시도
요약
2부 - 사이트 신뢰성 엔지니어링을 위한 관측 가능성 구현
04장 관측의 필수 요소: 메트릭, 이벤트, 로그, 트레이스
기술 요구 사항
시스템 모니터링과 원격 측정법
__인프라 모니터링
__모니터링 종류와 도구
__골든 시그널 모니터링
__데이터 모니터링
APM의 이해
토폴로지 자가 발견, 폭발 반경, 예측 가능성 및 상관관계
경보: 조용하게 하는 기술
__사용자 관점 알림 발생 원칙
__인시던트 이벤트 연결 원칙
모든 것을 활용한 관측 가능성
__시스템 중단 vs 중단 시간
__관측 가능성 아키텍처
__관측 가능성 효과
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
05장 해결 전략: 트러블슈팅 정복
문제의 올바른 정의와 올바른 질문
__정보의 출처
__제보자의 지식 수준
__이름 규칙
__잘못된 긴급성
__실행 요약
분석과 테스트를 위한 시스템
__하드웨어와 운영체제의 분해
__웹 API 분해
__단계 이해
__중간 지점 문제 해결 방법론의 문제점
작은 문제를 확인하기 위한 과거, 일반적인 이벤트
__기존의 근본 원인 분석 문서
__시계열 분석
__비교
__최선의 방법
인터넷과 동료를 통한 효과적인 검색
__구글 검색의 기술
__빠른 검토와 개선
__내부 자원 활용
효율적인 소스코드 분석
__생소한 코드
__실패를 했을 경우
코드와 로그
실습: 학습 내용 적용
요약
06장 운영 프레임워크: 인프라와 시스템 관리
기술 요구 사항
시스템 관리의 학문적 접근
__설계
__설치
__설정
__애플리케이션 배포
__운영
__업그레이드
__삭제
IT 서비스 운영의 이해
__ITIL
__데브옵스
다양한 계층과 다양한 분야로서 시스템 운영의 접근
시스템 구축과 운영 자동화
__코드로서의 인프라
__변하지 않는 인프라
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
07장 데이터 활용: 관측 가능성 데이터 과학
기술 요구 사항
데이터 기반 의사 결정
__질문과 선택지 정의
__데이터 선택
__이미 사용 가능한 데이터 확인
__누락 데이터 수집
__모든 데이터 세트 종합 분석
__의사 결정 기록 제시
__프로세스에서 얻은 교훈 문서화
과학적 접근법을 통한 문제 해결
__질문
__가설
__예측
__실험
__분석
가장 일반적인 통계 방법 이해
__백분율
__평균, 산술 평균, 표준 편차
__분위수와 백분위수
__히스토그램
관측 가능성에 수학 모델 활용
__몬테카를로 시뮬레이션
__머신러닝
그라파나로 도수분포표 시각화하기
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__latency.py
__실습 설명
요약
더 읽을거리
3부 - 신뢰성을 위한 아키텍처 적용
08장 신뢰할 수 있는 아키텍처: 시스템 전략 및 설계
기술 요구 사항
신뢰성을 위한 설계
__아키텍처 측면
__신뢰성 방정식
__설계 패턴
__모던 애플리케이션
워크로드의 분할과 밸런싱
__분할
__분산
페일오버
스케일 업과 스케일 아웃: 수평 vs 수직
__수평 스케일링
__수직 스케일링
__오토스케일링
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
09장 자동화의 가치: 단순 반복 작업의 발견과 제거
기술 요구 사항
단순 반복 작업 제거
__단순 반복 작업의 재정의
__단순 반복 작업이 나쁜 이유
__단순 반복 작업을 잘 처리하는 방법
소프트웨어 문제로 다루는 자동화
__문서화
__알고리듬
__코드
CI/CD 파이프라인
__지속적인 통합
__지속적인 전달
__운영 배포
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
10장 파이프라인 공개: 깃옵스 및 테스트 필수 요소
기본 파이프라인: 인프라, 코드 배포를 위한 자동화
__시간 순서를 갖는 파이프라인
__파이프라인 템플릿
__파이프라인의 에러 또는 중단
__파이프라인 내에서 컨테이너 사용
__파이프라인 아티팩트
__파이프라인 문제 해결 팁
컴플라이언스, 보안 검사 자동화
__오래된 라이브러리
__애플리케이션 보안 테스트
__동적 애플리케이션 보안 테스트
__정적 애플리케이션 보안 테스트
__비밀 정보 검사
린트를 이용한 코드 품질, 표준 자동화
__린트 피드백을 활용한 컴파일
기능 검증을 위한 테스트 자동화
__신뢰성과 테스트의 연관성
__테스트 데이터
__테스트의 다양한 유형
__파이프라인 테스트 시기
__테스트의 관측 가능성
__자동 롤백
자동화에 따른 개발자의 단순 반복 작업 감소
__단순 반복 작업을 줄이는 의미
실습: 학습 내용 적용
__실습을 위한 AWS 준비
__저장소 생성
__저장소에 비밀 정보 추가
__실습 파일 다운로드와 커밋
__파이프라인 이해
__스텝 추가
__배포 없이 테스트만 실행
__마지막 처리
요약
11장 작업 군단: 서버리스, 컨테이너, 쿠버네티스의 오케스트레이션
기술 요구 사항
서버리스의 다양한 정의
__서버리스 프레임워크
__서버리스 컴퓨팅
__서버리스 함수
__서버리스 함수 모니터링
__에러
컨테이너가 사랑받는 이유
__격리
__불변성
__배포 용이성
__태깅
__롤백
__보안
__서명
__컨테이너 모니터링
쿠버네티스와 기타 컨테이너 오케스트레이션 방법
__헬스 체크
__충돌과 강제 종료된 컨테이너
__HTTP 기반 부하 분산
__서버 부하 분산
__서비스로서의 컨테이너(CaaS)
__간단한 컨테이너 오케스트레이션
쿠버네티스
다양한 배포 기술
__전통적인 교체 배포
__롤링 배포
__A/B 또는 블루 그린 배포
__카나리 배포
배포 자동화와 롤백
__롤백 메트릭
__롤백 시점
__롤백 방식
실습: 학습 내용 적용
__깃포드 활용: 컨테이너화된 작업 공간
__에뮬레이션 소스코드
__에뮬레이션 실행
요약
12장 최종 점검: 테스트 전략과 용량 설계
기술 요구 사항
다양한 테스트 유형
__개발 단계 테스트
__빌드 단계 테스트
__전달 단계 테스트
__배포 단계 테스트
__운영 단계 테스트
테스트 주도 개발
__고전적인 단위 테스트
__프레임워크를 사용한 단위 테스트
테스트 자동화 프레임워크 활용
용량 계획을 통한 선제적 대응
__부하 테스트 데이터
__용량 곡선
__수요 곡선
실습: 학습 내용 적용
__실습 아키텍처
__실습 내용
__실습 절차
요약
더 읽을거리
4부 - 장애 상황 완벽 대응
13장 첫 번째 과제: 운영 절차서와 저소음 장애 알람
기술 요구 사항
훌륭한 운영 절차서의 조건
__살아 숨 쉬는 운영 절차서
__독자의 지식 수준
__접근 권한 관리
__핵심 구성 요소
운영 절차서 너머의 통찰
__소스코드 신속 분석
__코드 속 핵심 정보 찾기
__이해를 돕는 주석
좋은 대시보드의 요건
__대시보드의 유형
__적색 신호와 녹색 신호
__추세 표시
__집계 및 세부 분석
__대시보드와 알림
우선순위 수준
__대응 노력
__엔지니어 이탈 방지
__장애 관리 시스템과 우선순위
__장애 관리 시스템과 스마트폰 통합
__P1 이벤트
__우선순위 정의
__관측 가능성 장애의 우선순위 수준
__우선순위 강제
__알림 조정
__로그 기반 알림
__알림 중지
실습: 학습 내용 적용
__우선순위 수준 정의
__운영 절차서
__알림
요약
14장 신속 대응: 장애 관리 기법
협업 공간 전략
__온라인 협업
__대면 협업
__장애 대응 기록의 활용
__참여자
__후속 조치
장애 대응 인력 활용법
__업무 배분
__대응 참여자의 성격 유형
__휴식 전략과 스트레스 관리
적시 대응의 중요성과 기회
__훈련 기회
__운영 문서 최신화
__팀워크 강화
__경영진을 향한 전략적 소통
__개선 사항 제안의 기회
고객 및 경영진과의 소통 방법
__고객 소통과 경영진 소통
__소통 주기
__이메일 그룹
__상태 페이지
__과도한 소통의 역효과
__기록, 또 기록
실습: 학습 내용 적용
__장애 및 알림
__통지 및 대응
__문제 해결
__결론
요약
15장 솔직한 사후 분석: 장기적인 해결책
경영진 핵심 요약 사후 분석
__경영진 핵심 요약
__개요
__영향도
__타임라인
__기술적 분석
__참여자 및 기여자
__해결 과정 및 결과
__향후 조치
결정을 비난하지 말 것
__비즈니스 관점
__자원 및 시간 제약
__모니터링
비즈니스와 신뢰성 향상
__액티브-액티브 구성
__수동 장애 조치
__장애 식별 시간
__부하 전환 시간
__숨겨진 개발 비용
훈련과 역량의 중요성
__역량 격차 파악
__자격증 취득
실행 계획 수립
__즉각적인 후속 조치
__참여 대상 선정
__타임라인과 우선순위
__소유권 할당
__작업 추적
실습: 사후 분석의 예
__개요 작성
__사후 분석 마무리
맞춤형 모자 회사 사후 분석 보고서
영향도
타임라인
기술적 세부 사항 및 대응
해결
향후 조치
요약
5부 - 미래 동향 및 SRE 인터뷰 준비
16장 카오스 주입기: 고급 시스템 안정성
기술 요구 사항
불운의 수레바퀴 게임 이해
__모든 끝은 새로운 시작
__장애 상황에서 얻는 교훈
__모의 장애 훈련
__게임화 기법
신뢰성 향상을 위한 카오스 엔지니어링
__카오스 엔지니어링의 원칙
__카오스 시스템 아키텍처
__카오스 실험
실습: 불운의 수레바퀴 게임 적용
__실습 아키텍처
__실습 내용
__실습 지침
실습: 시스템에 카오스 주입
__실습 아키텍처
__실습 내용
__실습 지침
요약
더 읽을거리
17장 면접 조언: 채용과 구직
SRE의 자격 요건
__자가 평가
__신입 엔지니어
__문제 해결 능력
__협업과 수용의 자세
__폭넓은 지식과 기술
__리서치 및 학습 능력
__거절할 수 있는 용기
__조직 문화 적합성
__X 인자
__열정
__경험
__주인의식과 책임감
면접 질문 심층 분석
__기술 역량 질문
__비기술적 역량 질문
__통찰력 있는 엉뚱한 질문
좋은 직무와 회사 선택 기준
__좋은 상사의 정의
__점선 보고 체계
__기업 윤리
지원 회사 심층 분석
__비즈니스 모델
__향후 10년간의 수익성
__구조
__대기업과 중소기업
__상장사와 비상장사
__온라인 기업 리뷰
자격증의 가치와 함정
__가치 있는 자격증
__적정한 자격증 수
__관련성
성공적인 연봉 협상
__면접 팁
__연봉 협상
요약
부록 A 사이트 신뢰성 엔지니어 선언문
선언문
선언문 활용 방법
선언문 기여 방법
부록 B 12팩터 선언문 적용에 관한 설문
설문
__팩터 I: 코드베이스
__팩터 II: 종속성
__팩터 III: 설정
__팩터 IV: 백엔드 서비스
__팩터 V: 빌드, 릴리스, 실행
__팩터 VI: 프로세스
__팩터 VII: 포트 바인딩
__팩터 VIII: 동시성
__팩터 IX: 폐기 가능
__팩터 X: 개발/운영 환경 일치
__팩터 XI: 로그
__팩터 XII: 관리 프로세스
설문 활용 방안
설문 개선에 기여



















