구름 Commit - SRE
2023.09.20
DevOps vs SRE
DevOps -> 운영팀 겸 개발팀. 경계 지운 직군
무슨일을 어떻게 하는가로 DevOps와 SRE가 나눔
대부분의 DevOps는 개발:운영 = 5:5
SRE 조직 = 사람들과 계속 소통해야되는 포지션
커뮤니케이션이 중요
운영 업무에 관여되어야한다.
이슈 분석/백 데이터 확보가 중요 업무
개발 조직을 돕는 자동화 도구를 만드는 것에 기여 - 가치
조력자로서의 역할
- 다른 사업팀들은 목표가 확실
기술 = 기본
- T자형 인재 vs U자형 인재 - SRE는 U자형 인재
- AWS, GCP, 리눅스는 기본 = 기술은 기본
- 어떤 역할을 할 것 인지 정의 필요
목표
- 문제를 단순하게 만들어야한다.
- 도구/대화로 단순하게 만들 수 있다.
- 문제를 단순하게 만들어야한다.
SRE in LINE like 시어머니
- 조직마다 하는 일의 양태나 방향이 다름
- 한 문장으로 정의하기에 너무 다양하다.
Observability - 관찰 가능성 !== 모니터링
Tool
- 도구를 어떻게 활용하느냐의 차이
- 다른 차이는 없다.
Context
- 컨텍스트 스위칭
- 맥락이 없다 -> 스케일 아웃 / 서버 증설을 해야지 : 모니터링
- 맥락이 들어가야한다. -> 왜 발생했는지 찾아야 Observability
- Open Telemeteory: 서버간 연결 고리를 만들어야 맥락을 이해할 수 있고, 맥락을 이해해야 관찰 가능성이다.
Speed
- 빠르지 않으면 별로 의미가 없다.
- 느린건 self context switching 하는건 사람이 대시보드 보는 거로도 가능
- Low log 가지고 하려는 걸 버려야한다.
- Log 샘플링를 하지말고, Metrics을 만들자
Target
- 문제를 쉽게 빨리 해결하는 것
- 에러 로그 unique id로 추후 추적
Connect
Log와 Metrics 간의 상관관계 - 로그를 가지고 가공해서 Metrics를 만드는게 더 유효할 수 있다.
모든 로그 데이터를 raw로 쌓지 말고 Metrics로 말아서 보관하자. 벡터 - Raw Log들을 메트릭으로 쌓을 수 있게 해준다. 장기 보관을 얼마나 해야하는지 -> 서비스 종류에 따라 다 다르다. 버릴 건 과감하게 버려야한다. : 웬만한 건 다 필요없다.