최신 글
결제 saga가 보상 트랜잭션을 두 번 실행했다: state machine으로 되돌린 이유
·7 분
주문과 결제를 나눈 뒤 보상 트랜잭션이 중복 실행되며 환불과 재고 복구가 엇갈렸다. saga를 이벤트 흐름이 아니라 상태 기계와 재시도 원장으로 관리한 기준을 정리한다.
AI agent가 같은 tool을 두 번 불렀다: 재시도보다 먼저 idempotency ledger가 필요했다
·6 분
Tool-calling agent가 네트워크 실패와 모델 재시도로 같은 외부 작업을 반복 실행한 사례를 바탕으로 idempotency key, side-effect ledger, retry gate를 어떻게 분리했는지 정리한다.
Speculative decoding을 켰는데 p99가 더 나빠진 이유: acceptance rate부터 봤다
·5 분
LLM 서빙에서 speculative decoding을 켰다가 p99가 악화된 사례를 바탕으로 draft 모델, verifier 비용, acceptance rate를 어떻게 rollout gate로 삼았는지 정리한다.
SLO alert가 너무 늦고 너무 시끄러웠다: burn rate window를 계약으로 둔 이유
·7 분
가용성 SLO를 Prometheus alert로 옮기면서 단일 error rate 조건이 놓친 장애와 과한 호출을 multi-window burn rate 계약으로 줄인 운영 기록.
Flaky test를 격리했더니 main이 더 느려졌다: quarantine queue에 만료 시간을 둔 이유
·7 분
반복 실패 테스트를 quarantine으로 치웠다가 CI 신뢰도와 처리 시간이 함께 나빠진 뒤, TTL과 owner budget으로 quarantine을 운영 큐로 바꾼 사례를 정리한다.