fix(preflight): retry transient stack-onbeschikbaarheid i.p.v. permanent parkeren #39
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "fix/preflight-retry-transient"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Probleem
Na een reboot kan een agent-container opstarten vóór de host-web-app (
scrum4me-web.service, systemd op :3000) en de caddy-stack up zijn.check-tokens.shfaalt dan op de Scrum4Me-API (caddy → 502/503), enrun-agent.shdeed bij élke pre-flight-foutsleep infinity. Resultaat: de worker hangt permanent tot een handmatige restart.Waargenomen 2026-06-15:
scrum4me-agent-codex9u vast na reboot terwijl de web-app allang gezond was (/api/products→ 401).Fix
check-tokens.sh— exit-taxonomie:0ok1permanent (credential/config): 401/403, ontbrekende/verkeerde agent-credential, ontbrekendeSCRUM4ME_TOKEN/DATABASE_URL. Heelt niet vanzelf → parkeren.2transient (connectiviteit): API onbereikbaar (000) / 5xx / overige non-200, DB-TCP onbereikbaar. Typisch reboot-race → retryen.run-agent.sh— pre-flight retryt oprc=2met bounded backoff (AGENT_PREFLIGHT_RETRIES=30×AGENT_PREFLIGHT_BACKOFF=10s≈ 5 min) en parkeert +UNHEALTHYalleen bijrc=1of uitgeput budget (gedrag van voorheen, debugbaar).Fleet-breed: zelfde scripts draaien idea + codex.
Test
bash -nop beide scripts ✅_lib.sh): missing-token → 1, API-000→ 2, perm+transient → 1 ✅PBI-7 / ST-013 / T-55.
🤖 Generated with Claude Code