Bacana o post! Tenho seguido uma filosofia parecida chamada Research, Plan, Implement. Acredito que o essencial de todas essas metodologias/frameworks/workflows com IA seguem o mesmo princípio.
A IA pra executar bem precisa de um bom plano, e a IA é excelente em criar planos também, mas ela (ainda) não é tão boa em auto-gerenciar o a própria janela de contexto. Quando a gente começa a documentar todo o fluxo de trabalho da IA, colocando checkpoints de intervenção humana com revisão e discussão dos planos de desenvolvimento, ou intervindo no meio da execução caso ocorra algum problema maior, a produtividade aumenta significativamente.
Pra quem tá iniciando, eu sugiro começar a entender como usar a sua ferramenta de IA no modo "Plan" invés de direto no modo agente, ou no modo "Chat".
Uma ótima e curta leitura sobre o assunto, que explica na prática como implementar essa metodologia: https://grow.chaiwithjai.com/39/adopting-ralph-wiggum/859/adopting-ralph-wiggum
Na prática, seus agentes de IA ao executar uma tarefa devem sempre seguir um documento de requerimentos técnicos bem detalhado, e bem revisado por humanos, e ela deve também sempre registrar seu próprio progresso em um arquivo a parte, que pode ser depois lido por outro agente e resumido o trabalho. Isso parece idiota mas é essencial pra garantir eficiência da IA. Existe um conceito chamado "Dumb-zone" que basicamente significa que a IA começa a ficar cada vez mais "burra" conforme a janela de contexto vai se enchendo de lixo durante a sessão, e é justamente por isso que precisa ser parte do fluxo de trabalho documentar o trabalho (ou melhor dizendo, mandar a IA documentar o trabalho). Isso permite ter outra IA avaliando esse trabalho de forma técnica, comparando com o plano inicial, validando se a task atende todos os critérios ou não, e principalmente registrando esse feedback todo em um arquivo a parte, para que, adivinha... Outro agente de IA possa pegar esse feedback e agir em cima.
Meu trabalho há meses já não envolve mais codar, e sim revisar documentos de markdown pra ver se as coisas tão se encaminhando bem. Esse conceito acima um pouco mais desenvolvido como o OP explicitou pode automatizar todo o fluxo de trabalho de features inteiras, a partir de um planejamento bem feito. A dica que dou é ir com calma, e não ter medo de ir experimentando. Vai entendendo como a janela de contexto funciona, tentando aplicar essa metodologia na mão mesmo, pedindo pra IA ir documentando o processo conforme você julgar necessário, e aos poucos vai aplicando novos conceitos.