Os tokens/segundos na minha máquina ficam bem ruins, mas não cheguei a testar modelos quantizados.
Apesar dos pesares, eu uso ferramentas open sources e modelos chineses bem mais baratos pro dia a dia. Pesquisas, tarefas do dia a dia, codificação, tudo em cima dessas LLMs