Codeseys
/

composer-replication-framework

Reinforcement Learning

Model card Files Files and versions

composer-replication-framework / composer_replication /recipes

67.7 kB

Ctrl+K

Ctrl+K

4 contributors

History: 5 commits

Codeseys's picture

feat(trainer): ADR-008 Dr.GRPO config + SDPO strict-alignment guard

bde5c5e 20 days ago

monarch
Wave 13: serverless DiLoCo + replaysim normalization + 3 distillation losses + PRIME-RL + Monarch 24 days ago
prime_rl
feat(trainer): ADR-008 Dr.GRPO config + SDPO strict-alignment guard 20 days ago
replaysim
Wave 14: close every Wave 13 review finding + 4 documentation files; Wave 14b: real PRIME-RL parity + multi-process DiLoCo convergence 24 days ago