skylenage-ai
/

GPRM-4B

Text Generation

process-reward-model

reinforcement-learning

Model card Files Files and versions

skylenage commited on Apr 27

Commit

26efbcf

·

verified ·

1 Parent(s): 3abe540

Update README.md

Files changed (1) hide show

README.md +1 -2

README.md CHANGED Viewed

@@ -100,5 +100,4 @@ Previous PRMs often suffer from two major flaws: they ignore historical evaluati
 GPRM utilizes a two-stage progressive training pipeline:
 1. **Stage I (Structured SFT):** Learns 4-dimensional diagnostic reasoning via targeted error injection (Calculation, Logic, Goal-drift, Inconsistency) using Qwen3-235B-Instruct as teacher for annotation.
-2. **Stage II (GRPO Optimization):** Refines evaluation policy under complete global context (History + Current + Future) using Group Relative Policy Optimization on hard-mined samples from PRM800K.
-3.

 GPRM utilizes a two-stage progressive training pipeline:
 1. **Stage I (Structured SFT):** Learns 4-dimensional diagnostic reasoning via targeted error injection (Calculation, Logic, Goal-drift, Inconsistency) using Qwen3-235B-Instruct as teacher for annotation.
+2. **Stage II (GRPO Optimization):** Refines evaluation policy under complete global context (History + Current + Future) using Group Relative Policy Optimization on hard-mined samples from PRM800K.