2601.21912v1_ProRAG_Process-Supervised_Reinforcement_Learning