Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards

**Alexandre Ramé** , Guillaume Couairon , Mustafa Shukor , Corentin Dancette , Jean-Baptiste Gaya , Laure Soulier , Matthieu Cord

21 May, 2023

**Alexandre Ramé** , Guillaume Couairon , Mustafa Shukor , Corentin Dancette , Jean-Baptiste Gaya , Laure Soulier , Matthieu Cord

21 May, 2023

Date

May, 2023

Links

PDF Code Project Poster Slides