Semanlink - NLP@Stanford ; RL from Human Feedback AND RL from Human Feedback

Printer friendly

Search Tag:

Search Doc:

Preferences...

Tag Cloud

ChatGPT - Instruction tuning - NLP@Stanford - Prompting/In-context learning - RL from Human Feedback - Slides - Tweet -

NLP@Stanford ; RL from Human Feedback AND RL from Human Feedback

Common descendants

3 Documents

Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Tags:

2023-05-31 About

Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Tags:

2023-05-31 About

Prompting, Instruction Finetuning, and RLHF (CS224N)

Tags:

2023-02-16 About