Semanlink - Fine-tuning AND RL from Human Feedback

Printer friendly

Search Tag:

Search Doc:

Preferences...

Tag Cloud

Alternative way - cs224n - Fine-tuning - NLP@Google - OpenAI - Prompting/In-context learning - Reinforcement learning - RL from Human Feedback - Slides - Tweet -

Fine-tuning AND RL from Human Feedback

Common descendants

4 Documents

Peter J. Liu sur Twitter : "RLHF-alternative without RL"

Tags:

2023-05-18 About

Hyung Won Chung sur Twitter : "RLHF as an instance of using a learned objective function"

Tags:

2023-05-18 About

Shayne Longpre sur Twitter : "A 🧵 on @OpenAI LLM "Alignment" (e.g. #ChatGPT)..."

Tags:

2023-02-27 About

Prompting, Instruction Finetuning, and RLHF (CS224N)

Tags:

2023-02-16 About