Semanlink - Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Impression

Recherche de Mot-clé

Recherche de Doc

Préférences...

Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Tags:

Au sujet de ce document

sl:bookmarkOf : https://twitter.com/archit_sharma97/status/1663595372269408261?s=20
sl:creationDate : 2023-05-31
sl:creationTime : 2023-05-31T18:30:01Z

Infos sur le fichier

Bookmark of: https://twitter.com/archit_sharma97/status/1663595372269408261?s=20

Documents with similar tags (experimental)

Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Tags:

2023-05-31 A propos