Semanlink - Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Impression

Recherche de Mot-clé

Recherche de Doc

Préférences...

Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Tags:

Au sujet de ce document

sl:bookmarkOf : https://twitter.com/ericmitchellai/status/1663597641127833600?s=20
sl:creationDate : 2023-05-31
sl:creationTime : 2023-05-31T18:16:59Z

Infos sur le fichier

Bookmark of: https://twitter.com/ericmitchellai/status/1663597641127833600?s=20

Documents with similar tags (experimental)

Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Tags:

2023-05-31 A propos