Semanlink - Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Εκτύπωση

Βρες μου:

Search Doc:

Προτιμήσεις...

Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Tags:

Σχετικά με το έγγραφο αυτό

sl:bookmarkOf : https://twitter.com/ericmitchellai/status/1663597641127833600?s=20
sl:creationDate : 2023-05-31
sl:creationTime : 2023-05-31T18:16:59Z

Πληροφορία αρχείου

Bookmark of: https://twitter.com/ericmitchellai/status/1663597641127833600?s=20

Documents with similar tags (experimental)

Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Tags:

2023-05-31 About