Semanlink - Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Εκτύπωση

Βρες μου:

Search Doc:

Προτιμήσεις...

Archit Sharma sur Twitter : "Direct Preference Optimization (DPO) allows you to fine-tune LMs directly from preferences via a simple classification loss, no RL required"

Tags:

Σχετικά με το έγγραφο αυτό

sl:bookmarkOf : https://twitter.com/archit_sharma97/status/1663595372269408261?s=20
sl:creationDate : 2023-05-31
sl:creationTime : 2023-05-31T18:30:01Z

Πληροφορία αρχείου

Bookmark of: https://twitter.com/archit_sharma97/status/1663595372269408261?s=20

Documents with similar tags (experimental)

Eric sur Twitter : "...Introducing Direct Preference Optimization (DPO), a simple classification loss provably equivalent to RLHF"

Tags:

2023-05-31 About