Sanjeev Arora sur X : "It's better to use just 5% of the instruction-tuning data (suitably selected) instead of the full dataset."
Tags:
Au sujet de ce document
Infos sur le fichier