この内容では、著者は「指示逆翻訳」という方法を紹介しています。この方法は、ラージランゲージモデル(LLM)が指示を正確に理解する能力を向上させるために未ラベルのデータを活用します。著者は、モデルの性能向上のために高品質なトレーニング例 ...
私たちは、人間が書いたテキストに対応する指示を自動的にラベル付けすることで、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。私たちの手法である「指示逆翻訳」は、少量のシードデータと与えられたウェブ ...