Team Misalignment Examples

Training large language models on narrow tasks can lead to broad misalignment

Previous works on finetuning safety largely target misuse-related finetuning attacks that make models comply with harmful requests (‘jailbreak finetuning’ 17). We ran head-to-head evaluations between ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

Training large language models on narrow tasks can lead to broad misalignment

Trending now