gpt系列instruct和prompt的区别:prompt只是单纯的续写,想要实现特定的目的需要人去费力构造合适的prompt。instruct的实现方式是 reinforcement learning from human feedback (RLHF),模型给出两个(或者若干个?)候选项,由人工挑出来哪个更好。模型可以根据人类给出的指令,给出符合人类偏好的结果,这已经有点人工智能的意思了。下面问题来了,假设人类给模型同时训练了亲情偏好和正义偏好,当亲情和法律发生冲突的时候(比如高启兰面对高启强)会怎么办?