似乎自ChatGPT进入大众视野起,需要依靠人工进行数据标注,就成为人们对大语言模型(LLM)根深蒂固的印象之一。 从两个以上大模型针对同一个问题给出的不同回答里,找到当中的语病、逻辑和事实错误,标记不同的错误类型,再对这些回答按照质量分别进行打分等,这些都是大模型数据标注员要干的事情。 这个过程被叫做RLHF(Reinforcement Learning …
在线咨询: QQ交谈
邮件:442814395@qq.com
工作时间:周一至周五,9:30-18:30,节假日休息