Ray' Blog

RLHF是"Reinforcement Learning from Human Feedback"的缩写，中文意思是"基于人类反馈的强化学习"。这是一种结合了强化学习和人类反馈的机器学习方法，旨在训练智能体（agent）在特定任务上表现得更好。以下是RLHF的一些关键特点：强化学习：智能体通过与环

2025-03-15 NLP 0

Ray

Transformer NLP（自然语言处理）发展史自然语言处理（Natural Language Processing，NLP）是一门借助计算机技术研究人类语言的科学。大致可以分为两个阶段： NNLM神经网络模型 NNLM 模型的思路与统计语言模型保持一致，它通过输入词语前面的 N−1 个词语

2024-12-01 NLP 0

Ray