通过增强学习培训聊天机器人模型
技术
-
对话生成的深度加强学习
-
神经对话模型的多样性目标函数
设置
为了更好地使用Parlai,我们可以更好地重复使用和模块化。
脚本可用于使环境在相应目录中的Linux和Windows上截然不同。
./linux/setup.sh
或者
./windows/setup.ps1
用法
要获得具有监督学习的初始模型,请运行train.sh或train.ps1脚本。在获得基于增强学习的微调的初始策略之后,以与预训练脚本相同的参数运行reinforce.sh或reinforce.ps1 。
./linux/train.sh --task dailydialog --model seq2seq
./linux/reinforce.sh --task dailydialog --model seq2seq
reinforce.sh将从默认checkpoints/<model_name>目录或可选的--model_file中提供的模型加载模型预训练的模型。
