POS_Tagger
设计,实现和训练您选择的(tokenize和)标记具有正确词性词性标签的给定句子的神经序列模型(RNN,LSTM,GRU等)。例如,给定输入
example玛丽有一个小羔羊
您的模型应输出
玛丽名词
有动词
det
小调节
羔羊名词
请注意,言论一部分标签通过选项卡\\ t字符与每个单词分开。
数据集
使用通用依赖项数据集,可在此处下载。我们建议位于UD-TreeBanks-V2.11/ud_english-atis/en_atis-ud- {train,dev,test} .conllu上的文件。仅使用第一,第二和第四列(单词索引,小写字和pos标签)。 UD数据集不包括标点符号。您可以在标记之前过滤输入句子以删除标点符号。请注意,许多语言的数据可从此资源下载。我们希望至少对英语数据进行培训的模型,但是您还可以自由培训其他语言。
