微博谣言检测
一个小型项目,可以在新南微博中自动爬网,并尝试检测指定的博客是否是谣言。
环境
- Python> = 3.7
- 火炬> = 1.6.0
- 需求.txt
数据集
该项目中使用的数据集与一些小集合合并。所有这些都在文件夹data/dataset/raw/下载到此仓库中
使用Extractraw.py生成train , valid和eval数据集。
预审计的矢量
通过此链接从repo:中文 – 媒介从repo下载原始预告片的矢量
在此项目中,为避免巨大的内存职业,将原始向量处理到二进制数据文件pretrain_wv.vec.dat和index文件pretrain_wv.index.json ,并使用dataSet.py中的类PretrainedVector来加载它。 PROTRAIN_WV.INDEXPRAIN_WV.INDEX您可以从发布页面下载pretrain_wv.vec.dat 。
火车
有关详细信息,请参见train.py。
训练后,它将自动对Eval数据集进行评估。
模型
有关详细信息,请参见Model.py。
在此项目中,它只是使用固定参数来训练模型,以下输出中显示了最终上传的RMDT.PT.PT模型的参数。
RumorDetectModel ( ( origin_bilstm ): LSTM ( 300 , 32 , batch_first = True , bidirectional = True ) ( comment_lstm ): LSTM ( 300 , 64 , batch_first = True ) ( comment_dropout ): Dropout ( p = 0.5 , inplace = False ) ( attn_U ): Linear ( in_features = 64 , out_features = 32 , bias = False ) ( attn_W ): Linear ( in_features = 64 , out_features = 32 , bias = False ) ( attn_v ): Linear ( in_features = 32 , out_features = 1 , bias = False ) ( linear_dropout ): Dropout ( p = 0.5 , inplace = False ) ( linear ): Linear ( in_features = 128 , out_features = 2 , bias = True ) )
用法
有关详细信息,请参见Main..py和rmdt.py。
一个简单的示例是main.py和main.ipynb。
已知问题
由于模型限制,输入数据必须同时具有原始博客文本和至少一个注释文本,否则可能会引发异常。
如果您认为这个项目对您有帮助,请播放它,让更多的人看到它。 🙂
