关于这个项目
Kaggle竞争以预测哪些推文是关于真正灾难的,哪些不是
数据集
来自此存储库的数据集可以在Kaggle中找到
方法
- 数据探索
- 预处理
- 模型培训
结果
最佳F1分数为.8。 tf_idf vectorizer和二进制矢量器的性能优于其他方法
| 。 | 精确 | 记起 | F1得分 | 支持 |
|---|---|---|---|---|
| 0 | 0.82 | 0.85 | 0.84 | 1762年 |
| 1 | 0.79 | 0.75 | 0.7 | 1284 |
| 准确性 | _ | _ | 0.81 | 3046 |
| 宏观公平 | 0.81 | 0.80 | 0.80 | 3046 |
| 加权平均 | 0.81 | 0.81 | 0.81 | 3046 |
