Amazon_ML_Challenge-Solution
lb-https://www.hackerearth.com/challenges/competivel/amazon–ml–challenge/leaderboard/链接
问题声明的链接-https://www.hackerearth.com/challenges/competivel/amazon-mazon-ml-challenge/instrungions/
团队名称-Machine_not_learning
参与者-Pranshu Rastogi,Madhav Mathur,Sumansahoo,Kshitij Mohan
解决我们提供的问题的解决方案非常简单,并且在50%的数据(即公共LB)上产生良好的分数,我们的方法基于创建密集的Bert嵌入并使用模型
嵌入以两种广泛的方式开发
Using pre trained Sentence bert models for better representation of the
data like we used models (prominently)
a. Paraphrase Multilingual Mpnet
b. Paraphrase-mpnet-base-v
These are some of the pre trained models that produces 768 dimensional
embeddings
Fine tuning these pre models to the training data though we couldn’t
succeed in training longer as we don\'t have enough training resources we
were only able to finetune it around 1 epoch which is fairly low and
produces not good results
建模部分 –
在这里,我们首先将KNN模型用作非常初步的模型,与我们可以安排的资源兼容。但是KNN可以用这些嵌入产生非常好的结果(64%的单个模型)。
我们还尝试了诸如SVM,RF之类的模型,例如型号,但它们要么花费了太多的GPU内存,要么花了10个小时以上的结果来产生与时间和计算功率交易相比的结果不太好的结果。
最终合奏我们仅使用来自不同模型的嵌入的KNN预测的加权集合,因此确实越简单的模型,合奏越好。达到(66.7%)
Tech Stack-用于嵌入生成的Pytorch,Rapids(CUML)仅用于我们的最终解决方案。可以通过并行执行在2-3小时内复制它。
