Detecting Semantic Similarity in Questions

2025-12-10 0 562

Detecting Semantic Similarity in Questions

快速链接

  • Detecting Semantic Similarity in Questions
    • 快速链接
    • 问题陈述
    • 数据集
    • 设置
    • 使用的架构
      • 支持向量机
      • 自动编码器
      • 密集的神经网络
      • 暹罗建筑
        • 卷积暹罗网络
        • LSTM暹罗网络
    • 结果
    • 分析
    • 参考
    • 项目成员

问题陈述

我们做了这个项目,作为Advanced Machine Learning.

在此项目中,我们尝试解决用户在CQA(社区问题答录)平台上是否有两个问题是重复的。一个人如何将两个问题定义为重复?我们说,如果提出问题的用户表达了相似的意图,则两个问题是重复的,即用户期望对所提出的问题有同样的答案。

通过这个项目,我们旨在对此意图进行建模,即,如果两个问题指定的目的相似,则两个问题分类了两个问题。

有关更多详细报告,请参考该报告。

数据集

用于研究的数据集由Quora发表,Quora是一个问题 – 答案平台并非任何域。我们将数据集修改为Little-Bit,以易于使用,并保存了所有模型,可以从此处下载。

根据下表中给出的格式,数据集包含404,352个问题对。 id代表唯一的问题对标识符。 qid1qid2分别代表了该对中的第一个和第二个问题的问题标识符。 question1question2分别是问题1和问题2的全文。 is_duplicate是布尔变量,这表示两个问题是否重复。

ID QID1 QID2 问题1 问题2 IS_DUPER
447 895 896 什么是自然数? 自然数量最小的是多少? 0
1518年 3037 3038 Domino菜单上哪些比萨饼是最受欢迎的比萨饼? 多米诺比萨饼有多少卡路里? 0
3272 6542 6543 您如何开设面包店? 您如何创办面包店业务? 1
3362 6722 6723 我应该先学习Python或Java吗? 如果我必须在学习Java和Python之间进行选择,我应该选择什么? 1

以下是最疯狂地出现单词的前2000名的WordCloud,显然是从CQA平台数据集中预期的数据集占主导地位的。

Fig 1: Wordcloud of top 2000 most frequently occurring words

Fig 2: Cosine distance between similar and dissimilar embedding vectors

设置

  • 安装Python> = 3.6和PIP
  • pip install -r requirements.txt
  • 下载手套词向量(手套。840B.300D)

使用的架构

支持向量机

应用带有线性内核的SVM被应用并用作分类任务的基线。该模型的结果有助于更好地理解数据。

自动编码器

问题相似性也可以看作是生成与输入相似的问题的生成任务。因此,可以使用自动编码器对这些任务进行建模,其中任务是在编码器之后学习一个表示形式,以使自动编码器最大程度地减少了两个类似问题的表示之间的损失。对于此任务,该模型仅在类似的问题对上进行了培训,并且无法对非相似问题对的表示。将以下损耗函数L最小化,其中X 1X 2代表一对中的两个相似问题,而M()是自动编码器的输出。

后来,将一个分类层添加到编码层后两个问题的串联输出中。该网络也可以看作是一个暹罗网络,仅根据相似性,自动编码器就学会了表示形式。

密集的神经网络

为数据集实施了基于8-layered香草锥网络的8层神经网络。我们使用了ReLU激活功能,并用Adam Optmizer训练了100 epochs的网络, learning rate=0.001

Fig 3: 8-Layer NN Architecture

暹罗建筑

在此体系结构中,正在使用相同的神经网络模型编码两个单独的句子,这些句子独立地给出了输入。现在,两个输入句子都在同一嵌入空间中编码为句子向量,如图1所示。然后,通过使用一些遥远的度量决策,将仅根据此结果做出。

Fig 4: General architecture of Siamese Model

卷积暹罗网络

Fig 5: Convolutional Siamese Network Architecture

LSTM暹罗网络

LSTM暹罗体系结构接受了learning rate=0.001训练,并作为AdaDelta Optimizer的损失函数Mean Square Error 。对于分类层,我们使用了Cross Entropy Loss

Fig 6: LSTM Siamese Network Architecture

结果

算法 准确性 嵌入类型
支持向量机 59.23% DOC2VEC
自动编码器 62.85% DOC2VEC
神经网络 79.28% DOC2VEC
卷积西姆斯 64.33% DOC2VEC
LSTM Siemese 80.32% Word2Vec

分析

以下图仅适用于LSTM暹罗网络体系结构。我们尝试考虑数据不平衡,并根据它培训了2种不同的模型。

平衡数据 不平衡的数据

Variation of accuracy with epoch

Variation of accuracy with epoch

Variation of loss with epoch

Variation of loss with epoch

参考

  • Zhiguo Wang,Wael Hamza和Radu Florian。自然语言句子的双边多角度匹配。 Arxiv预印型ARXIV:1702.03814,2017。
  • Shuohang Wang和Jing Jiang。一个比较匹配文本序列的聚集模型。 Arxiv预印型ARXIV:1611.01747,2016。
  • Mingtan,Cicerodossantos,Bingxiang和Bownzhou.lstm基于非事实答案选择的深度学习模型。 Arxiv预印型ARXIV:1511.04108,2015。
  • Kuntal Dey,Ritvik Shrivastava和Saroj Kaushik。用于用户生成的微博上简短文本内容的释义和语义相似性检测系统。第26届计算语言学国际会议2016年殖民论文集:技术论文,第2880-2890页,2016年。
  • Sepp Hochreiter和Ju rgen Schmidhuber。长期的短期记忆。神经计算,9(8):1735–1780,1997。
  • 简·布罗姆利(Jane Bromley),伊莎贝尔·盖翁(Isabelle Guyon),Yann Lecun,Eduard säCkinger和Roopak Shah。使用“暹罗”时间延迟神经网络的签名验证。在神经信息处理系统的进步中,第737-744页,1994年。

项目成员

  1. Arpan Mukherjee
  2. Prabhat Kumar

下载源码

通过命令行克隆项目:

git clone https://github.com/arpanmukherjee/Detecting-Semantic-Similarity-in-Questions.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 Detecting Semantic Similarity in Questions https://www.zuozi.net/33122.html

infersent
下一篇: infersent
常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务