首页编程相关正文

我要发布

Detecting Semantic Similarity in Questions

Boss 编程相关

2025-12-10 0 622

Detecting Semantic Similarity in Questions

快速链接

Detecting Semantic Similarity in Questions
- 快速链接
- 问题陈述
- 数据集
- 设置
- 使用的架构
  - 支持向量机
  - 自动编码器
  - 密集的神经网络
  - 暹罗建筑
    - 卷积暹罗网络
    - LSTM暹罗网络
- 结果
- 分析
- 参考
- 项目成员

问题陈述

我们做了这个项目，作为Advanced Machine Learning.

在此项目中，我们尝试解决用户在CQA（社区问题答录）平台上是否有两个问题是重复的。一个人如何将两个问题定义为重复？我们说，如果提出问题的用户表达了相似的意图，则两个问题是重复的，即用户期望对所提出的问题有同样的答案。

通过这个项目，我们旨在对此意图进行建模，即，如果两个问题指定的目的相似，则两个问题分类了两个问题。

有关更多详细报告，请参考该报告。

数据集

用于研究的数据集由Quora发表，Quora是一个问题 – 答案平台并非任何域。我们将数据集修改为Little-Bit，以易于使用，并保存了所有模型，可以从此处下载。

根据下表中给出的格式，数据集包含404,352个问题对。 id代表唯一的问题对标识符。 qid1和qid2分别代表了该对中的第一个和第二个问题的问题标识符。 question1和question2分别是问题1和问题2的全文。 is_duplicate是布尔变量，这表示两个问题是否重复。

ID	QID1	QID2	问题1	问题2	IS_DUPER
447	895	896	什么是自然数？	自然数量最小的是多少？	0
1518年	3037	3038	Domino菜单上哪些比萨饼是最受欢迎的比萨饼？	多米诺比萨饼有多少卡路里？	0
3272	6542	6543	您如何开设面包店？	您如何创办面包店业务？	1
3362	6722	6723	我应该先学习Python或Java吗？	如果我必须在学习Java和Python之间进行选择，我应该选择什么？	1

以下是最疯狂地出现单词的前2000名的WordCloud，显然是从CQA平台数据集中预期的数据集占主导地位的。

Fig 1: Wordcloud of top 2000 most frequently occurring words

Fig 2: Cosine distance between similar and dissimilar embedding vectors

设置

安装Python> = 3.6和PIP
pip install -r requirements.txt
下载手套词向量（手套。840B.300D）

使用的架构

支持向量机

应用带有线性内核的SVM被应用并用作分类任务的基线。该模型的结果有助于更好地理解数据。

自动编码器

问题相似性也可以看作是生成与输入相似的问题的生成任务。因此，可以使用自动编码器对这些任务进行建模，其中任务是在编码器之后学习一个表示形式，以使自动编码器最大程度地减少了两个类似问题的表示之间的损失。对于此任务，该模型仅在类似的问题对上进行了培训，并且无法对非相似问题对的表示。将以下损耗函数L最小化，其中X ₁和X ₂代表一对中的两个相似问题，而M()是自动编码器的输出。

后来，将一个分类层添加到编码层后两个问题的串联输出中。该网络也可以看作是一个暹罗网络，仅根据相似性，自动编码器就学会了表示形式。

密集的神经网络

为数据集实施了基于8-layered香草锥网络的8层神经网络。我们使用了ReLU激活功能，并用Adam Optmizer训练了100 epochs的网络， learning rate=0.001 。

Fig 3: 8-Layer NN Architecture

暹罗建筑

在此体系结构中，正在使用相同的神经网络模型编码两个单独的句子，这些句子独立地给出了输入。现在，两个输入句子都在同一嵌入空间中编码为句子向量，如图1所示。然后，通过使用一些遥远的度量决策，将仅根据此结果做出。

Fig 4: General architecture of Siamese Model

卷积暹罗网络

Fig 5: Convolutional Siamese Network Architecture

LSTM暹罗网络

LSTM暹罗体系结构接受了learning rate=0.001训练，并作为AdaDelta Optimizer的损失函数Mean Square Error 。对于分类层，我们使用了Cross Entropy Loss 。

Fig 6: LSTM Siamese Network Architecture

结果

算法	准确性	嵌入类型
支持向量机	59.23％	DOC2VEC
自动编码器	62.85％	DOC2VEC
神经网络	79.28％	DOC2VEC
卷积西姆斯	64.33％	DOC2VEC
LSTM Siemese	80.32％	Word2Vec

分析

以下图仅适用于LSTM暹罗网络体系结构。我们尝试考虑数据不平衡，并根据它培训了2种不同的模型。

平衡数据	不平衡的数据
`Variation of accuracy with epoch`	`Variation of accuracy with epoch`
`Variation of loss with epoch`	`Variation of loss with epoch`

参考

Zhiguo Wang，Wael Hamza和Radu Florian。自然语言句子的双边多角度匹配。 Arxiv预印型ARXIV：1702.03814，2017。
Shuohang Wang和Jing Jiang。一个比较匹配文本序列的聚集模型。 Arxiv预印型ARXIV：1611.01747，2016。
Mingtan，Cicerodossantos，Bingxiang和Bownzhou.lstm基于非事实答案选择的深度学习模型。 Arxiv预印型ARXIV：1511.04108，2015。
Kuntal Dey，Ritvik Shrivastava和Saroj Kaushik。用于用户生成的微博上简短文本内容的释义和语义相似性检测系统。第26届计算语言学国际会议2016年殖民论文集：技术论文，第2880-2890页，2016年。
Sepp Hochreiter和Ju rgen Schmidhuber。长期的短期记忆。神经计算，9（8）：1735–1780，1997。
简·布罗姆利（Jane Bromley），伊莎贝尔·盖翁（Isabelle Guyon），Yann Lecun，Eduard säCkinger和Roopak Shah。使用“暹罗”时间延迟神经网络的签名验证。在神经信息处理系统的进步中，第737-744页，1994年。

项目成员

Arpan Mukherjee
Prabhat Kumar

下载源码

从 GitHub 克隆

通过命令行克隆项目:

git clone https://github.com/arpanmukherjee/Detecting-Semantic-Similarity-in-Questions.git

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

申明：本文由第三方发布，内容仅代表作者观点，与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，也不代表本网对其真实性负责。

左子网编程相关 Detecting Semantic Similarity in Questions https://www.zuozi.net/33122.html

Boss

上一篇： Neural_Sentiment_Analysis

下一篇： infersent

常见问题

发货方式是什么？

1、自动：拍下后，点击（下载）链接即可下载；2、手动：拍下后，联系卖家发放即可或者联系官方找开发者发货。

查看详情

交易周期是多久呢？

1、源码默认交易周期：手动发货商品为1-3天，并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放，如遇纠纷无限期延长收款金额直至纠纷解决或者退款！；

查看详情

能退款么？

1、描述：源码描述(含标题)与实际源码不一致的（例：货不对板）； 2、演示：有演示站时，与实际源码小于95%一致的（但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外）； 3、发货：不发货可无理由退款； 4、安装：免费提供安装服务的源码但卖家不履行的； 5、收费：价格虚标，额外收取其他费用的（但描述中有显著声明或双方交易前有商定的除外）； 6、其他：如质量方面的硬性常规问题BUG等。注：经核实符合上述任一，均支持退款，但卖家予以积极解决问题则除外。

查看详情

注意事项

1、左子会对双方交易的过程及交易商品的快照进行永久存档，以确保交易的真实、有效、安全！ 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保，请买家自行鉴别； 3、在源码同时有网站演示与图片演示，且站演与图演不一致时，默认按图演作为纠纷评判依据（特别声明或有商定除外）； 4、在没有”无任何正当退款依据”的前提下，商品写有”一旦售出，概不支持退款”等类似的声明，视为无效声明； 5、在未拍下前，双方在QQ上所商定的交易内容，亦可成为纠纷评判依据（商定与描述冲突时，商定为准）； 6、因聊天记录可作为纠纷评判依据，故双方联系时，只与对方在左子上所留的QQ、手机号沟通，以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小，但一定要保留如聊天记录、手机短信等这样的重要信息，以防产生纠纷时便于左子介入快速处理。

查看详情

左子网

分享最新WordPress教程共同学习，共同进步，共同成长！

QQ交流群

Detecting Semantic Similarity in Questions

快速链接

问题陈述

数据集

设置

使用的架构

支持向量机

自动编码器

密集的神经网络

暹罗建筑

卷积暹罗网络

LSTM暹罗网络

结果

分析

参考

项目成员

相关文章

微信

左子网

QQ交流群