Infosys_Text Summarization

2025-12-10 0 981

infosy_textsummarization

Mohan Krishna GR的一个项目,AI/ML Intern @ Infosys Springboard,2024年夏季。

内容

  • 问题陈述
  • 项目声明
  • 解决方案方法
  • 背景研究
  • 解决方案
  • 工作流程
  • 数据收集
  • 抽象文本摘要
  • 提取文本摘要
  • 测试
  • 部署
  • 容器化
  • CI/CD管道

问题声明

  • 开发一个自动化的文本摘要系统,该系统可以准确有效地将大型文本凝结成简洁的摘要对于增强业务运营至关重要。
  • 该项目旨在部署NLP技术,以创建能够在不同域上处理各种文档的强大文本摘要工具。
  • 系统应提供高质量的摘要,以保留原始文本的核心信息和上下文含义。

项目说明

  • 文本摘要的重点是将大型文本体转换为一些句子,总结较大文本的要旨。
  • 文本摘要有各种各样的应用程序,包括新闻摘要,客户评论,研究论文等。
  • 该项目旨在了解文本摘要的重要性,并应用不同的技术来实现目的。

解决

  • 方案的方法:预期计划

背景研究

  • 文献评论

解决方案

  • 选择的深度学习体系结构

工作流程

  • 工作流程用于抽象文本摘要:

  • 提取文本摘要的工作流程:

数据收集

  • 数据预处理和预处理在src/data_preprocessing中实现。
  • 来自不同来源的数据收集:
    • CNN,《每日邮报》:新闻
    • 法案:法律
    • ARXIV:科学
    • 对话:对话
  • 数据集成确保鲁棒和多目标数据,包括新闻文章,法律文件 – 法律,判断,科学论文和对话。
  • 使用每个数据源的频率绘图通过数据统计数据和探索性数据分析(EDA)验证了数据。
  • 针对NLP任务进行了优化的数据清洁:删除了无效记录,下刻度,标点符号去除,停止单词删除和lemmatization。
  • 使用SCI-KIT学习数据进行培训,测试和验证CSV格式保存的模型。

抽象文本摘要

模型培训和评估

  • 培训:

    • 抽象摘要的选定变压器体系结构:对预训练的模型进行微调。
    • 选择Facebook的BART大型模型,用于其性能指标和有效的可训练参数。
      • 406,291,456培训参数。

  • 方法:

    • 本地Pytorch实施
    • 培训师API实施

方法1-本机Pytorch

  • 使用手动训练环和Pytorch中的评估循环训练了该模型。实施: src/model.ipynb
  • 模型评估:源代码: src/evaluation.ipynb

    • 获得了不一致的推论结果。
    • rouge1(f-measure)= 00.018
    • 使用方法1训练时有一个可疑的张量错误,这可以归因于模型输出的不一致。
    • 被拒绝进行进一步部署。
    • 艰苦需要实施替代方法。

方法2 – 培训师类实施

  • 利用教练API从拥抱面前进行优化的变压器模型培训。实施: src/bart.ipynb

    • 该模型在125420步骤中使用了26:24:22(HH:MM:SS)的整个数据集进行了10个时期的培训。
  • 评估:使用胭脂分数的性能指标。源代码: src/rouge.ipynb

    • 模型2-结果优于方法1。Rouge1
    • (f-measure)= 61.32- >基准分级

      • 明显高于公共数据集上最新模型的典型分数。
    • 文本摘要的GPT4性能-ROUGE1(F -measure)为63.22
    • 进行进一步部署。
  • 比较分析显示微调后的性能显着改善。源代码: src/compare.ipynb

提取性文本摘要

  • 而不是选择基于规则的方法的计算密集程度深度学习模型将导致最佳解决方案。利用了一种新的和新颖的方法来组合从TF-IDF和Kmeans聚类方法中获得的矩阵。
  • 它是专门应用于单个文档中嵌入的多个低级专业实体(IE,组)的扩展主题建模。它在单个文档和集群级别上运行。
  • 最接近质心(基于欧几里得距离)的句子被选为该集群的代表性句子。
  • 实现:预处理文本,使用TF-IDF提取功能,然后通过选择代表性句子进行总结。

    • 植入和评估的源代码: src/Extractive_Summarization.ipynb
    • rouge1(f-measure)= 24.71

测试

  • 实现的文本摘要应用程序,使用Gradio库用于基于Web的接口,用于测试模型的推断。
  • 源代码: src/interface.ipynb

部署

应用

  • 程序文件结构: summarize/

API端点

  • 使用FastAPI框架来处理URL,文件和直接文本输入开发。
    • 源代码: summarizer/app.py
  • 端点:

    • 根端点
    • 汇总URL
    • 汇总文件
    • 汇总文本

提取器模块

  • 从各种来源(URL,PDF,DOCX)提取文本,使用BeautifulSoup和Fitz提取文本。
  • 源代码: summarizer/extractors.py

提取摘要脚本

  • 实现的提取摘要模块。与以下内容相同:src/bart.ipynb
  • 源代码: summarizer/extractive_summary.py

用户界面

  • 使用HTML,CSS和JavaScript开发了用户友好的接口。
  • 源代码: summarizer/templates/index.html

容器化

  • 开发了一个Dockerfile,以构建FastAPI应用程序的Docker映像。
  • 源代码: summarizer/Dockerfile
  • 映像: Docker Image

CI/CD管道

  • 使用Docker,Azure和GitHub操作开发了CI/CD管道。
  • 利用Azure容器实例(ACI)来部署图像,每次推动到主分支。
  • 源代码: .github/workflows/azure.yml

    • .github/workflows/main.yml (aws)
    • .github/workflows/azure.yml (azure)(azure)
  • 使用docker image run:
docker pull mohankrishnagr/infosys_text-summarization:final docker run -p 8000:8000 mohankrishnagr/infosys_text-summarization:final

然后在

http://local*h*ost*:8000/

Checkout

http://local*h*ost*:8000/

部署在AWS EC2中(不建议在免费步道下)

公共IPv4:

http://54.1**6*8.82.95/

部署在Azure容器实例(推荐)

公共IPv4:

http://20.2**19.*203.134:8000/

:8000/

http://20.2**19.*203.134:8000/

fqdn

http://mohankrishnagr.ce*ntralind*ia.a*zurecontainer.io:8000/
  • 屏幕截图:

结尾

感谢您对我们的项目的兴趣!我们欢迎任何反馈。随时与我们联系。

下载源码

通过命令行克隆项目:

git clone https://github.com/MohanKrishnaGR/Infosys_Text-Summarization.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 Infosys_Text Summarization https://www.zuozi.net/33137.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务