Scrapegraph ai

2025-12-10 0 499

寻找一种更快,更简单的方式来大规模刮擦(只有5行代码)?Scrapegraphai.com上查看我们的增强版本!


?️Scrapegraphai:您只刮擦一次

英语| 中文| 日本语| 한국어| n Türkçe|德意志| Español| Français|葡萄牙

ScrapeGraphai是一个使用LLM和Direct Graph Logic的Web刮擦Python库来创建用于网站和本地文档的刮擦管道(XML,HTML,JSON,MARKDOWN等)。

只需说您要提取哪些信息,图书馆就会为您完成!

集成

Scrapegraphai提供了与流行框架和工具无缝集成,以增强您的刮擦功能。无论您是使用Python还是Node.js构建,使用LLM Frameworks或使用NoCode平台,我们都可以覆盖我们的全面集成选项。

您可以在以下链接中找到更多信息

集成

集成

  • API :文档
  • SDK :Python,节点
  • LLM框架:Langchain,Llama Index,Crew.ai,Agno,Camelai
  • 低代码框架:管道,气泡,Zapier,N8N,Dify
  • MCP服务器:链接

快速安装

ScrapeGraph-ai的参考页面可在PYPI:PYPI的官方页面上找到。

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

注意:建议在虚拟环境中安装库,以避免与其他库发生冲突?

用法

有多种标准刮擦管道可用于从网站(或本地文件)中提取信息。

最常见的是SmartScraperGraph,它从给定用户提示和源URL的单个页面中提取信息。

 from scrapegraphai . graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    \"llm\" : {
        \"model\" : \"ollama/llama3.2\" ,
        \"model_tokens\" : 8192
    },
    \"verbose\" : True ,
    \"headless\" : False ,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph (
    prompt = \"Extract useful information from the webpage, including a description of what the company does, founders and social media links\" ,
    source = \"https://*scr*apegra*phai.com/\" ,
    config = graph_config
)

# Run the pipeline
result = smart_scraper_graph . run ()

import json
print ( json . dumps ( result , indent = 4 ))

笔记

对于OpenAI和其他型号,您只需要更改LLM配置!

 graph_config = {
   \"llm\" : {
       \"api_key\" : \"YOUR_OPENAI_API_KEY\" ,
       \"model\" : \"openai/gpt-4o-mini\" ,
   },
   \"verbose\" : True ,
   \"headless\" : False ,
}

输出将是如下的字典:

{
    \"description\" : \"ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.\" ,
    \"founders\" : [
        {
            \"name\" : \"\" ,
            \"role\" : \"Founder & Technical Lead\" ,
            \"linkedin\" : \"https://www.*l*ink*edin.com/in/perinim/\"
        },
        {
            \"name\" : \"Marco Vinciguerra\" ,
            \"role\" : \"Founder & Software Engineer\" ,
            \"linkedin\" : \"https://www.*lin*ked*in.com/in/marco-vinciguerra-7ba365242/\"
        },
        {
            \"name\" : \"Lorenzo Padoan\" ,
            \"role\" : \"Founder & Product Engineer\" ,
            \"linkedin\" : \"https://www.li**nk*edin.com/in/lorenzo-padoan-4521a2154/\"
        }
    ],
    \"social_media_links\" : {
        \"linkedin\" : \"https://www.link*edi**n.com/company/101881123\" ,
        \"twitter\" : \"https://x*.com/s*c*rapegraphai\" ,
        \"github\" : \"https://g*i*thub.*com/ScrapeGraphAI/Scrapegraph-ai\"
    }
}

还有其他管道可用于从多个页面中提取信息,生成python脚本,甚至生成音频文件。

管道名称 描述
SmartScrapergraph 仅需要用户提示和输入源的单页刮板。
搜索图 多页刮板从搜索引擎的顶部搜索结果中提取信息。
语音图 单页刮板从网站提取信息并生成音频文件。
ScriptCreatorGraph 单页刮板从网站提取信息并生成Python脚本。
Smartscrapersultraph 多页刮板,从一个提示和一个来源列表中提取多个页面中的信息。
ScriptCreatormultaph 多页刮板生成一个Python脚本,用于从多个页面和来源中提取信息。

对于这些图,都有多版本。它允许并行呼叫LLM。

可以通过API(例如OpenAIGroqAzureGemini )或使用Ollama的本地模型使用不同的LLM。

请记住,如果要使用本地型号,请安装Ollama并使用Ollama Pull命令下载模型。

文档

Scrapegraphai的文档可以在此处找到。还在这里查看纪录片。

?贡献

随时贡献并加入我们的Discord服务器,与我们进行改进并提出建议!

请参阅贡献指南。

scrapegraph API和SDK

如果您正在寻找一个快速的解决方案来集成系统中的ScrapeGraph,请在此处查看我们功能强大的API!

我们在Python和Node.js中提供SDK,从而易于集成到您的项目中。在下面查看它们:

SDK 语言 github链接
Python SDK Python Scrapegraph-py
Node.js SDK node.js Scrapegraph-js

可以在此处找到官方的API文档。

?遥测

我们收集匿名用法指标,以增强包装的质量和用户体验。数据有助于我们确定改进的优先级并确保兼容性。如果您想选择退出,请设置环境变量ScrapeGraphai_telemetry_enabled = false。有关更多信息,请参考此处的文档。

❤️贡献者

?引用

如果您将我们的图书馆用于研究目的,请引用我们以下参考:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://*gith*u*b.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

作者

联系信息
Marco Vinciguerra
洛伦佐·帕多安(Lorenzo Padoan)

执照

Scrapegraphai已获得MIT许可证的许可。有关更多信息,请参见许可证文件。

致谢

  • 我们要感谢该项目和开源社区的所有贡献者的支持。
  • ScrapeGraphai仅用于数据探索和研究目的。我们对图书馆的任何滥用概不负责。

由Scrapegraph ai制成的

围巾跟踪

下载源码

通过命令行克隆项目:

git clone https://github.com/ScrapeGraphAI/Scrapegraph-ai.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 Scrapegraph ai https://www.zuozi.net/33855.html

daytona
上一篇: daytona
fswatch
下一篇: fswatch
常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务