寻找一种更快,更简单的方式来大规模刮擦(只有5行代码)?在Scrapegraphai.com上查看我们的增强版本!
?️Scrapegraphai:您只刮擦一次
英语| 中文| 日本语| 한국어| n Türkçe|德意志| Español| Français|葡萄牙
ScrapeGraphai是一个使用LLM和Direct Graph Logic的Web刮擦Python库来创建用于网站和本地文档的刮擦管道(XML,HTML,JSON,MARKDOWN等)。
只需说您要提取哪些信息,图书馆就会为您完成!
集成
Scrapegraphai提供了与流行框架和工具无缝集成,以增强您的刮擦功能。无论您是使用Python还是Node.js构建,使用LLM Frameworks或使用NoCode平台,我们都可以覆盖我们的全面集成选项。
您可以在以下链接中找到更多信息
集成:
集成:
- API :文档
- SDK :Python,节点
- LLM框架:Langchain,Llama Index,Crew.ai,Agno,Camelai
- 低代码框架:管道,气泡,Zapier,N8N,Dify
- MCP服务器:链接
快速安装
ScrapeGraph-ai的参考页面可在PYPI:PYPI的官方页面上找到。
pip install scrapegraphai # IMPORTANT (for fetching websites content) playwright install
注意:建议在虚拟环境中安装库,以避免与其他库发生冲突?
用法
有多种标准刮擦管道可用于从网站(或本地文件)中提取信息。
最常见的是SmartScraperGraph,它从给定用户提示和源URL的单个页面中提取信息。
from scrapegraphai . graphs import SmartScraperGraph # Define the configuration for the scraping pipeline graph_config = { \"llm\" : { \"model\" : \"ollama/llama3.2\" , \"model_tokens\" : 8192 }, \"verbose\" : True , \"headless\" : False , } # Create the SmartScraperGraph instance smart_scraper_graph = SmartScraperGraph ( prompt = \"Extract useful information from the webpage, including a description of what the company does, founders and social media links\" , source = \"https://*scr*apegra*phai.com/\" , config = graph_config ) # Run the pipeline result = smart_scraper_graph . run () import json print ( json . dumps ( result , indent = 4 ))
笔记
对于OpenAI和其他型号,您只需要更改LLM配置!
graph_config = { \"llm\" : { \"api_key\" : \"YOUR_OPENAI_API_KEY\" , \"model\" : \"openai/gpt-4o-mini\" , }, \"verbose\" : True , \"headless\" : False , }
输出将是如下的字典:
{
\"description\" : \"ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.\" ,
\"founders\" : [
{
\"name\" : \"\" ,
\"role\" : \"Founder & Technical Lead\" ,
\"linkedin\" : \"https://www.*l*ink*edin.com/in/perinim/\"
},
{
\"name\" : \"Marco Vinciguerra\" ,
\"role\" : \"Founder & Software Engineer\" ,
\"linkedin\" : \"https://www.*lin*ked*in.com/in/marco-vinciguerra-7ba365242/\"
},
{
\"name\" : \"Lorenzo Padoan\" ,
\"role\" : \"Founder & Product Engineer\" ,
\"linkedin\" : \"https://www.li**nk*edin.com/in/lorenzo-padoan-4521a2154/\"
}
],
\"social_media_links\" : {
\"linkedin\" : \"https://www.link*edi**n.com/company/101881123\" ,
\"twitter\" : \"https://x*.com/s*c*rapegraphai\" ,
\"github\" : \"https://g*i*thub.*com/ScrapeGraphAI/Scrapegraph-ai\"
}
}
还有其他管道可用于从多个页面中提取信息,生成python脚本,甚至生成音频文件。
| 管道名称 | 描述 |
|---|---|
| SmartScrapergraph | 仅需要用户提示和输入源的单页刮板。 |
| 搜索图 | 多页刮板从搜索引擎的顶部搜索结果中提取信息。 |
| 语音图 | 单页刮板从网站提取信息并生成音频文件。 |
| ScriptCreatorGraph | 单页刮板从网站提取信息并生成Python脚本。 |
| Smartscrapersultraph | 多页刮板,从一个提示和一个来源列表中提取多个页面中的信息。 |
| ScriptCreatormultaph | 多页刮板生成一个Python脚本,用于从多个页面和来源中提取信息。 |
对于这些图,都有多版本。它允许并行呼叫LLM。
可以通过API(例如OpenAI , Groq , Azure和Gemini )或使用Ollama的本地模型使用不同的LLM。
请记住,如果要使用本地型号,请安装Ollama并使用Ollama Pull命令下载模型。
文档
Scrapegraphai的文档可以在此处找到。还在这里查看纪录片。
?贡献
随时贡献并加入我们的Discord服务器,与我们进行改进并提出建议!
请参阅贡献指南。
scrapegraph API和SDK
如果您正在寻找一个快速的解决方案来集成系统中的ScrapeGraph,请在此处查看我们功能强大的API!
我们在Python和Node.js中提供SDK,从而易于集成到您的项目中。在下面查看它们:
| SDK | 语言 | github链接 |
|---|---|---|
| Python SDK | Python | Scrapegraph-py |
| Node.js SDK | node.js | Scrapegraph-js |
可以在此处找到官方的API文档。
?遥测
我们收集匿名用法指标,以增强包装的质量和用户体验。数据有助于我们确定改进的优先级并确保兼容性。如果您想选择退出,请设置环境变量ScrapeGraphai_telemetry_enabled = false。有关更多信息,请参考此处的文档。
❤️贡献者
?引用
如果您将我们的图书馆用于研究目的,请引用我们以下参考:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://*gith*u*b.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
作者
| 联系信息 | |
|---|---|
| Marco Vinciguerra | |
| 洛伦佐·帕多安(Lorenzo Padoan) |
执照
Scrapegraphai已获得MIT许可证的许可。有关更多信息,请参见许可证文件。
致谢
- 我们要感谢该项目和开源社区的所有贡献者的支持。
- ScrapeGraphai仅用于数据探索和研究目的。我们对图书馆的任何滥用概不负责。
由Scrapegraph ai制成的
围巾跟踪
