爬虫标签的开源项目

爬虫

标签

Scrapling—自适应网页改版的 Python 爬虫框架

这是一款自适应的 Python 爬虫框架，解析器会学习网站结构变化，在页面改版后自动重新定位目标元素。内置开箱即用的抓取器，支持多会话并发、断点继续、域名屏蔽和

D4Vinci

·Python·1 个月前

1.9k

pydoll—无需 WebDriver 的浏览器自动化 Python 库

这是一个用于自动化操作 Chromium 内核浏览器的 Python 库。它通过原生 DevTools 协议（CDP）直接控制浏览器，无需依赖 WebDrive

autoscrape-labs

·Python·10 个月前

3.2k

FlareSolverr—绕过 CF 保护的代理服务器

该项目能够帮助开发者绕过 Cloudflare 和 DDoS-GUARD 防护。它通过在请求间设置代理服务，模拟 Chrome 无头浏览器完成挑战，可将真实页面

FlareSolverr

·Python·1 年前

1.6k

crawl4ai—LLM 友好的异步爬虫框架
2

这是一款用 Python 开发的异步爬虫框架，能够将网站上的数据转化成 Markdown、JSON 等 LLM 友好的输出格式。它完全开源且免费，极大地简化了异

unclecode

·Python·2 年前

6.2k

SeleniumBase—功能全面的浏览器自动化框架
1

该项目是基于 Selenium 的 Python 自动化测试框架，集成了爬虫、自动化测试和生成报告等多种功能。它提供了丰富的示例，并且独特的 UC 模式，可以帮

seleniumbase

·Python·2 年前

helium—简化浏览器自动化的 Python 库

该项目是基于 Selenium 的轻量级 Python 库，它通过提供更高级和易用的 API，让用 Python 编写浏览器自动化脚本变得更加简单和方便，支持

mherrmann

·Python·2 年前

3.6k

crawlee—更像人类行为的爬虫框架

这是一个网页抓取和浏览器自动化库，特点是用它写的爬虫也不容易被识别出来（封/ban）。它提供了强大的代理池功能，可以根据实际流量自动切换和移除失效的 IP，支持

apify

·TypeScript·2 年前

3.2k

Scrapegraph-ai—基于 AI 的 Python 爬虫
2

这是一个由 AI 驱动的 Python 爬虫库，它借助 LLM 的能力，可以根据提示词自动抓取目标网站的数据。

ScrapeGraphAI

·Python·2 年前

katana—开箱即用的爬虫工具和框架

该项目是用 Go 语言编写的爬虫框架，可作为命令行工具或库使用，支持无头模式、JS 解析、正则表达式、输出 JSON 文件和自动填写表单等功能。把它当成命令行工

projectdiscovery

·Go·2 年前

2.6k

undetected-chromedriver—绕过反爬检测的 Python 库
1

这是一个经过优化的 Selenium WebDriver 补丁，专门用于防止浏览器自动化过程中，触发反机器人机制。它能够隐藏浏览器特征（指纹），使用起来十分方便

ultrafunkamsterdam

·Python·2 年前

5.4k

DrissionPage—类似 selenuium 的网页自动化工具
12

这是一个基于 Python 的网页自动化工具，支持 Chromium 内核浏览器。它将控制浏览器和收发请求两大功能合二为一，并提供了统一、简洁的接口。

g1879

·Python·3 年前

3.8w

URLFinder—一款快速提取网页信息的工具

该项目可以快速爬取网页上的 URL 地址、JS 文件里的 API 接口等信息，支持批量抓取、深入抓取、安全抓取等模式。

pingc0y

·Go·3 年前

5.1k

EasySpider—一款可视化爬虫工具
7

该项目可以让用户在图形化界面下，无需写代码实现自动采集/爬虫的功能。用户只需要在网页上选择想要爬的内容，并根据提示框操作即可完成爬虫的设计和执行。

NaiboWang

·JavaScript·3 年前

2.4w

rod—Go 语言的网页自动化和爬虫库
1

该项目是 Go 语言封装的 DevTools 协议库，实现用 Go 语言操作浏览器，自动化之前需要手动完成的操作，比如：爬取客户端渲染的页面、端到端测试、自动填

go-rod

·Go·4 年前

1.3w

colly—可能是最知名的 Go 爬虫框架

它拥有友好的 API 和丰富代码示例，短时间内即可上手。性能方面单核能达到 1K 请求/秒，还可以轻松管理请求方式、间隔和最大并发数，功能强大且优雅。

gocolly

·Go·4 年前

2.7k

- 到底了，目前只开放了这些 -

推荐项目

换一换