crawl4ai—LLM 友好的异步爬虫框架1这是一款用 Python 开发的异步爬虫框架,能够将网站上的数据转化成 Markdown、JSON 等 LLM 友好的输出格式。它完全开源且免费,极大地简化了异unclecode·HTML·2 个月前2.4k
SeleniumBase—功能全面的浏览器自动化框架1该项目是基于 Selenium 的 Python 自动化测试框架,集成了爬虫、自动化测试和生成报告等多种功能。它提供了丰富的示例,并且独特的 UC 模式,可以帮seleniumbase·Python·4 个月前2.7k
Scrapegraph-ai—基于 AI 的 Python 爬虫2这是一个由 AI 驱动的 Python 爬虫库,它借助 LLM 的能力,可以根据提示词自动抓取目标网站的数据。ScrapeGraphAI·Python·6 个月前3.4k
helium—简化浏览器自动化的 Python 库该项目是基于 Selenium 的轻量级 Python 库,它通过提供更高级和易用的 API,让用 Python 编写浏览器自动化脚本变得更加简单和方便,支持 mherrmann·Python·5 个月前1.7k
undetected-chromedriver—绕过反爬检测的 Python 库1这是一个经过优化的 Selenium WebDriver 补丁,专门用于防止浏览器自动化过程中,触发反机器人机制。它能够隐藏浏览器特征(指纹),使用起来十分方便ultrafunkamsterdam·Python·8 个月前2.9k
crawlee—更像人类行为的爬虫框架这是一个网页抓取和浏览器自动化库,特点是用它写的爬虫也不容易被识别出来(封/ban)。它提供了强大的代理池功能,可以根据实际流量自动切换和移除失效的 IP,支持apify·TypeScript·5 个月前1.5k
DrissionPage—类似 selenuium 的网页自动化工具10这是一个基于 Python 的网页自动化工具,支持 Chromium 内核浏览器。它将控制浏览器和收发请求两大功能合二为一,并提供了统一、简洁的接口。g1879·Python·1 年前3.5w
EasySpider—一款可视化爬虫工具5该项目可以让用户在图形化界面下,无需写代码实现自动采集/爬虫的功能。用户只需要在网页上选择想要爬的内容,并根据提示框操作即可完成爬虫的设计和执行。NaiboWang·JavaScript·2 年前2w
katana—开箱即用的爬虫工具和框架该项目是用 Go 语言编写的爬虫框架,可作为命令行工具或库使用,支持无头模式、JS 解析、正则表达式、输出 JSON 文件和自动填写表单等功能。把它当成命令行工projectdiscovery·Go·6 个月前1.1k
URLFinder—一款快速提取网页信息的工具该项目可以快速爬取网页上的 URL 地址、JS 文件里的 API 接口等信息,支持批量抓取、深入抓取、安全抓取等模式。pingc0y·Go·1 年前3.8k
rod—Go 语言的网页自动化和爬虫库1该项目是 Go 语言封装的 DevTools 协议库,实现用 Go 语言操作浏览器,自动化之前需要手动完成的操作,比如:爬取客户端渲染的页面、端到端测试、自动填go-rod·Go·2 年前1.1w
requests-html—人性化的解析 HTML 的 Python 库2写爬虫的小伙伴都感受过解析 HTML 的痛苦,常用工具 BeautifulSoup、lxml、Scrapy 的 selector 等。今天你有了新的选择 reqpsf·Python·4 年前1.1w
colly—可能是最知名的 Go 爬虫框架它拥有友好的 API 和丰富代码示例,短时间内即可上手。性能方面单核能达到 1K 请求/秒,还可以轻松管理请求方式、间隔和最大并发数,功能强大且优雅。gocolly·Go·2 年前1.5k
weiboSpider—Python 新浪微博爬虫Python 写的微博爬虫,命令行直接启动。支持获取微博用户、内容字段丰富。虽然爬虫的实战项目很多,但能一直更新的很少,因为只要数据源变动爬虫就要跟进迭代。这个dataabc·Python·3 年前2.1k
MechanicalSoup—自动与网站交互的轻量级 Python 库我们写爬虫一般是请求+解析两步走,该项目将 Requests(请求) 和 BeautifulSoup(解析) 两大 Python 爬虫常用库,封装成一个浏览器对MechanicalSoup·Python·2 年前1.5k