Cloudflare 刚刚推出了一个 /crawl 端点,大家都炸了。



冷静下来。让我告诉你它到底是什么、不是什么,以及你可能根本用不到它。

/crawl 端点是一个封装器。你提供一个 URL,它会在 Cloudflare 的基础设施上启动无头浏览器,跟随链接,渲染 JavaScript,然后用一个 API 调用返回 markdown 或 JSON。

这很酷,但并不革命。

Firecrawl 做过这个。Crawl4AI 做过这个。Spider 也做过这个。他们已经做了几个月了。Cloudflare 只是把它加入到他们现有的浏览器渲染产品中,然后大家都表现得像他们发明了爬虫一样。

真正有趣的是:这是 Cloudflare。这意味着它很便宜,($0.09/小时)。

但问题是,你可能根本不需要爬虫。

有 8 种方式让 AI 代理读取网页。大多数人直接跳到复杂的方法,其实一个 50 毫秒的 HTTP 请求就能搞定。所以我们从最简单到最过度的逐一分析。

1. 原始 HTTP 获取

你的代理发出请求,得到 HTML。就这样。

就像阅读一本书的源代码,而不是印刷的页面。对简单网站、博客、维基、文档都很适用。在用 JavaScript 加载内容的网站上就不行。

速度:约50毫秒。成本:免费。

2. 可读性解析器

相同的,但带有清理步骤。去除导航栏、广告、页脚、cookie 横幅。只给你干净的 markdown 格式的文章文本。

不能处理 JavaScript 渲染的内容。但对于文章和文档来说,这很完美,也是我每天使用的。

速度:约100毫秒。成本:免费。

3. 无头浏览器 (本地)

启动一个隐形的 Chrome,像人一样加载页面。JavaScript 运行,内容渲染,一切加载完毕。你可以点击、滚动、填写表单、登录。

问题:速度慢,约 2-10 秒,且每个实例消耗约 200MB RAM,你还得维护基础设施。

工具:Playwright、Puppeteer、Selenium。

4. 云端浏览器 API

和 #3 类似,但由别人运行浏览器。你发出 URL,得到渲染好的页面。这就是 Cloudflare 的 /crawl 以及 Browserbase 和 Steel 所做的。

没有基础设施烦恼,容易扩展,价格便宜。权衡:对交互的控制较少。

5. 托管爬取 API

这是反机器人战的高级方案。ScrapingBee、Bright Data、轮换代理、CAPTCHA 破解、住宅 IP。当网站主动反抗你时用。

有效,但价格在每月 $49-499+。

6. AI 原生爬虫

Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自动转换成干净的 markdown/JSON。为 RAG(检索增强生成)管道设计。用自然语言定义提取规则。

这是 Cloudflare 现在竞争的“新潮流”。

7. 大型语言模型(LLM)提取

完全跳过代码。将网页内容放入 LLM,问“价格是多少?”用普通英语。没有 CSS 选择器,没有正则表达式,也不用担心网站重设计。

缺点:大规模使用成本高,(tokens 会快速累积。最好作为用方法 1-6 清理后最后一步。

8. 官方 API

大家都忘了这个。X、Reddit、大多数 SaaS 都有 API。结构化数据,无需解析,无需反机器人游戏。当 API 存在时,永远是最佳选择。

好的方案通常结合 2-3 种:

→ 获取 → 可读性 → 用 LLM 低成本提取文章

→ 云端浏览器 → 用 LLM 处理 JavaScript 密集型网站

→ 在 DevTools 中嗅探实际 API → 直接调用,圣杯,免费,最快,最可靠

→ AI 爬虫 → 向量数据库,建立完整知识库

每月 10,000 页的实际成本

• HTTP 请求:) • Jina 阅读器:( • Cloudflare 浏览器:~) • Spider:约 $4.80

• Firecrawl:$47/月

• ScrapingBee:$49-147/月

• Bright Data:$499+/月

我遵循的两个原则:

从简单开始。API > 请求 > 可读性 > 浏览器。只有当更简单的方法失败时,才增加复杂性。我看到有人为 curl 就能用的网站启动 Playwright。

大部分网站不需要 JavaScript 渲染。超过 60% 的网页是静态或服务器渲染的。先用简单请求测试。
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论