如何提高全网抓取的成功率？

全网抓取最大的挑战是目标站点的多样化反爬策略。123Proxy 提供海量动态住宅/机房 IP 混合池，配合智能轮转算法，能显著提高抓取成功率至 99.9% 以上。

支持 Selenium 或 Playwright 吗？

完美支持。我们的代理兼容所有标准 HTTP/HTTPS/SOCKS5 协议，可无缝集成到 Scrapy、Selenium、Playwright、Puppeteer 等自动化框架中。

100Gbps 带宽能抓取多少个页面？

按平均 HTML 页面 100KB 计算，100Gbps 带宽每秒可抓取约 125,000 个页面，每天可采集超过 100 亿个网页，完全满足大规模 LLM 训练需求。

全网文本数据采集代理 | CommonCrawl & LLM 语料构建

Name: LLM 全网文本训练数据采集代理
Rating: 4.9 (756 reviews)
Author: 123Proxy

对 Alexa / Tranco Top 站点做长周期抓取，构建通用 LLM 文本语料。

采集新闻、博客、资讯网站的文章内容和标题，构建时间序列语料。

采集电商网站的商品标题、详情、评论文本等，用于推荐与搜索模型。

在论坛、问答社区（合规前提下）采集多轮对话文本，构建对话语料。

什么是高带宽代理IP？

123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务： 固定带宽计费（1Gbps–100Gbps+）、不限总流量、不限并发请求数，特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。

带宽档位：独享1Gbps 至 100Gbps+（按需定制）
计费方式：按带宽固定计费，不按流量收费，成本可预测
服务保障：目标站点bot自动监控、保障目标网站不被封锁

请求量巨大 Top 站点全站抓取涉及数十亿 URL，长期持续抓取必须依靠高带宽与大并发。

JS 渲染和复杂页面 大量站点依赖 JS 渲染，需要 Playwright / Selenium 配合代理访问。

反爬与验证码 高频访问容易触发反爬、验证码与风控，需要多区域、多IP自动轮换。

成本可控 按流量计费在通用文本采集中同样成本不可控，固定带宽更适合中长期项目。

Scrapy / Playwright 集成示例


# 示例1：Scrapy settings.py 中使用 123Proxy 高带宽代理IP
HTTP_PROXY = "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"

DOWNLOADER_MIDDLEWARES = {
    "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 110,
    "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 400,
}


# 示例2：Playwright 通过 123Proxy 出口访问页面
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(
        headless=True,
        proxy={
            "server": "http://gateway.123proxy.cn:31000",
            "username": "USERNAME_sessionId_time",
            "password": "PASSWORD",
        },
    )
    page = browser.new_page()
    page.goto("https://example.com", timeout=60000)
    print(page.title())
    browser.close()

通过为不同爬虫节点或任务分配不同sessionId，可以将 Top 站点的巨大请求量分散到海量出口IP上。

合规与道德承诺

我们深知数据合规对 AI 企业的重要性。123Proxy 的采集服务严格遵循 GDPR 与 CCPA 标准，我们仅采集公开可见的元数据与内容，不涉及任何用户隐私信息。我们致力于构建负责任的 AI 数据基础设施，助您在安全、合规的前提下挖掘数据价值。

常见问题 FAQ

Q1：抓取 Top 站点经常返回 403 / 503，怎么办？

解决建议：

启用123Proxy高带宽专用代理，利用多区域、多IP轮换降低封禁概率。
在 Scrapy / 自研爬虫中增加限速与退避策略，避免短时间内集中访问。

Q2：遇到 Cloudflare / Bot 防护，人机验证频繁出现？

对于这类复杂防护网站，建议优先使用对方提供的开放 API 或数据接口，避免暴力抓取。若确有合法业务需求，请严格控制请求频率，减少对目标站影响。

Q3：1Gbps、10Gbps、100Gbps 在文本采集场景有什么区别？

1Gbps：适合数百并发请求的中小规模抓取任务。
10Gbps：支持上千并发请求，可以在较短时间内完成 Top 站点一轮抓取。
100Gbps：适合全天候、全球范围的大规模 LLM 训练数据采集项目。

Q4：Scrapy 分布式集群如何和代理搭配？

多台爬虫机器共享同一高带宽代理出口，实现从 123Proxy 统一出网。
为不同爬虫项目或队列分配不同 sessionId / 子账号，实现逻辑隔离。

Q5：抓取文本数据时如何保证隐私与合规？

使用代理本身是合法的，但采集和使用文本数据要遵守目标站点条款与当地法律。建议避免采集登录后内容、敏感个人信息，并在内部建立数据审计和删除机制，确保用于训练 LLM 的数据在合法合规范围内。