典型使用场景

对 Alexa / Tranco Top 站点做长周期抓取,构建通用 LLM 文本语料。

采集新闻、博客、资讯网站的文章内容和标题,构建时间序列语料。

采集电商网站的商品标题、详情、评论文本等,用于推荐与搜索模型。

在论坛、问答社区(合规前提下)采集多轮对话文本,构建对话语料。

什么是高带宽代理IP?

123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。


为何需要高带宽代理IP来配合全网文本采集

请求量巨大 Top 站点全站抓取涉及数十亿 URL,长期持续抓取必须依靠高带宽与大并发。

JS 渲染和复杂页面 大量站点依赖 JS 渲染,需要 Playwright / Selenium 配合代理访问。

反爬与验证码 高频访问容易触发反爬、验证码与风控,需要多区域、多IP自动轮换。

成本可控 按流量计费在通用文本采集中同样成本不可控,固定带宽更适合中长期项目。

Scrapy / Playwright 集成示例

# 示例1:Scrapy settings.py 中使用 123Proxy 高带宽代理IP
HTTP_PROXY = "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"

DOWNLOADER_MIDDLEWARES = {
    "scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 110,
    "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 400,
}

# 示例2:Playwright 通过 123Proxy 出口访问页面
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(
        headless=True,
        proxy={
            "server": "http://gateway.123proxy.cn:31000",
            "username": "USERNAME_sessionId_time",
            "password": "PASSWORD",
        },
    )
    page = browser.new_page()
    page.goto("https://example.com", timeout=60000)
    print(page.title())
    browser.close()

通过为不同爬虫节点或任务分配不同sessionId,可以将 Top 站点的巨大请求量分散到海量出口IP上。


常见问题 FAQ

Q1:抓取 Top 站点经常返回 403 / 503,怎么办?

解决建议:

Q2:遇到 Cloudflare / Bot 防护,人机验证频繁出现?

对于这类复杂防护网站,建议优先使用对方提供的开放 API 或数据接口,避免暴力抓取。 若确有合法业务需求,请严格控制请求频率,减少对目标站影响。

Q3:1Gbps、10Gbps、100Gbps 在文本采集场景有什么区别?

Q4:Scrapy 分布式集群如何和代理搭配?

Q5:抓取文本数据时如何保证隐私与合规?

使用代理本身是合法的,但采集和使用文本数据要遵守目标站点条款与当地法律。 建议避免采集登录后内容、敏感个人信息,并在内部建立数据审计和删除机制,确保用于训练 LLM 的数据在合法合规范围内。

利用海外代理IP为为 AI 和 LLM 赋能

扫码客服微信咨询详情