123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
- 带宽档位:独享1Gbps 至 100Gbps+(按需定制)
- 计费方式:按带宽固定计费,不按流量收费,成本可预测
- 服务保障:目标站点bot自动监控、保障目标网站不被封锁
对 Alexa / Tranco Top 站点做长周期抓取,构建通用 LLM 文本语料。
采集新闻、博客、资讯网站的文章内容和标题,构建时间序列语料。
采集电商网站的商品标题、详情、评论文本等,用于推荐与搜索模型。
在论坛、问答社区(合规前提下)采集多轮对话文本,构建对话语料。
123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
请求量巨大 Top 站点全站抓取涉及数十亿 URL,长期持续抓取必须依靠高带宽与大并发。
JS 渲染和复杂页面
大量站点依赖 JS 渲染,需要 Playwright / Selenium 配合代理访问。
反爬与验证码 高频访问容易触发反爬、验证码与风控,需要多区域、多IP自动轮换。
成本可控 按流量计费在通用文本采集中同样成本不可控,固定带宽更适合中长期项目。
# 示例1:Scrapy settings.py 中使用 123Proxy 高带宽代理IP
HTTP_PROXY = "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"
DOWNLOADER_MIDDLEWARES = {
"scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware": 110,
"scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": 400,
}
# 示例2:Playwright 通过 123Proxy 出口访问页面
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch(
headless=True,
proxy={
"server": "http://gateway.123proxy.cn:31000",
"username": "USERNAME_sessionId_time",
"password": "PASSWORD",
},
)
page = browser.new_page()
page.goto("https://example.com", timeout=60000)
print(page.title())
browser.close()
通过为不同爬虫节点或任务分配不同sessionId,可以将 Top 站点的巨大请求量分散到海量出口IP上。
解决建议:
对于这类复杂防护网站,建议优先使用对方提供的开放 API 或数据接口,避免暴力抓取。 若确有合法业务需求,请严格控制请求频率,减少对目标站影响。
sessionId / 子账号,实现逻辑隔离。使用代理本身是合法的,但采集和使用文本数据要遵守目标站点条款与当地法律。 建议避免采集登录后内容、敏感个人信息,并在内部建立数据审计和删除机制,确保用于训练 LLM 的数据在合法合规范围内。
利用海外代理IP为为 AI 和 LLM 赋能