123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
- 带宽档位:独享1Gbps 至 100Gbps+(按需定制)
- 计费方式:按带宽固定计费,不按流量收费,成本可预测
- 服务保障:目标站点bot自动监控、保障目标网站不被封锁
批量 git clone Star 高于一定阈值的热门仓库,构建 Code LLM 训练语料。
使用 GitHub REST / GraphQL API 抓取 Issue、PR、Commit 历史等元数据。
定期同步仓库更新,构建持续更新的代码知识库。
为企业 GitHub / GitHub Enterprise 提供专线静态代理,做镜像与备份同步。
123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
仓库体积大 热门项目动辄数百 MB,加上依赖和历史版本,TB 级代码数据必须依赖高带宽。
高并发 clone / API
需要同时对数百、上千个仓库进行 clone / 更新检查。
API 限速与封禁 单 IP + 单 Token 容易触发 rate limit,需要多出口IP分摊请求。
成本可控 按流量计费对 TB 级 git clone 不友好,固定带宽计费更适合长期同步。
# 示例1:使用 123Proxy 高带宽代理IP进行 git clone
export https_proxy="http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"
export http_proxy="$https_proxy"
git clone https://github.com/owner/repo.git
不同的sessionId可绑定到不同出口IP,用于并发 clone 大量仓库。
# 示例2:通过 123Proxy 调用 GitHub API
import requests
proxies = {
"http": "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000",
"https": "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000",
}
headers = {
"Authorization": "Bearer YOUR_GITHUB_TOKEN",
"Accept": "application/vnd.github+json",
}
resp = requests.get(
"https://api.github.com/repos/owner/repo",
proxies=proxies,
headers=headers,
timeout=30,
)
print(resp.status_code, resp.json().get("full_name"))
解决建议:
http.postBuffer,并为大仓库增加重试逻辑。对于大规模 API 调用场景:
sessionId / 出口IP 分摊请求,避免集中在单一IP上。开源代码有各自的开源协议(MIT、Apache、GPL 等),用于训练和商用时应遵守对应协议。 123Proxy 只提供网络通道,不参与数据用途;请根据自身业务咨询法务团队,确保采集和使用合法合规。
利用海外代理IP为为 AI 和 LLM 赋能