典型使用场景

批量 git clone Star 高于一定阈值的热门仓库,构建 Code LLM 训练语料。

使用 GitHub REST / GraphQL API 抓取 Issue、PR、Commit 历史等元数据。

定期同步仓库更新,构建持续更新的代码知识库。

为企业 GitHub / GitHub Enterprise 提供专线静态代理,做镜像与备份同步。

什么是高带宽代理IP?

123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。


为何需要高带宽代理IP来配合 Github 代码采集

仓库体积大 热门项目动辄数百 MB,加上依赖和历史版本,TB 级代码数据必须依赖高带宽。

高并发 clone / API 需要同时对数百、上千个仓库进行 clone / 更新检查。

API 限速与封禁 单 IP + 单 Token 容易触发 rate limit,需要多出口IP分摊请求。

成本可控 按流量计费对 TB 级 git clone 不友好,固定带宽计费更适合长期同步。

git / GitHub API 集成示例

# 示例1:使用 123Proxy 高带宽代理IP进行 git clone
export https_proxy="http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"
export http_proxy="$https_proxy"

git clone https://github.com/owner/repo.git

不同的sessionId可绑定到不同出口IP,用于并发 clone 大量仓库。


# 示例2:通过 123Proxy 调用 GitHub API
import requests

proxies = {
    "http": "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000",
    "https": "http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000",
}

headers = {
    "Authorization": "Bearer YOUR_GITHUB_TOKEN",
    "Accept": "application/vnd.github+json",
}

resp = requests.get(
    "https://api.github.com/repos/owner/repo",
    proxies=proxies,
    headers=headers,
    timeout=30,
)
print(resp.status_code, resp.json().get("full_name"))

常见问题 FAQ

Q1:git clone 失败,提示 RPC failed / curl 56 / EOF / SSL 错误怎么办?

解决建议:

Q2:GitHub API 提示 rate limit exceeded?

对于大规模 API 调用场景:

Q3:1Gbps、10Gbps、100Gbps 在 git clone 场景能带来什么差异?

Q4:如何避免 clone 到一半频繁中断?

Q5:采集 Github 代码是否合规?

开源代码有各自的开源协议(MIT、Apache、GPL 等),用于训练和商用时应遵守对应协议。 123Proxy 只提供网络通道,不参与数据用途;请根据自身业务咨询法务团队,确保采集和使用合法合规。

利用海外代理IP为为 AI 和 LLM 赋能

扫码客服微信咨询详情