典型使用场景

使用 img2dataset 从 URL 列表批量下载上亿张图片,构建视觉/多模态训练语料。

通过 gallery-dl / aria2 从 Flickr、Shutterstock、社区站点批量拉取原图与多尺寸图片。

采集电商网站商品图、用户上传图等内容,用于多模态大模型和推荐系统训练。

多区域 IP(US/EU/JP/BR…)覆盖,构建多语种、多地域、多场景图片数据集。

什么是高带宽代理IP?

123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。


为何需要高带宽代理IP来配合图片数据采集工具

图片数量巨大 单张图片体积不大,但总量动辄千万级、上亿级,需要高吞吐带宽才能在有限时间内完成。

高并发需求 img2dataset / gallery-dl 通常使用几十进程、上百线程,需要代理支持大规模并发。

站点限速与封禁 电商/图库网站容易出现 403/429,必须依靠大规模 IP 池 + 自动轮换避免被封。

成本可控 按流量计费在图片场景同样容易失控,固定带宽计费适合长期持续跑图像任务。

Flickr集成示例

# 示例:使用 123Proxy 高带宽代理IP跑 img2dataset
export http_proxy="http://USERNAME_sessionId_time:PASSWORD@gateway.123proxy.cn:31000"
export https_proxy="$http_proxy"

img2dataset \
  --url_list urls.txt \
  --output_format webdataset \
  --input_format txt

为每台机器/每个任务分配不同的sessionId(自动换 IP),通过在用户名后追加_sessionId,可为不同任务绑定不同 Session,从而使用不同出口IP。


常见问题 FAQ

Q1:flickr / shutterstock 下载大量 403 / 429 / 超时,怎么办?

解决建议:

Q2:图片采集后发现很多损坏图片或占位图?

部分站点对异常IP返回占位图或空白图,推荐:

Q3:1Gbps、10Gbps、100Gbps 在图片场景能承载多少下载量?

我们可以根据你的目标图片数量和采集周期,反推所需带宽和并发策略。

Q4:下载速度忽高忽低怎么办?

Q5:采集图片是否合规?

使用代理本身是合法的,但采集、保存、使用图片数据应遵守目标站点的使用条款与版权法律。 请根据具体业务场景确认授权范围,仅在合法授权或合规前提下使用数据训练模型。

利用海外代理IP为为 AI 和 LLM 赋能

扫码客服微信咨询详情