123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
- 带宽档位:独享1Gbps 至 100Gbps+(按需定制)
- 计费方式:按带宽固定计费,不按流量收费,成本可预测
- 服务保障:目标站点bot自动监控、保障目标网站不被封锁
使用 yt-dlp 批量下载 YouTube 频道 / 播放列表视频构建训练语料。
按关键词、语言、地区采集数十万 / 数百万条视频 URL 并下载音视频
仅抓取元数据(标题、描述、标签、字幕、评论),无需完整视频
多区域 IP(US/EU/JP/BR…)覆盖,构建多语种、多地域视频数据集
123Proxy提供专门面向AI训练数据采集的高带宽代理IP池服务: 固定带宽计费(1Gbps–100Gbps+)、不限总流量、不限并发请求数, 特别适合长时间、大规模的视频、图片、代码和全网文本数据抓取。
视频文件大 1080p 视频轻松几百 MB,4K 视频常见 1–3GB,PB 级数据必须依赖高带宽。
高并发需求
通常需要几百甚至上千并发任务同时跑 yt-dlp。
平台限速与封禁 单 IP 高频请求容易遇到 429/403,需要大规模 IP 池 + 自动轮换
成本可控 按流量计费在视频场景很容易失控,固定带宽计费更稳定。
# 示例:使用 123Proxy 高带宽代理IP下载YouTube 视频
yt-dlp \
--proxy "http://USERNAME_sessionId_time:PASSWORD@ytbproxy.123proxy.cn:35765" \
"https://www.youtube.com/watch?v=VIDEO_ID"
为每个任务分配不同的会话 ID(自动换 IP),通过在用户名后追加 _sessionId,可为每个下载任务绑定不同 Session,从而使用不同 IP
解决建议:
对于大文件视频,建议使用 Sticky Session:
在 123Proxy 中,使用带 Session ID 的用户名(如 USERNAME_sessA),在视频下载期间保持不变,
可以尽量保持同一出口 IP,减少连接重置。
我们可以根据你的项目目标(例如「10 天抓 5PB 视频」)反推所需带宽和并发策略。
--retries 10 --fragment-retries 20使用代理本身是合法的,但对 YouTube 等平台的数据抓取应严格遵守其服务条款和当地法律法规。
利用海外代理IP为为 AI 和 LLM 赋能