现在的位置: 首页 > 综合 > 正文

CURL 下载

2012年11月11日 ⁄ 综合 ⁄ 共 7606字 ⁄ 字号 评论关闭

from:http://blog.csdn.net/lizhitao/article/details/6039473

from:http://www-900.ibm.com/cn/support/faqhtmlfaq/2311073I23001.htm

当时在开发《中国联通OSS-GSMWCDMA网络优化支撑系统部省接口技术》   时,部省接口广东省级系统需要在前端机采集华为bdf参数文件,由于网络设备原因,再经过多次与广东省联通局方沟通,他们也不愿意优化网络设备(可能需要申请经费购买相关设备),我发现每当连接上ftp服务器要读取(部分)时数据,就会出现io异常或读取数据超时,就会出现采集不全情况。 
说明:一般从ftp服务器读取数据几十字节到几百字节几KB不等,不连续,且不稳定,而且网络是经常间歇性的中断。

业务功能说明:华为给了一个他们前端机服务器ftp的帐号信息。我们需要采集24个不同dbf文件,然后把24个文件打包成XXX.tar.gz文件上传到联通总部系统,如果缺少一个dbf文件就算不合格的。
解决办法:1. 一个dbf文件一般大小不超过500KB,但是curl在下载有时只有每秒几十字节或几字节,那我们就需要考虑(观察)下载一个dbf文件大约需要多长时间。在使用curl有几个参数需要设置:超时时间,重试次数,设置两次重试的间隔时间,就像我们经常看抗日电视剧中情节,如果八路军子弹先被打完了,那就只有”我为鱼肉“了。超时时间设置过短,有可能该文件没有下载完全,就放弃了,直接下载next dbf 。如果想完全下载到所有文件,必须要观察,而且要观察经常最难下载的那几个dbf文件大概需要多长时间。最后进行预估设置一个值就ok了。

2.采集到XXX.tar.gz包中dbf还是不全。

超时时间设置比如30分钟/dbf,但是某种情况下,可能网络实在太差了,有些文件最终还是下载失败,那我们必须把下载失败的文件统一下载一个日志文件,这样维护人员容易知悉缺失文件,在适当的时候进行补才操作。

curl -u OMCreader:FtAcUs   -P - -o D:/data/concurrent/2729/BSCCELL.DBF   -m 600 -R -C -   --retry 5 --retry-delay 120 --retry-max-time 20
1>>192.168.113.210_err.log 2>>192.168.113.210_stdout.log
rem 指定跳转到标签,找到标签后,程序将处理从下一行开始的命令。
if %errorlevel%==0  (echo BSCCELL.DBF下载成功>>192.168.113.210_stdout.log)  else BSCCELL.DBF下载失败>>192.168.113.210_stdout.log

对以上curl语句解释:

OMCreader:                                                               用户名

FtAcUs :                                                                      密码
  :下载文件ftp路径

-P                                                                                :FTP协议的数据传输存在两种模式:主动模式和被动模式 ,此处为被动模式

- -o                                                                              :输出路径

-m :                                                                              表示允许的整个操作的最长耗时,单位为秒

-R                                                                                 :该选项指定下载字节的范围,常应用于分块下载文件                                         

 -C                                                                                 :   表示断点续传功能,与-o选项配合使,如果指定offset,则从offset的位置开始续 传。如果未指定offset,或者直接用"-C -",则curl会自己分析该从什么位置开始续传。

--retry                                                                           : 当传输过程中出现错误,如超时、FTP 5xx返回码或者HTTP 5xx返回码,curl会进行按照设置进行重试,这几个选项都与重试有关

 --retry-delay <seconds>                                                 :设置两次重试的间隔时间,

--retry-max-time <seconds>                                             设置两次重试间隔的最长时间。默认情况下,curl不进行重试;如果重试,第一次间隔1秒,之后每次都间隔上一次的2倍时间,直到间隔时间达到10分钟,之后的重试都将采用10分钟间隔。如果这3个选项的值被重新设置,则执行设置值。

errorlevel:                                                                        判断上个命令的反回值.对下载文件成功与否下入日志文件。

if errorlevel 数值 command 语句
这个语句是用于判断上一个命令执行的返回值errorlevel,我们还是先来看看例子,
例13
@echo off 
net user 
if %errorlevel% == 0 (echo net user 命令执行成功) else (echo net user 命令执行失败) 
Pause
注意:%errorlevel% 这是个系统变量,所以用两个%括起来,这里的==为两个连续的=
也许有些朋友说我上面的例子是不是写错了?按照语法应该写成“if errorlevel 0”才对的呀。
如果你是这样用的话,那你就错了,还真不信呀?OK,我们来设计个实验看看

curl ftp下载用法(引用文章,其地址我已经忘了):

  curl的命令行工具功能非常强大,这些数据交互的功能基本上都是通过URL方式进行的,我们先来看看curl对多个URL的灵活操作,这些规则使我们的批处理需求应用起来非常方便。
   
    1、用{}表示多个URL
    如 ,只要在{}中写上不同的部分,就可以表示3个URL了。
   
    2、用[]表示多个URL
    如 ,,, []中表示按数字或字母的顺序排列。
    还能表示不连续的排列,如 http://www.numericals.com/file[1-100:10].txthttp://www.letters.com/file[a-z:2].txt,":"
后面的数字表示等差排列的阶跃数。
   
    3、结合起来使用
    如 。
   
   
    curl命令行工具的基本语句为:curl [options] [URL...],即 curl [选项] [下载地址]。因此,如果你想下载百度的首页,最简单的方法启动cmd,进入curl安装目录,输入命令:curl http://www.baidu.com,回车,你的输出窗口将立即出现百度首页的html数据。
    对于所有的布尔型option,基本上--option表示支持这个选项,--no-option表示禁用这个选项。下面总结几个比较有用的 options。
   
   1、-o/--output <file>
    这个基本上要算最常用的选项了,用于将下载的数据保存到某个文件中。如 curl -o baidu.html http://www.baidu.com则将百度首页保存到baidu.html 文件中了。下载过程中标准输出还会显示下载的统计信息,比如进度、下载字节数、下载速度等。如果指定输出为"-",则下载数据会输出到标准输出。
    如果输出的文件是一个多级目录的话,则要配合--create-dirs选项,--create-dirs将自动创建设置的输出目录。
    如果希望保存到本地的文件名和服务器上的相同,就可以直接用-O选项(大写O),而省去指定本地文件名。
    如果下载多个数据文件,可以使用上面提到的多URL规则。下载文件名也可以批量自定义,就是使用"#"。可以将"#"加到文件名当中,这样实际文件名中的#将被多个URL中的当前字符串代替,如 curl -o "#1_#2",#1将被"site"或"host"代替,#2将被1-5之间的数字代替,也就是被当前被处理的URL中的字符串代替。
    另外下载数据的时候,可以加个"-#"选项,用一个进度条来代替文本表示进度。
   
    2、-c/--cookie-jar <file name> 和 -b/--cookie <name=data>
    这是两个操作cookie的选项,很多服务器是需要cookie信息的。用前一个选项可以指定一个文件,将其他文件中的cookie或者从服务器得到的 cookie写到文件中;后一个选项则用来向服务器发送cookie信息,可以用"name=data"的形式,也可以直接跟一个保存cookie的文件名。
   
    3、-x/--proxy <proxyhost[:port]>
    该选项为http指定代理及端口,如果不指定端口,默认为1080。如 curl -x 201.36.208.19:3128 http://curl.haxx.se/
   
    4、-u/--user <user:password> 和 -U/--proxy-user <user:password>
    登录某些页面或ftp需要先进行认证,输入用户名和密码。curl的这个选项可以直接处理这类操作,用指定的账号和密码进行登录认证。
    后面的选项指定代理的用户名和密码,这样便可以直接用这个代理访问网页了,如  curl -U user:password -x 201.36.208.19:3128 http://curl.haxx.se/
   
    5、-A/--user-agent <agent string>
    该选项可以指定客户端类型,服务器通过该选项判断用户应用的平台及浏览器信息。如 curl -A "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"http://www.clientinfo.com
表示告诉服务器,客户端是运行在Windows 2000系统上的IE6.0。

 

    6、-d/--data <data>
    该选项用来以POST方式向http服务器发送特定数据,最常用的就是提交表单。如 curl -d "user=username&password=111" http://www.login.com,表示用账号username和密码111向站点发送登录申请。其中多个数据段可以用"&"进行连接一起发送;如果数据前面加上符号"@",则数据来源为后面指定的文件,如 curl -d http://www.login.com

 

    7、-C/--continue-at <offset>
    改选项提供断点续传功能,与-o选项配合使用。如 curl -c -O http://vfile.home.news.cn/music/public/vd05/200905/31/a8/MUfs052009053117155750a8be70.mp3。如果指定offset,则从offset的位置开始续传。如果未指定offset,或者直接用"-C
-",则curl会自己分析该从什么位置开始续传。

 

    8、-r/--range <range>
    该选项指定下载字节的范围,常应用于分块下载文件。range的表示方式有多种,如100-500,则指定从100开始的400个字节数据;-500表示最后的500个字节;5000-表示从第5000个字节开始的所有字节;另外还可以同时指定多个字节块,中间用","分开。如
    curl -r 0-1024000 -o new_divide_1.mp3 http://vfile.home.news.cn/music/public/vd05/200905/31/a8/MUfs052009053117155750a8be70.mp3 &
    curl -r 1024001-2048000 -o new_divide_2.mp3 http://vfile.home.news.cn/music/public/vd05/200905/31/a8/MUfs052009053117155750a8be70.mp3 &
    curl -r 2048001- -o new_divide_3.mp3 http://vfile.home.news.cn/music/public/vd05/200905/31/a8/MUfs052009053117155750a8be70.mp3
    这样就会将目标mp3文件分块下载为3个文件,然后可以用dos的copy命令:copy new_divide_1.mp3/b + new_divide_2.mp3/b + new_divide_3.mp3/b new_divide.mp3即可将3个分块文件合并为一个完整的mp3文件。
   
    9、-w/--write-out <format>
    该选项格式化输出一些用户操作的数据信息,用到的格式化输出符除了"/n","/r","/t"这些常见转义符外,还包括"@"和http://curl.haxx.se/,其中-s表示安静模式,即略去所有状态信息。
   
    10、--connect-timeout <seconds> 和 -m/--max-time <seconds>
    前者表示允许的连接的最长耗时,单位为秒;后者表示允许的整个操作的最长耗时,单位为秒,这个选项对于控制一个批处理操作的时长非常有用。
   
    11、--limit-rate <speed> 、 -Y/--speed-limit <speed> 和 -y/--speed-time <time>
    --limit-rate <speed>指定最大的数据传输率,单位为bytes/s,也可以用'k'或'K'表示kb/s,'m'或'M'表示mb/s,'g'或 'G'表示gb/s,所给的speed为平均传输率,短时间峰值可能会超过此值;
-Y/--speed-limit <speed>指定最小传输率,单位为bytes/s,如果小于speed值,则传输中止,如此时-y选项没有被设置,默认time为 30;-y/--speed-time <time>指定-Y选项的有效时间段,如果-Y选项没有被设置,默认为1。

 

    12、--max-filesize <bytes>
    该选项指定所要下载的文件的最大长度,如果超过bytes值,则下载并不开始,curl返回退出码63。
   
    13、--retry <num> 、 --retry-delay <seconds> 和 --retry-max-time <seconds>
    当传输过程中出现错误,如超时、FTP 5xx返回码或者HTTP 5xx返回码,curl会进行按照设置进行重试,这几个选项都与重试有关。--retry <num>设置重试次数,--retry-delay <seconds>设置两次重试的间隔时间,--retry-max-time <seconds>设置两次重试间隔的最长时间。默认情况下,curl不进行重试;如果重试,第一次间隔1秒,之后每次都间隔上一次的2倍时间,直到间隔时间达到10分钟,之后的重试都将采用10分钟间隔。如果这3个选项的值被重新设置,则执行设置值。
   
    14、-T/--upload-file <file>
    该选项是上传命令,如向http服务器上传一个文件:curl -T D:/new_divide.mp3 http://www.uploadserver.com/path/;向一个ftp服务器上传文件:curl -T D:/new_divide.mp3 -u user:password ftp://upload_site:port/path/
    curl定义了一组"EXIT CODES",用来标识在出现错误时的相关信息,目前范围从1-83,具体信息可以查阅curl库自带的文档。这些退出码对于我们分析错误及原因有很大帮助。

15、关于 REFER 防盗链下载
有些网络资源访问的时候必须经过另外一个网络地址跳转过去,这用术语来说是:referer,引用。对于这种地址的资源,curl也可以下载:
curl -e http://curl.haxx.se daniel.haxx.se

16、curl简介

curl是一个利用URL语法在命令行方式下工作的文件传输工具。本文介绍了它的简单用法。

curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传, 上载文件断点续传,
http代理服务器管道( proxy tunneling), 甚至它还支持IPv6, socks5代理服务器, 通过http代理服务器上传文件到FTP服务器等等,功能十分强大。Windows操作系统下的网络蚂蚁,网际快车(FlashGet)的功能它都可以做到。准确的说,curl支持文件的上传和下载,所以是一个综合传输工具,但是按照传统,用户习惯称curl为下载工具。

curl是瑞典curl组织开发的,您可以访问http://curl.haxx.se/获取它的源代码和相关说明。

抱歉!评论已关闭.