1 LibCurl簡介php
LibCurl是免費的客戶端URL傳輸庫,支持FTP,FTPS, HTTP, HTTPS, SCP, SFTP, TFTP, TELNET, DICT, FILE ,LDAP等協議,其主頁是http://curl.haxx.se/。Libcurl具有線程安全、IpV6兼容、易於使用的特色。本文檔主要介紹LibCurl在http協議方面的應用。html
1.1HTTP協議格式編程
說明:本節主要介紹http協議,若熟悉http協議者可不看。瀏覽器
Http(超文本傳輸協議)是分佈式雙向超媒體信息系統應用層協議,主要應用於WWW。一般HTTP消息包括客戶機向服務器的請求消息和服務器向客戶機的響應消息。http消息(請求或者響應)消息的通用格式實質相同,這兩種類型的消息由一個起始行,一個或者多個頭域,一個只是頭域結束的空行和可選的消息體組成。HTTP的頭域包括通用頭,請求頭,響應頭和實體頭四個部分。緩存
起始行:請求消息中的的起始行稱爲請求行,由3個字段組成,它們定義請求的類型、URL和http版本,最後是回車和換行符。請求類型包括get、head、post、put、move等。響應消息中的的起始行稱爲,也由三個部分組成,http版本、狀態碼和狀態短語,最後是回車和換行符。全部的Http消息題頭安全
http頭域:HTTP的頭域按其所屬性質包括通用頭,請求頭,響應頭和實體頭四個部分。通用頭域容許出如今請求或者響應消息中,包含Cache-Control、 Connection、Date、Pragma、Transfer-Encoding、Upgrade、Via。請求頭域只容許出如今請求消息中,響應頭域只容許出如今響應消息中,實體頭部分提供有消息文檔主體信息,主要在響應消息中發送;可是請求消息(如post和put方法)也可使用實體題頭。服務器
每一個頭域由一個域名,冒號(:)和域值三部分組成。域名是大小寫無關的,域值前能夠添加任何數量的空格符,頭域能夠被擴展爲多行,在每行開始處,使用至少一個空格或製表符。下表爲一個典型的請求消息,下面介紹經常使用頭域:app
GET http://download.microtool.de:80/somedata.exe HTTP/1.1curl
Host: download.microtool.de分佈式
Accept:*/*
Pragma: no-cache
Cache-Control: no-cache
Referer: http://download.microtool.de/
User-Agent:Mozilla/4.04[en](Win95;I;Nav)
Range:bytes=554554-
消息的第一行是請求行,「GET」表示咱們所使用的HTTP動做,其餘可能的還有「POST」等,GET的消息沒有消息體,而POST消息是有消息體的,消息體的內容就是要POST的數據。後面http://download.microtool.de:80/somedata.exe就是咱們要請求的對象,以後HTTP1.1表示使用的是HTTP1.1協議。
從第2行開始進入http頭域,本例中共包括Host,Accept,Pragma,Cache-Control,Referer,User-Agent,Range域。
Host域:表示咱們所請求的主機和端口
Accept域:表示咱們所用的瀏覽器能接受的Content-type(通常包括image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword),
Pragma域:Pragma頭域用來包含實現特定的指令,最經常使用的是Pragma:no-cache。在HTTP/1.1協議中,它的含義和Cache- Control:no-cache相同。
Cache-Control域:Cache -Control指定請求和響應遵循的緩存機制。
Referer: Referer 頭域容許客戶端指定請求ui的原資源地址,這能夠容許服務器生成回退鏈表,可用來登錄、優化cache等。他也容許廢除的或錯誤的鏈接因爲維護的目的被追蹤。若是請求的uri沒有本身的uri地址,Referer不能被髮送。若是指定的是部分uri地址,則此地址應該是一個相對地址。
User-Agent頭域:User-Agent頭域的內容包含發出請求的用戶信息。
Range頭域:Range頭域能夠請求實體的一個或者多個子範圍,跟斷點續傳相關。例如,
表示頭500個字節:bytes=0-499
表示第二個500字節:bytes=500-999
表示最後500個字節:bytes=-500
表示500字節之後的範圍:bytes=500-
第一個和最後一個字節:bytes=0-0,-1
同時指定幾個範圍:bytes=500-600,601-999
可是服務器能夠忽略此請求頭,若是無條件GET包含Range,請求頭,響應會以狀態碼206(PartialContent)返回而不是以200 (OK)。
一個典型的響應消息格式以下:
HTTP/1.0200OK
Date:Mon,31Dec200104:25:57GMT
Server:Apache/1.3.14(Unix)
Content-type:text/html
Last-modified:Tue,17Apr200106:46:28GMT
Etag:"a030f020ac7c01:1e9f"
Content-length:39725426
Content-range:bytes554554-40279979/40279980
消息第一行爲響應行,起格式爲以下, 包括http版本、狀態碼和文本描述。
HTTP-Version SPStatus-CodeSP Reason-Phrase CRLF
HTTP -Version表示支持的HTTP版本,例如爲HTTP/1.1。Status- Code是一個三個數字的結果代碼。Reason-Phrase給Status-Code提供一個簡單的文本描述。Status-Code主要用於機器自動識別,Reason-Phrase主要用於幫助用戶理解。Status-Code的第一個數字定義響應的類別,後兩個數字沒有分類的做用。第一個數字可能取5個不一樣的值:
1xx:信息響應類,表示接收到請求而且繼續處理
2xx:處理成功響應類,表示動做被成功接收、理解和接受
3xx:重定向響應類,爲了完成指定的動做,必須接受進一步處理
4xx:客戶端錯誤,客戶請求包含語法錯誤或者是不能正確執行
5xx:服務端錯誤,服務器不能正確執行一個正確的請求
響應頭域容許服務器傳遞不能放在狀態行的附加信息,這些域主要描述服務器的信息和 Request-URI進一步的信息。響應頭域包含Age、Location、Proxy-Authenticate、Public、Retry- After、Server、Vary、Warning、WWW-Authenticate。對響應頭域的擴展要求通信雙方都支持,若是存在不支持的響應頭域,通常將會做爲實體頭域處理。
在上表中,從第二行開始進入http頭域。包括Date、Server、Content-type、Last-modified、Etag、Content-length、Content-range域。一些比較重要的頭域包括:
Location域:Location響應頭用於重定向接收者到一個新URI地址。
Content-Type:屬於實體頭,用於向接收方指示實體的介質類型,指定HEAD方法送到接收方的實體介質類型,或GET方法發送的請求介質類型 Content-Range實體頭
Content-length域:屬於實體頭,指明實體(文檔)長度,表示實際傳送的字節數。
Content-Range:屬於實體頭,用於指定整個實體中的一部分的插入位置,他也指示了整個實體的長度。在服務器向客戶返回一個部分響應,它必須描述響應覆蓋的範圍和整個實體長度。通常格式:
Content-Range:bytes-unitSP first-byte-pos-last-byte-pos/entity-legth
例如,傳送頭500個字節次字段的形式:Content-Range:bytes 0-499/1234若是一個http消息包含此節(例如,對範圍請求的響應或對一系列範圍的重疊請求),Content-Range表示傳送的範圍。
2 LibCurl編程
2.1 LibCurl編程流程
在基於LibCurl的程序裏,主要採用callback function (回調函數)的形式完成傳輸任務,用戶在啓動傳輸前設置好各種參數和回調函數,當知足條件時libcurl將調用用戶的回調函數實現特定功能。下面是利用libcurl完成傳輸任務的流程:
1. 調用curl_global_init()初始化libcurl
2. 調用 curl_easy_init()函數獲得 easy interface型指針
3. 調用curl_easy_setopt設置傳輸選項
4. 根據curl_easy_setopt設置的傳輸選項,實現回調函數以完成用戶特定任務
5. 調用curl_easy_perform()函數完成傳輸任務
6. 調用curl_easy_cleanup()釋放內存
在整過過程當中設置curl_easy_setopt()參數是最關鍵的,幾乎全部的libcurl程序都要使用它。
2.2 重要函數
1.CURLcode curl_global_init(long flags);
描述:
這個函數只能用一次。(其實在調用curl_global_cleanup 函數後仍然可再用)
若是這個函數在curl_easy_init函數調用時還沒調用,它講由libcurl庫自動完成。
參數:flags
CURL_GLOBAL_ALL //初始化全部的可能的調用。
CURL_GLOBAL_SSL //初始化支持 安全套接字層。
CURL_GLOBAL_WIN32 //初始化win32套接字庫。
CURL_GLOBAL_NOTHING //沒有額外的初始化。
2 void curl_global_cleanup(void);
描述:在結束libcurl使用的時候,用來對curl_global_init作的工做清理。相似於close的函數。
3 char *curl_version( );
描述: 打印當前libcurl庫的版本。
4 CURL *curl_easy_init( );
描述:
curl_easy_init用來初始化一個CURL的指針(有些像返回FILE類型的指針同樣). 相應的在調用結束時要用curl_easy_cleanup函數清理.
通常curl_easy_init意味着一個會話的開始. 它的返回值通常都用在easy系列的函數中.
5 void curl_easy_cleanup(CURL *handle);
描述:
這個調用用來結束一個會話.與curl_easy_init配合着用.
參數:
CURL類型的指針.
6 CURLcode curl_easy_setopt(CURL *handle, CURLoption option, parameter);
描述: 這個函數最重要了.幾乎全部的curl 程序都要頻繁的使用它.它告訴curl庫.程序將有如何的行爲. 好比要查看一個網頁的html代碼等.(這個函數有些像ioctl函數)參數:
1 CURL類型的指針
2 各類CURLoption類型的選項.(都在curl.h庫裏有定義,man 也能夠查看到)
3 parameter 這個參數 既能夠是個函數的指針,也能夠是某個對象的指針,也能夠是個long型的變量.它用什麼這取決於第二個參數.
CURLoption 這個參數的取值不少.具體的能夠查看man手冊.
7 CURLcode curl_easy_perform(CURL *handle);
描述:這個函數在初始化CURL類型的指針 以及curl_easy_setopt完成後調用. 就像字面的意思所說perform就像是個舞臺.讓咱們設置的
option 運做起來.參數:
CURL類型的指針.
3.3 curl_easy_setopt函數介紹
本節主要介紹curl_easy_setopt中跟http相關的參數。注意本節的闡述都是以libcurl做爲主體,其它爲客體來闡述的。
1. CURLOPT_URL
設置訪問URL
2. CURLOPT_WRITEFUNCTION,CURLOPT_WRITEDATA
回調函數原型爲:size_t function( void *ptr, size_t size, size_t nmemb, void *stream); 函數將在libcurl接收到數據後被調用,所以函數多作數據保存的功能,如處理下載文件。CURLOPT_WRITEDATA 用於代表CURLOPT_WRITEFUNCTION函數中的stream指針的來源。
3. CURLOPT_HEADERFUNCTION,CURLOPT_HEADERDATA
回調函數原型爲 size_t function( void *ptr, size_t size,size_t nmemb, void *stream); libcurl一旦接收到http 頭部數據後將調用該函數。CURLOPT_WRITEDATA 傳遞指針給libcurl,該指針代表CURLOPT_HEADERFUNCTION 函數的stream指針的來源。
4. CURLOPT_READFUNCTION CURLOPT_READDATA
libCurl須要讀取數據傳遞給遠程主機時將調用CURLOPT_READFUNCTION指定的函數,函數原型是:size_t function(void *ptr, size_t size, size_t nmemb,void *stream). CURLOPT_READDATA 代表CURLOPT_READFUNCTION函數原型中的stream指針來源。
5. CURLOPT_NOPROGRESS,CURLOPT_PROGRESSFUNCTION,CURLOPT_PROGRESSDATA
跟數據傳輸進度相關的參數。CURLOPT_PROGRESSFUNCTION 指定的函數正常狀況下每秒被libcurl調用一次,爲了使CURLOPT_PROGRESSFUNCTION被調用,CURLOPT_NOPROGRESS必須被設置爲false,CURLOPT_PROGRESSDATA指定的參數將做爲CURLOPT_PROGRESSFUNCTION指定函數的第一個參數
6. CURLOPT_TIMEOUT,CURLOPT_CONNECTIONTIMEOUT:
CURLOPT_TIMEOUT 因爲設置傳輸時間,CURLOPT_CONNECTIONTIMEOUT 設置鏈接等待時間
7. CURLOPT_FOLLOWLOCATION
設置重定位URL
CURLOPT_RANGE: CURLOPT_RESUME_FROM:
斷點續傳相關設置。CURLOPT_RANGE 指定char *參數傳遞給libcurl,用於指明http域的RANGE頭域,例如:
表示頭500個字節:bytes=0-499
表示第二個500字節:bytes=500-999
表示最後500個字節:bytes=-500
表示500字節之後的範圍:bytes=500-
第一個和最後一個字節:bytes=0-0,-1
同時指定幾個範圍:bytes=500-600,601-999
CURLOPT_RESUME_FROM 傳遞一個long參數給libcurl,指定你但願開始傳遞的
偏移量。
3.4 curl_easy_perform 函數說明(error 狀態碼)
該函數完成curl_easy_setopt指定的全部選項,本節重點介紹curl_easy_perform的返回值。返回0意味一切ok,非0表明錯誤發生。主要錯誤碼說明:
1. CURLE_OK
任務完成一切都好
2 CURLE_UNSUPPORTED_PROTOCOL
不支持的協議,由URL的頭部指定
3 CURLE_COULDNT_CONNECT
不能鏈接到remote 主機或者代理
4 CURLE_REMOTE_ACCESS_DENIED
訪問被拒絕
5 CURLE_HTTP_RETURNED_ERROR
Http返回錯誤
6 CURLE_READ_ERROR
讀本地文件錯誤
4.實例
4.1 獲取html網頁
#include <stdio.h> #include <curl/curl.h> #include <stdlib.h> int main(int argc, char *argv[]) { CURL *curl; //定義CURL類型的指針 CURLcode res; //定義CURLcode類型的變量,保存返回狀態碼 if(argc!=2) { printf("Usage : file <url>;/n"); exit(1); } curl = curl_easy_init(); //初始化一個CURL類型的指針 if(curl!=NULL) { //設置curl選項. 其中CURLOPT_URL是讓用戶指定url. argv[1]中存放的命令行傳進來的網址 curl_easy_setopt(curl, CURLOPT_URL, argv[1]); //調用curl_easy_perform 執行咱們的設置.並進行相關的操做. 在這裏只在屏幕上顯示出來. res = curl_easy_perform(curl); //清除curl操做. curl_easy_cleanup(curl); } return 0; }
編譯
gcc get_http.c -o get_http `curl-config --libs`
./get_http www.baidu.com
4.2 網頁下載保存實例
// 採用CURLOPT_WRITEFUNCTION 實現網頁下載保存功能 #include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <curl/curl.h> #include <curl/typecheck-gcc.h> #include <curl/easy.h> FILE *fp; //定義FILE類型指針 //這個函數是爲了符合CURLOPT_WRITEFUNCTION而構造的 //完成數據保存功能 size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream) { int written = fwrite(ptr, size, nmemb, (FILE *)fp); return written; } int main(int argc, char *argv[]) { CURL *curl; curl_global_init(CURL_GLOBAL_ALL); curl=curl_easy_init(); curl_easy_setopt(curl, CURLOPT_URL, argv[1]); if((fp=fopen(argv[2],"w"))==NULL) { curl_easy_cleanup(curl); exit(1); } ////CURLOPT_WRITEFUNCTION 將後繼的動做交給write_data函數處理 curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data); curl_easy_perform(curl); curl_easy_cleanup(curl); exit(0); }
編譯gcc save_http.c -o save_http `curl-config --libs`
./save_http www.baidu.com /tmp/baidu
4.3 進度條實例??顯示文件下載進度
// 採用CURLOPT_NOPROGRESS, CURLOPT_PROGRESSFUNCTION CURLOPT_PROGRESSDATA 實現文件傳輸進度提示功能 //函數採用了gtk庫,故編譯時需指定gtk庫 //函數啓動專門的線程用於顯示gtk 進度條bar #include <stdio.h> #include <gtk/gtk.h> #include <curl/curl.h> #include <curl/typecheck-gcc.h> /* new for v7 */ #include <curl/easy.h> /* new for v7 */ GtkWidget *Bar; ////這個函數是爲了符合CURLOPT_WRITEFUNCTION而構造的 //完成數據保存功能 size_t my_write_func(void *ptr, size_t size, size_t nmemb, FILE *stream) { return fwrite(ptr, size, nmemb, stream); } //這個函數是爲了符合CURLOPT_READFUNCTION而構造的 //數據上傳時使用 size_t my_read_func(void *ptr, size_t size, size_t nmemb, FILE *stream) { return fread(ptr, size, nmemb, stream); } //這個函數是爲了符合CURLOPT_PROGRESSFUNCTION而構造的 //顯示文件傳輸進度,t表明文件大小,d表明傳輸已經完成部分 int my_progress_func(GtkWidget *bar, double t, /* dltotal */ double d, /* dlnow */ double ultotal, double ulnow) { /* printf("%d / %d (%g %%)/n", d, t, d*100.0/t);*/ gdk_threads_enter(); gtk_progress_set_value(GTK_PROGRESS(bar), d*100.0/t); gdk_threads_leave(); return 0; } void *my_thread(void *ptr) { CURL *curl; CURLcode res; FILE *outfile; gchar *url = ptr; curl = curl_easy_init(); if(curl) { outfile = fopen("test.curl", "w"); curl_easy_setopt(curl, CURLOPT_URL, url); curl_easy_setopt(curl, CURLOPT_WRITEDATA, outfile); curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, my_write_func); curl_easy_setopt(curl, CURLOPT_READFUNCTION, my_read_func); curl_easy_setopt(curl, CURLOPT_NOPROGRESS, 0L); curl_easy_setopt(curl, CURLOPT_PROGRESSFUNCTION, my_progress_func); curl_easy_setopt(curl, CURLOPT_PROGRESSDATA, Bar); res = curl_easy_perform(curl); fclose(outfile); /* always cleanup */ curl_easy_cleanup(curl); } return NULL; } int main(int argc, char **argv) { GtkWidget *Window, *Frame, *Frame2; GtkAdjustment *adj; /* Must initialize libcurl before any threads are started */ curl_global_init(CURL_GLOBAL_ALL); /* Init thread */ g_thread_init(NULL); gtk_init(&argc, &argv); Window = gtk_window_new(GTK_WINDOW_TOPLEVEL); Frame = gtk_frame_new(NULL); gtk_frame_set_shadow_type(GTK_FRAME(Frame), GTK_SHADOW_OUT); gtk_container_add(GTK_CONTAINER(Window), Frame); Frame2 = gtk_frame_new(NULL); gtk_frame_set_shadow_type(GTK_FRAME(Frame2), GTK_SHADOW_IN); gtk_container_add(GTK_CONTAINER(Frame), Frame2); gtk_container_set_border_width(GTK_CONTAINER(Frame2), 5); adj = (GtkAdjustment*)gtk_adjustment_new(0, 0, 100, 0, 0, 0); Bar = gtk_progress_bar_new_with_adjustment(adj); gtk_container_add(GTK_CONTAINER(Frame2), Bar); gtk_widget_show_all(Window); if (!g_thread_create(&my_thread, argv[1], FALSE, NULL) != 0) g_warning("can't create the thread"); gdk_threads_enter(); gtk_main(); gdk_threads_leave(); return 0; }
$ gcc progress.c -o progress `pkg-config --libs --cflags gtk+-2.0` `curl-config --libs` `pkg-config --libs gthread-2.0`
$ ./progress http://software.sky-union.cn/index.asp
4.4 斷點續傳實例
//採用CURLOPT_RESUME_FROM_LARGE 實現文件斷點續傳功能 #include <stdlib.h> #include <stdio.h> #include <sys/stat.h> #include <curl/curl.h> //這個函數爲CURLOPT_HEADERFUNCTION參數構造 /* 從http頭部獲取文件size*/ size_t getcontentlengthfunc(void *ptr, size_t size, size_t nmemb, void *stream) { int r; long len = 0; /* _snscanf() is Win32 specific */ // r = _snscanf(ptr, size * nmemb, "Content-Length: %ld/n", &len); r = sscanf(ptr, "Content-Length: %ld/n", &len); if (r) /* Microsoft: we don't read the specs */ *((long *) stream) = len; return size * nmemb; } /* 保存下載文件 */ size_t wirtefunc(void *ptr, size_t size, size_t nmemb, void *stream) { return fwrite(ptr, size, nmemb, stream); } /*讀取上傳文件 */ size_t readfunc(void *ptr, size_t size, size_t nmemb, void *stream) { FILE *f = stream; size_t n; if (ferror(f)) return CURL_READFUNC_ABORT; n = fread(ptr, size, nmemb, f) * size; return n; } // 下載 或者上傳文件函數 int download(CURL *curlhandle, const char * remotepath, const char * localpath, long timeout, long tries) { FILE *f; curl_off_t local_file_len = -1 ; long filesize =0 ; CURLcode r = CURLE_GOT_NOTHING; int c; struct stat file_info; int use_resume = 0; /* 獲得本地文件大小 */ //if(access(localpath,F_OK) ==0) if(stat(localpath, &file_info) == 0) { local_file_len = file_info.st_size; use_resume = 1; } //採用追加方式打開文件,便於實現文件斷點續傳工做 f = fopen(localpath, "ab+"); if (f == NULL) { perror(NULL); return 0; } //curl_easy_setopt(curlhandle, CURLOPT_UPLOAD, 1L); curl_easy_setopt(curlhandle, CURLOPT_URL, remotepath); curl_easy_setopt(curlhandle, CURLOPT_CONNECTTIMEOUT, timeout); // 設置鏈接超時,單位秒 //設置http 頭部處理函數 curl_easy_setopt(curlhandle, CURLOPT_HEADERFUNCTION, getcontentlengthfunc); curl_easy_setopt(curlhandle, CURLOPT_HEADERDATA, &filesize); // 設置文件續傳的位置給libcurl curl_easy_setopt(curlhandle, CURLOPT_RESUME_FROM_LARGE, use_resume?local_file_len:0); curl_easy_setopt(curlhandle, CURLOPT_WRITEDATA, f); curl_easy_setopt(curlhandle, CURLOPT_WRITEFUNCTION, wirtefunc); //curl_easy_setopt(curlhandle, CURLOPT_READFUNCTION, readfunc); //curl_easy_setopt(curlhandle, CURLOPT_READDATA, f); curl_easy_setopt(curlhandle, CURLOPT_NOPROGRESS, 1L); curl_easy_setopt(curlhandle, CURLOPT_VERBOSE, 1L); r = curl_easy_perform(curlhandle); fclose(f); if (r == CURLE_OK) return 1; else { fprintf(stderr, "%s/n", curl_easy_strerror(r)); return 0; } } int main(int c, char **argv) { CURL *curlhandle = NULL; curl_global_init(CURL_GLOBAL_ALL); curlhandle = curl_easy_init(); //download(curlhandle, "ftp://user:pass@host/path/file", "C://file", 0, 3); download(curlhandle , "http://software.sky-union.cn/index.asp","/work/index.asp",1,3); curl_easy_cleanup(curlhandle); curl_global_cleanup(); return 0; }
$ gcc resume.c -o resume `curl-config --libs`