perl抓取網頁遇到的編碼問題

使用Perl的LWP模塊抓取搜房網站列表頁時,輸出的是亂碼。仔細檢查:html

  • 搜房網網頁,的確是GBK編碼。
  • Perl程序文件,輸出文件也都是GB2312格式,即便是輸出的CMD終端,也是GBK環境。

上網多放查找,找到解決方案:網站

    my %opts = (charset_strict  => 1,         
            default_charset => 'cp936',
           );
    $content = $response->decoded_content( %opts );

聽說是LWP模塊在識別編碼上,是有問題的,要手動選擇。編碼

參考連接:http://bbs.chinaunix.net/thread-4085860-1-1.htmlspa

相關文章
相關標籤/搜索