之前的這篇文章是有問題的。今天從新修改下。ide
CHtmlView->GetSource獲取到的源碼存在亂碼的狀況。就是字符集的問題,之前想多了。google
解決辦法也很簡單,就是根據網頁的charset中的內容進行內容轉碼便可。spa
好比charset = UTF-8的時候,就直接將UTF-8轉存ANSI或者UNICODE便可。code
若是是GB2312的,不須要轉換,在中文的系統環境中ANSI好像就是GB2312。這個具體能夠google下這2者的區別。blog
UTF-8轉UNICODE:字符串
MultiByteToWideChar(CP_UTF8, 0, lpUTF8, cbUTF8, lpUnicode, cchMaxUnicode);
UNICODE轉UTF-8:源碼
WideCharToMultiByte(CP_UTF8, 0, lpUnicode, cchUnicode, lpUTF8, cbMaxUnicode, NULL, NULL)
順便提一句:class
一、MultiByteToWideChar:第一個參數CodePage:指示的是源字符串的字符集;亂碼
二、WideCharToMultiByte:第一個參數CodePage:只是的是目標字符串的字符集;di