java處理高併發高負載類網站中數據庫的設計方法

java處理高併發高負載類網站中數據庫的設計方法(java教程,java處理大量數據,java高負載數據)

一:高併發高負載類網站關注點之數據庫

沒錯,首先是數據庫,這是大多數應用所面臨的首個SPOF。尤爲是Web2.0的應用,數據庫的響應是首先要解決的。
通常來講MySQL是最經常使用的,可能最初是一個mysql主機,當數據增長到100萬以上,那麼,MySQL的效能急劇降低。經常使用的優化措施是M-S(主-從)方式進行同步複製,將查詢和操做和分別在不一樣的服務器上進行操做。我推薦的是M-M-Slaves方式,2個主Mysql,多個Slaves,須要注意的是,雖然有2個Master,可是同時只有1個是Active,咱們能夠在必定時候切換。之因此用2個M,是保證M不會又成爲系統的SPOF。
Slaves能夠進一步負載均衡,能夠結合LVS,從而將select操做適當的平衡到不一樣的slaves上。
以上架構能夠抗衡到必定量的負載,可是隨着用戶進一步增長,你的用戶表數據超過1千萬,這時那個M變成了SPOF。你不能任意擴充Slaves,不然複製同步的開銷將直線上升,怎麼辦?個人方法是表分區,從業務層面上進行分區。最簡單的,以用戶數據爲例。根據必定的切分方式,好比id,切分到不一樣的數據庫集羣去。

全局數據庫用於meta數據的查詢。缺點是每次查詢,會增長一次,好比你要查一個用戶nightsailer,你首先要到全局數據庫羣找到nightsailer對應的cluster id,而後再到指定的cluster找到nightsailer的實際數據。
每一個cluster能夠用m-m方式,或者m-m-slaves方式。這是一個能夠擴展的結構,隨着負載的增長,你能夠簡單的增長新的mysql cluster進去。

須要注意的是:
一、禁用所有auto_increment的字段
二、id須要採用通用的算法集中分配
三、要具備比較好的方法來監控mysql主機的負載和服務的運行狀態。若是你有30臺以上的mysql數據庫在跑就明白個人意思了。
四、不要使用持久性連接(不要用pconnect),相反,使用sqlrelay這種第三方的數據庫連接池,或者乾脆本身作,由於php4中mysql的連接池常常出問題。

二:高併發高負載網站的系統架構之HTML靜態化

其實你們都知道,效率最高、消耗最小的就是純靜態化 http://www.ablanxue.com/shtml/201207/776.shtml的html頁面,因此咱們儘量使咱們的網站上的頁面採用靜態頁面來實現,這個最簡單的方法其實也是 最有效的方法。可是對於大量內容而且頻繁更新的網站,咱們沒法所有手動去挨個實現,因而出現了咱們常見的信息發佈系統CMS,像咱們常訪問的各個門戶站點 的新聞頻道,甚至他們的其餘頻道,都是經過信息發佈系統來管理和實現的,信息發佈系統能夠實現最簡單的信息錄入自動生成靜態頁面,還能具有頻道管理、權限 管理、自動抓取等功能,對於一個大型網站來講,擁有一套高效、可管理的CMS是必不可少的。
  
  除了門戶和信息發佈類型的網站,對於交互性要求很高的社區類型網站來講,儘量的靜態化也是提升性能的必要手段,將社區內的帖子、文章進行實時的靜態化,有更新的時候再從新靜態化也是大量使用的策略,像Mop的大雜燴就是使用了這樣的策略,網易社區等也是如此。
  
   同時,html靜態化也是某些緩存策略使用的手段,對於系統中頻繁使用數據庫查詢可是內容更新很小的應用,能夠考慮使用html靜態化來實現,好比論壇 中論壇的公用設置信息,這些信息目前的主流論壇均可以進行後臺管理而且存儲再數據庫中,這些信息其實大量被前臺程序調用,可是更新頻率很小,能夠考慮將這 部份內容進行後臺更新的時候進行靜態化,這樣避免了大量的數據庫訪問請求高併發。
  

網站HTML靜態化解決方案
當一個Servlet資源請求到達WEB服務器以後咱們會填充指定的JSP頁面來響應請求:

HTTP請求---Web服務器---Servlet--業務邏輯處理--訪問數據--填充JSP--響應請求

HTML靜態化以後:

HTTP請求---Web服務器---Servlet--HTML--響應請求

靜態訪求以下

Servlet:

public void doGet(HttpServletRequest request, HttpServletResponse response)  
        throws ServletException, IOException {  
    if(request.getParameter("chapterId") != null){  
        String chapterFileName = "bookChapterRead_"+request.getParameter("chapterId")+".html";  
        String chapterFilePath = getServletContext().getRealPath("/") + chapterFileName;  
        File chapterFile = new File(chapterFilePath);  
        if(chapterFile.exists()){response.sendRedirect(chapterFileName);return;}//若是有這個文件就告訴瀏覽器轉向   
        INovelChapterBiz novelChapterBiz = new NovelChapterBizImpl();  
        NovelChapter novelChapter = novelChapterBiz.searchNovelChapterById(Integer.parseInt(request.getParameter("chapterId")));//章節信息   
        int lastPageId = novelChapterBiz.searchLastCHapterId(novelChapter.getNovelId().getId(), novelChapter.getId());  
        int nextPageId = novelChapterBiz.searchNextChapterId(novelChapter.getNovelId().getId(), novelChapter.getId());  
        request.setAttribute("novelChapter", novelChapter);  
        request.setAttribute("lastPageId", lastPageId);  
        request.setAttribute("nextPageId", nextPageId);  
        new CreateStaticHTMLPage().createStaticHTMLPage(request, response, getServletContext(),   
                chapterFileName, chapterFilePath, "/bookRead.jsp");  
    }  
}  
生成HTML靜態頁面的類:

package com.jb.y2t034.thefifth.web.servlet;  
import java.io.ByteArrayOutputStream;  
import java.io.FileOutputStream;  
import java.io.IOException;  
import java.io.OutputStreamWriter;  
import java.io.PrintWriter;  
import javax.servlet.RequestDispatcher;  
import javax.servlet.ServletContext;  
import javax.servlet.ServletException;  
import javax.servlet.ServletOutputStream;  
import javax.servlet.http.HttpServletRequest;  
import javax.servlet.http.HttpServletResponse;  
import javax.servlet.http.HttpServletResponseWrapper;  
/**
* 建立HTML靜態頁面
* 功能:建立HTML靜態頁面
* 時間:2009年1011日
* 地點:home
* @author mavk
*
*/  
public class CreateStaticHTMLPage {  
    /**
     * 生成靜態HTML頁面的方法
     * @param request 請求對象
     * @param response 響應對象
     * @param servletContext Servlet上下文
     * @param fileName 文件名稱
     * @param fileFullPath 文件完整路徑
     * @param jspPath 須要生成靜態文件的JSP路徑(相對便可)
     * @throws IOException
     * @throws ServletException
     */  
    public void createStaticHTMLPage(HttpServletRequest request, HttpServletResponse response,ServletContext servletContext,String fileName,String fileFullPath,String jspPath) throws ServletException, IOException{  
        response.setContentType("text/html;charset=gb2312");//設置HTML結果流編碼(即HTML文件編碼)   
        RequestDispatcher rd = servletContext.getRequestDispatcher(jspPath);//獲得JSP資源   
        final ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();//用於從ServletOutputStream中接收資源   
        final ServletOutputStream servletOuputStream = new ServletOutputStream(){//用於從HttpServletResponse中接收資源   
            public void write(byte[] b, int off,int len){  
                byteArrayOutputStream.write(b, off, len);  
            }  
            public void write(int b){  
                byteArrayOutputStream.write(b);  
            }  
        };  
        final PrintWriter printWriter = new PrintWriter(new OutputStreamWriter(byteArrayOutputStream));//把轉換字節流轉換成字符流   
        HttpServletResponse httpServletResponse = new HttpServletResponseWrapper(response){//用於從response獲取結果流資源(重寫了兩個方法)   
            public ServletOutputStream getOutputStream(){  
                return servletOuputStream;  
            }  
            public PrintWriter getWriter(){  
                return printWriter;  
            }  
        };  
        rd.include(request, httpServletResponse);//發送結果流   
        printWriter.flush();//刷新緩衝區,把緩衝區的數據輸出   
        FileOutputStream fileOutputStream = new FileOutputStream(fileFullPath);  
        byteArrayOutputStream.writeTo(fileOutputStream);//把byteArrayOuputStream中的資源所有寫入到fileOuputStream中   
        fileOutputStream.close();//關閉輸出流,並釋放相關資源   
        response.sendRedirect(fileName);//發送指定文件流到客戶端   
    }  
}


三:高併發高負載類網站關注點之緩存、負載均衡、存儲

緩存是另外一個大問題,我通常用memcached來作緩存集羣,通常來講部署10臺左右就差很少(10g內存池)。須要注意一點,千萬不能用使用
swap,最好關閉linux的swap。


負載均衡/加速

可能上面說緩存的時候,有人第一想的是頁面靜態化,所謂的靜態html,我認爲這是常識,不屬於要點了。頁面的靜態化隨之帶來的是靜態服務的
負載均衡和加速。我認爲Lighttped+Squid是最好的方式了。
LVS <------->lighttped====>squid(s) ====lighttpd

上面是我常常用的。注意,我沒有用apache,除非特定的需求,不然我不部署apache,由於我通常用php-fastcgi配合lighttpd,
性能比apache+mod_php要強不少。

squid的使用能夠解決文件的同步等等問題,可是須要注意,你要很好的監控緩存的命中率,儘量的提升的90%以上。
squid和lighttped也有不少的話題要討論,這裏不贅述。


存儲
存儲也是一個大問題,一種是小文件的存儲,好比圖片這類。另外一種是大文件的存儲,好比搜索引擎的索引,通常單文件都超過2g以上。
小文件的存儲最簡單的方法是結合lighttpd來進行分佈。或者乾脆使用Redhat的GFS,優勢是應用透明,缺點是費用較高。我是指
你購買盤陣的問題。個人項目中,存儲量是2-10Tb,我採用了分佈式存儲。這裏要解決文件的複製和冗餘。
這樣每一個文件有不一樣的冗餘,這方面能夠參考google的gfs的論文。
大文件的存儲,能夠參考nutch的方案,如今已經獨立爲hadoop子項目。(你能夠google it)

其餘:
此外,passport等也是考慮的,不過都屬於比較簡單的了。
四:高併發高負載網站的系統架構之圖片服務器分離
你們知道,對於Web 服務器來講,無論是Apache、IIS仍是其餘容器,圖片是最消耗資源的,因而咱們有必要將圖片與頁面進行分離,這是基本上大型網站都會採用的策略,他 們都有獨立的圖片服務器,甚至不少臺圖片服務器。這樣的架構能夠下降提供頁面訪問請求的服務器系統壓力,而且能夠保證系統不會由於圖片問題而崩潰,在應用 服務器和圖片服務器上,能夠進行不一樣的配置優化,好比apache在配置ContentType的時候能夠儘可能少支持,儘量少的LoadModule, 保證更高的系統消耗和執行效率。


利用Apache實現圖片服務器的分離
原因:
起步階段的應用,均可能部署在一臺服務器上(費用上的緣由)
第一個優先分離的,確定是數據庫和應用服務器。
第二個分離的,會是什麼呢?各有各的考慮,我所在的項目組重點考慮的節約帶寬,服務器性能再好,帶寬再高,併發來了,也容易撐不住。所以,我這篇文章的重點在這裏。這裏重點是介紹實踐,不必定符合全部狀況,供看者參考吧,
環境介紹:
WEB應用服務器:4CPU雙核2G, 內存4G
  部署:Win2003/Apache Http Server 2.1/Tomcat6
數據庫服務器:4CPU雙核2G, 內存4G
  部署:Win2003/MSSQL2000
步驟:
步驟一:增長2臺配置爲:2CPU雙核2G,內存2G普通服務器,作資源服務器
  部署:Tomcat6,跑了一個圖片上傳的簡單應用,(記得指定web.xml的<distributable/>),並指定域名爲res1.***.com,res2.***.com,採用ajp協議
步驟二:修改Apache httpd.conf配置
  原來應用的文件上傳功能網址爲:
   一、/fileupload.html
   二、/otherupload.html
  在httpd.conf中增長以下配置

<VirtualHost *:80>   
  ServerAdmin webmaster@***.com   
  ProxyPass /fileupload.html balancer://rescluster/fileupload lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3      
  ProxyPass /otherupload.html balancer://rescluster/otherupload.html lbmethod=byrequests stickysession=JSESSIONID nofailover=Off timeout=5 maxattempts=3      
  #<!--負載均衡-->   
  <Proxy balancer://rescluster/>   
    BalancerMember ajp://res1.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat1   
    BalancerMember ajp://res2.***.com:8009 smax=5 max=500 ttl=120 retry=300 loadfactor=100 route=tomcat2   
  </Proxy>   
   
</VirtualHost>  
步驟三,修改業務邏輯:
  全部上傳文件在數據庫中均採用全url的方式保存,例如產品圖片路徑存成:http://res1.***.com/upload/20090101/product120302005.jpg

如今,你能夠高枕無憂了,帶寬不夠時,增長個幾十臺圖片服務器,只須要稍微修改一下apache的配置文件,便可。

五:高併發高負載網站的系統架構之數據庫集羣和庫表散列

大型網站都有複雜的應用,這些應用必須使用數據庫,那麼在面對大量訪問的時候,數據庫的瓶頸很快就能顯現出來,這時一臺數據庫將很快沒法知足應用,因而咱們須要使用數據庫集羣或者庫表散列。
  
  在數據庫集羣方面,不少數據庫都有本身的解決方案,Oracle、Sybase等都有很好的方案,經常使用的MySQL提供的Master/Slave也是相似的方案,您使用了什麼樣的DB,就參考相應的解決方案來實施便可。
  
   上面提到的數據庫集羣因爲在架構、成本、擴張性方面都會受到所採用DB類型的限制,因而咱們須要從應用程序的角度來考慮改善系統架構,庫表散列是經常使用並 且最有效的解決方案。咱們在應用程序中安裝業務和應用或者功能模塊將數據庫進行分離,不一樣的模塊對應不一樣的數據庫或者表,再按照必定的策略對某個頁面或者 功能進行更小的數據庫散列,好比用戶表,按照用戶ID進行表散列,這樣就可以低成本的提高系統的性能而且有很好的擴展性。sohu的論壇就是採用了這樣的 架構,將論壇的用戶、設置、帖子等信息進行數據庫分離,而後對帖子、用戶按照板塊和ID進行散列數據庫和表,最終能夠在配置文件中進行簡單的配置便能讓系 統隨時增長一臺低成本的數據庫進來補充系統性能。


集羣軟件的分類:
通常來說,集羣軟件根據側重的方向和試圖解決的問題,分爲三大類:高性能集羣(High performance cluster,HPC)、負載均衡集羣(Load balance cluster, LBC),高可用性集羣(High availability cluster,HAC)。
高性能集羣(High performance cluster,HPC),它是利用一個集羣中的多臺機器共同完成同一件任務,使得完成任務的速度和可靠性都遠遠高於單機運行的效果。彌補了單機性能上的不足。該集羣在天氣預報、環境監控等數據量大,計算複雜的環境中應用比較多;
負載均衡集羣(Load balance cluster, LBC),它是利用一個集羣中的多臺單機,完成許多並行的小的工做。通常狀況下,若是一個應用使用的人多了,那麼用戶請求的響應時間就會增大,機器的性能也會受到影響,若是使用負載均衡集羣,那麼集羣中任意一臺機器都能響應用戶的請求,這樣集羣就會在用戶發出服務請求以後,選擇當時負載最小,可以提供最好的服務的這臺機器來接受請求並相應,這樣就可用用集羣來增長系統的可用性和穩定性。這類集羣在網站中使用較多;
高可用性集羣(High availability cluster,HAC),它是利用集羣中系統 的冗餘,當系統中某臺機器發生損壞的時候,其餘後備的機器能夠迅速的接替它來啓動服務,等待故障機的維修和返回。最大限度的保證集羣中服務的可用性。這類系統通常在銀行,電信服務這類對系統可靠性有高的要求的領域有着普遍的應用。
2 數據庫集羣的現狀
數據庫集羣是將計算機集羣技術引入到數據庫中來實現的,儘管各廠商宣稱本身的架構如何的完美,可是始終不能改變Oracle當先,你們追逐的事實,在集羣的解決方案上Oracle RAC仍是領先於包括微軟在內的其它數據庫廠商,它能知足客戶高可用性、高性能、數據庫負載均衡和方便擴展的需求。
Oracle’s Real Application Cluster (RAC)
Microsoft SQL Cluster Server (MSCS)
IBM’s DB2 UDB High Availability Cluster(UDB)
Sybase ASE High Availability Cluster (ASE)
MySQL High Availability Cluster (MySQL CS)
基於IO的第三方HA(高可用性)集羣
當前主要的數據庫集羣技術有以上六大類,有數據庫廠商本身開發的;也有第三方的集羣公司開發的;還有數據庫廠商與第三方集羣公司合做開發的,各種集羣實現的功能及架構也不盡相同。
RAC(Real Application Cluster,真正應用集羣)是Oracle9i數據庫中採用的一項新技術,也是Oracle數據庫支持網格計算環境的核心技術。它的出現解決了傳統數據庫應用中面臨的一個重要問題:高性能、高可伸縮性與低價格之間的矛盾。在很長一段時間裏,甲骨文都以其實時應用集羣技術(Real Application Cluster,RAC)統治着集羣數據庫市場

六:高併發高負載網站的系統架構之緩存

緩存一詞搞技術的都接觸過,不少地方用到緩存。網站架構和網站開發中的緩存也是很是重要。這裏先講述最基本的兩種緩存。高級和分佈式的緩存在後面講述。
  架構方面的緩存,對Apache比較熟悉的人都能知道Apache提供了本身的緩存模塊,也可使用外加的Squid模塊進行緩存,這兩種方式都可以有效的提升Apache的訪問響應能力。
   網站程序開發方面的緩存,Linux上提供的Memory Cache是經常使用的緩存接口,能夠在web開發中使用,好比用Java開發的時候就能夠調用MemoryCache對一些數據進行緩存和通信共享,一些大 型社區使用了這樣的架構。另外,在使用web語言開發的時候,各類語言基本都有本身的緩存模塊和方法,PHP有Pear的Cache模塊,Java就更多 了,.net不是很熟悉,相信也確定有。



Java開源緩存框架
JBossCache/TreeCache JBossCache是一個複製的事務處理緩存,它容許你緩存企業級應用數據來更好的改善性能。緩存數據被自動複製,讓你輕鬆進行Jboss服務器之間的集羣工做。JBossCache可以經過Jboss應用服務或其餘J2EE容器來運行一個Mbean服務,固然,它也能獨立運行。 JBossCache包括兩個模塊:TreeCache和TreeCacheAOP。 TreeCache --是一個樹形結構複製的事務處理緩存。 TreeCacheAOP --是一個「面向對象」緩存,它使用AOP來動態管理POJO
OSCache OSCache標記庫由OpenSymphony設計,它是一種開創性的JSP定製標記應用,提供了在現有JSP頁面以內實現快速內存緩衝的功能。OSCache是個一個普遍採用的高性能的J2EE緩存框架,OSCache能用於任何Java應用程序的普通的緩存解決方案。OSCache有如下特色:緩存任何對象,你能夠不受限制的緩存部分jsp頁面或HTTP請求,任何java對象均可以緩存。 擁有全面的API--OSCache API給你全面的程序來控制全部的OSCache特性。 永久緩存--緩存能隨意的寫入硬盤,所以容許昂貴的建立(expensive-to-create)數據來保持緩存,甚至能讓應用重啓。 支持集羣--集羣緩存數據能被單個的進行參數配置,不須要修改代碼。 緩存記錄的過時--你能夠有最大限度的控制緩存對象的過時,包括可插入式的刷新策略(若是默認性能不須要時)。
JCACHE JCACHE是一種即將公佈的標準規範(JSR 107),說明了一種對Java對象臨時在內存中進行緩存的方法,包括對象的建立、共享訪問、假脫機(spooling)、失效、各JVM的一致性等。它可被用於緩存JSP內最常常讀取的數據,如產品目錄和價格列表。利用JCACHE,多數查詢的反應時間會由於有緩存的數據而加快(內部測試代表反應時間大約快15倍)。
Ehcache Ehcache出自Hibernate,在Hibernate中使用它做爲數據緩存的解決方案。
Java Caching System JCS是Jakarta的項目Turbine的子項目。它是一個複合式的緩衝工具。能夠將對象緩衝到內存、硬盤。具備緩衝對象時間過時設定。還能夠經過JCS構建具備緩衝的分佈式構架,以實現高性能的應用。 對於一些須要頻繁訪問而每訪問一次都很是消耗資源的對象,能夠臨時存放在緩衝區中,這樣能夠提升服務的性能。而JCS正是一個很好的緩衝工具。緩衝工具對於讀操做遠遠多於寫操做的應用性能提升很是顯著。
SwarmCache SwarmCache是一個簡單而功能強大的分佈式緩存機制。它使用IP組播來有效地在緩存的實例之間進行通訊。它是快速提升集羣式Web應用程序的性能的理想選擇。
ShiftOne ShiftOne Object Cache這個Java庫提供了基本的對象緩存能力。實現的策略有先進先出(FIFO),最近使用(LRU),最不常使用(LFU)。全部的策略能夠最大化元素的大小,最大化其生存時間。
WhirlyCache Whirlycache是一個快速的、可配置的、存在於內存中的對象的緩存。它可以經過緩存對象來加快網站或應用程序的速度,不然就必須經過查詢數據庫或其餘代價較高的處理程序來創建。
Jofti Jofti可對在緩存層中(支持EHCache,JBossCache和OSCache)的對象或在支持Map接口的存儲結構中的對象進行索引與搜索。這個框架還爲對象在索引中的增刪改提供透明的功能一樣也爲搜索提供易於使用的查詢功能。
cache4j cache4j是一個有簡單API與實現快速的Java對象緩存。它的特性包括:在內存中進行緩存,設計用於多線程環境,兩種實現:同步與阻塞,多種緩存清除策略:LFU, LRU, FIFO,可以使用強引用(strong reference)與軟引用(soft reference)存儲對象。
Open Terracotta 一個JVM級的開源羣集框架,提供:HTTP Session複製,分佈式緩存,POJO羣集,跨越羣集的JVM來實現分佈式應用程序協調(採用代碼注入的方式,因此你不須要修改任何)。
sccache SHOP.COM使用的對象緩存系統。sccache是一個in-process cache和二級、共享緩存。它將緩存對象存儲到磁盤上。支持關聯Key,任意大小的Key和任意大小的數據。可以自動進行垃圾收集。
Shoal Shoal是一個基於Java可擴展的動態集羣框架,可以爲構建容錯、可靠和可用的Java應用程序提供了基礎架構支持。這個框架還能夠集成到不但願綁定到特定通訊協議,但須要集羣和分佈式系統支持的任何Java產品中。Shoal是GlassFish和JonAS應用服務器的集羣引擎。
Simple-Spring-Memcached Simple-Spring-Memcached,它封裝了對MemCached的調用,使MemCached的客戶端開發變得超乎尋常的簡單。php

相關文章
相關標籤/搜索