另外一篇文章http://www.cnblogs.com/tootwo2/p/8120053.html裏面有xml的一些解釋。html
大數據量的excel通常都是.xlsx格式的,網上使用POI讀寫的例子比較多,可是不多提到讀寫很是大數據量的excel的例子,POI官網上提到XSSF有三種讀寫excel,POI地址:http://poi.apache.org/spreadsheet/index.html。官網的圖片:java
能夠看到有三種模式:apache
一、eventmodel方式,基於事件驅動,SAX的方式解析excel(.xlsx是基於OOXML的),CPU和內存消耗很是低,可是隻能讀不能寫xss
二、usermodel,就是咱們通常使用的方式,這種方式能夠讀能夠寫,可是CPU和內存消耗很是大函數
三、SXSSF,POI3.8之後開始支持,這種方式只能寫excel工具
下面介紹下使用方式(官網地址:http://poi.apache.org/spreadsheet/how-to.html):fetch
第一種方式:大數據
pom文件須要添加依賴:ui
<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.15</version> </dependency> <dependency> <groupId>xerces</groupId> <artifactId>xerces</artifactId> <version>2.4.0</version> </dependency>
java官網示例代碼:this
package excel; import java.io.InputStream; import java.util.Iterator; import org.apache.poi.xssf.eventusermodel.XSSFReader; import org.apache.poi.xssf.model.SharedStringsTable; import org.apache.poi.xssf.usermodel.XSSFRichTextString; import org.apache.poi.openxml4j.opc.OPCPackage; import org.xml.sax.Attributes; import org.xml.sax.ContentHandler; import org.xml.sax.InputSource; import org.xml.sax.SAXException; import org.xml.sax.XMLReader; import org.xml.sax.helpers.DefaultHandler; import org.xml.sax.helpers.XMLReaderFactory; public class ExampleEventUserModel { public void processOneSheet(String filename) throws Exception { OPCPackage pkg = OPCPackage.open(filename); XSSFReader r = new XSSFReader( pkg ); SharedStringsTable sst = r.getSharedStringsTable(); XMLReader parser = fetchSheetParser(sst); // To look up the Sheet Name / Sheet Order / rID, // you need to process the core Workbook stream. // Normally it's of the form rId# or rSheet# InputStream sheet2 = r.getSheet("rId2"); InputSource sheetSource = new InputSource(sheet2); parser.parse(sheetSource); sheet2.close(); } public void processAllSheets(String filename) throws Exception { OPCPackage pkg = OPCPackage.open(filename); XSSFReader r = new XSSFReader( pkg ); SharedStringsTable sst = r.getSharedStringsTable(); XMLReader parser = fetchSheetParser(sst); Iterator<InputStream> sheets = r.getSheetsData(); while(sheets.hasNext()) { System.out.println("Processing new sheet:\n"); InputStream sheet = sheets.next(); InputSource sheetSource = new InputSource(sheet); parser.parse(sheetSource); sheet.close(); System.out.println(""); } } public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException { XMLReader parser = XMLReaderFactory.createXMLReader( "com.sun.org.apache.xerces.internal.parsers.SAXParser" ); ContentHandler handler = new SheetHandler(sst); parser.setContentHandler(handler); return parser; } /** * See org.xml.sax.helpers.DefaultHandler javadocs */ private static class SheetHandler extends DefaultHandler { private SharedStringsTable sst; private String lastContents; private boolean nextIsString; private SheetHandler(SharedStringsTable sst) { this.sst = sst; } public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException { // c => cell if(name.equals("c")) { // Print the cell reference System.out.print(attributes.getValue("r") + " - "); // Figure out if the value is an index in the SST String cellType = attributes.getValue("t"); if(cellType != null && cellType.equals("s")) { nextIsString = true; } else { nextIsString = false; } } // Clear contents cache lastContents = ""; } public void endElement(String uri, String localName, String name) throws SAXException { // Process the last contents as required. // Do now, as characters() may be called more than once if(nextIsString) { int idx = Integer.parseInt(lastContents); lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString(); nextIsString = false; } // v => contents of a cell // Output after we've seen the string contents if(name.equals("v")) { System.out.println(lastContents); } } public void characters(char[] ch, int start, int length) throws SAXException { lastContents += new String(ch, start, length); } } public static void main(String[] args) throws Exception { ExampleEventUserModel example = new ExampleEventUserModel(); System.out.println("11"); example.processOneSheet(args[0]); example.processAllSheets(args[0]); } }
運行的時候使用本地的文件地址替代main函數裏面的參數就能夠運行(親測能夠)。
第三種方式:
其核心是減小存儲在內存當中的數據,達到必定行數就存儲到硬盤的臨時文件中。
pom文件須要增長依賴:
<dependency> <groupId>xerces</groupId> <artifactId>xercesImpl</artifactId> <version>2.11.0</version> </dependency>
java代碼以下:
package excel; //import junit.framework.Assert; import java.io.FileOutputStream; import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.ss.usermodel.Row; import org.apache.poi.ss.usermodel.Sheet; import org.apache.poi.ss.usermodel.Workbook; import org.apache.poi.ss.util.CellReference; import org.apache.poi.xssf.streaming.SXSSFWorkbook; public class SXSSFDemo { public static void main(String[] args) throws Throwable { SXSSFWorkbook wb = new SXSSFWorkbook(100); // 在內存當中保持 100 行 , 超過的數據放到硬盤中 Sheet sh = wb.createSheet(); for(int rownum = 0; rownum < 10000; rownum++){ Row row = sh.createRow(rownum); for(int cellnum = 0; cellnum < 10; cellnum++){ Cell cell = row.createCell(cellnum); String address = new CellReference(cell).formatAsString(); cell.setCellValue(address); } } FileOutputStream out = new FileOutputStream("/Users/tootwo2/Documents/sxssf.xlsx"); wb.write(out); out.close(); // dispose of temporary files backing this workbook on disk wb.dispose(); } }
用JavaPOI導出Excel時,咱們須要考慮到Excel版本及數據量的問題。針對不一樣的Excel版本,要採用不一樣的工具類,若是使用錯了,會出現錯誤信息。JavaPOI導出Excel有三種形式,他們分別是1.HSSFWorkbook 2.XSSFWorkbook 3.SXSSFWorkbook。
HSSFWorkbook:是操做Excel2003之前(包括2003)的版本,擴展名是.xls;
XSSFWorkbook:是操做Excel2007後的版本,擴展名是.xlsx;
SXSSFWorkbook:是操做Excel2007後的版本,擴展名是.xlsx;
poi導出excel最經常使用的方式;可是此種方式的侷限就是導出的行數至多爲65535行,超出65536條後系統就會報錯。此方式由於行數不足七萬行因此通常不會發生內存不足的狀況(OOM)。
對於不一樣版本的EXCEL文檔要使用不一樣的工具類,若是使用錯了,會提示以下錯誤信息。
org.apache.poi.openxml4j.exceptions.InvalidOperationException org.apache.poi.poifs.filesystem.OfficeXmlFileException
這種形式的出現是爲了突破HSSFWorkbook的65535行侷限。其對應的是excel2007(1048576行,16384列)擴展名爲「.xlsx」,最多能夠導出104萬行,不過這樣就伴隨着一個問題---OOM內存溢出,緣由是你所建立的book sheet row cell等此時是存在內存的並無持久化。
從POI 3.8版本開始,提供了一種基於XSSF的低內存佔用的SXSSF方式。對於大型excel文件的建立,一個關鍵問題就是,要確保不會內存溢出。其實,就算生成很小的excel(好比幾Mb),它用掉的內存是遠大於excel文件實際的size的。若是單元格還有各類格式(好比,加粗,背景標紅之類的),那它佔用的內存就更多了。對於大型excel的建立且不會內存溢出的,就只有SXSSFWorkbook了。它的原理很簡單,用硬盤空間換內存(就像hash map用空間換時間同樣)。
SXSSFWorkbook是streaming版本的XSSFWorkbook,它只會保存最新的excel rows在內存裏供查看,在此以前的excel rows都會被寫入到硬盤裏(Windows電腦的話,是寫入到C盤根目錄下的temp文件夾)。被寫入到硬盤裏的rows是不可見的/不可訪問的。只有還保存在內存裏的才能夠被訪問到。
SXSSF與XSSF的對比:
a. 在一個時間點上,只能夠訪問必定數量的數據
b. 再也不支持Sheet.clone()
c. 再也不支持公式的求值
d. 在使用Excel模板下載數據時將不能動態改變表頭,由於這種方式已經提早把excel寫到硬盤的了就不能再改了
當數據量超出65536條後,在使用HSSFWorkbook或XSSFWorkbook,程序會報OutOfMemoryError:Javaheap space;內存溢出錯誤。這時應該用SXSSFworkbook。
注意:針對 SXSSF Beta 3.8下,會有臨時文件產生,好比:
poi-sxssf-sheet4654655121378979321.xml
文件位置:java.io.tmpdir這個環境變量下的位置
Windows 7下是C:\Users\xxxxxAppData\Local\Temp
Linux下是 /var/tmp/
要根據實際狀況,看是否刪除這些臨時文件
參考連接: