POI工具--POI讀寫大數據量EXCEL

時間 2019-12-14

標籤 poi 工具讀寫數據 excel 欄目 Apache 简体版

原文原文鏈接

另外一篇文章http://www.cnblogs.com/tootwo2/p/8120053.html裏面有xml的一些解釋。html

大數據量的excel通常都是.xlsx格式的，網上使用POI讀寫的例子比較多，可是不多提到讀寫很是大數據量的excel的例子，POI官網上提到XSSF有三種讀寫excel，POI地址：http://poi.apache.org/spreadsheet/index.html。官網的圖片：java

能夠看到有三種模式：apache

一、eventmodel方式，基於事件驅動,SAX的方式解析excel（.xlsx是基於OOXML的），CPU和內存消耗很是低，可是隻能讀不能寫xss

二、usermodel，就是咱們通常使用的方式，這種方式能夠讀能夠寫，可是CPU和內存消耗很是大函數

三、SXSSF，POI3.8之後開始支持，這種方式只能寫excel工具

下面介紹下使用方式（官網地址：http://poi.apache.org/spreadsheet/how-to.html）：fetch

第一種方式：大數據

pom文件須要添加依賴：ui

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>3.15</version>
</dependency>
<dependency>
    <groupId>xerces</groupId>
    <artifactId>xerces</artifactId>
    <version>2.4.0</version>
</dependency>

java官網示例代碼：this

package excel;

import java.io.InputStream;
import java.util.Iterator;

import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

public class ExampleEventUserModel {
    
    
    public void processOneSheet(String filename) throws Exception {
        OPCPackage pkg = OPCPackage.open(filename);
        XSSFReader r = new XSSFReader( pkg );
        SharedStringsTable sst = r.getSharedStringsTable();

        XMLReader parser = fetchSheetParser(sst);

        // To look up the Sheet Name / Sheet Order / rID,
        //  you need to process the core Workbook stream.
        // Normally it's of the form rId# or rSheet#
        InputStream sheet2 = r.getSheet("rId2");
        InputSource sheetSource = new InputSource(sheet2);
        parser.parse(sheetSource);
        sheet2.close();
    }

    public void processAllSheets(String filename) throws Exception {
        OPCPackage pkg = OPCPackage.open(filename);
        XSSFReader r = new XSSFReader( pkg );
        SharedStringsTable sst = r.getSharedStringsTable();
        
        XMLReader parser = fetchSheetParser(sst);

        Iterator<InputStream> sheets = r.getSheetsData();
        while(sheets.hasNext()) {
            System.out.println("Processing new sheet:\n");
            InputStream sheet = sheets.next();
            InputSource sheetSource = new InputSource(sheet);
            parser.parse(sheetSource);
            sheet.close();
            System.out.println("");
        }
    }

    public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
        XMLReader parser =
            XMLReaderFactory.createXMLReader(
                    "com.sun.org.apache.xerces.internal.parsers.SAXParser"
            );
        ContentHandler handler = new SheetHandler(sst);
        parser.setContentHandler(handler);
        return parser;
    }

    /** 
     * See org.xml.sax.helpers.DefaultHandler javadocs 
     */
    private static class SheetHandler extends DefaultHandler {
        private SharedStringsTable sst;
        private String lastContents;
        private boolean nextIsString;
        
        private SheetHandler(SharedStringsTable sst) {
            this.sst = sst;
        }
        
        public void startElement(String uri, String localName, String name,
                Attributes attributes) throws SAXException {
            // c => cell
            if(name.equals("c")) {
                // Print the cell reference
                System.out.print(attributes.getValue("r") + " - ");
                // Figure out if the value is an index in the SST
                String cellType = attributes.getValue("t");
                if(cellType != null && cellType.equals("s")) {
                    nextIsString = true;
                } else {
                    nextIsString = false;
                }
            }
            // Clear contents cache
            lastContents = "";
        }
        
        public void endElement(String uri, String localName, String name)
                throws SAXException {
            // Process the last contents as required.
            // Do now, as characters() may be called more than once
            if(nextIsString) {
                int idx = Integer.parseInt(lastContents);
                lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();
                nextIsString = false;
            }

            // v => contents of a cell
            // Output after we've seen the string contents
            if(name.equals("v")) {
                System.out.println(lastContents);
            }
        }

        public void characters(char[] ch, int start, int length)
                throws SAXException {
            lastContents += new String(ch, start, length);
        }
    }
    
    public static void main(String[] args) throws Exception {
        ExampleEventUserModel example = new ExampleEventUserModel();
        System.out.println("11");
        example.processOneSheet(args[0]);
        example.processAllSheets(args[0]);
    }
}

運行的時候使用本地的文件地址替代main函數裏面的參數就能夠運行（親測能夠）。

第三種方式：

其核心是減小存儲在內存當中的數據，達到必定行數就存儲到硬盤的臨時文件中。

pom文件須要增長依賴：

<dependency>
    <groupId>xerces</groupId>
    <artifactId>xercesImpl</artifactId>
    <version>2.11.0</version>
</dependency>

java代碼以下：

package excel;


//import junit.framework.Assert;
import java.io.FileOutputStream;

import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.ss.util.CellReference;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;

public class SXSSFDemo {
    public static void main(String[] args) throws Throwable {
        
        SXSSFWorkbook wb = new SXSSFWorkbook(100); // 在內存當中保持 100 行 , 超過的數據放到硬盤中
        Sheet sh = wb.createSheet();
        for(int rownum = 0; rownum < 10000; rownum++){
            Row row = sh.createRow(rownum);
            for(int cellnum = 0; cellnum < 10; cellnum++){
                Cell cell = row.createCell(cellnum);
                String address = new CellReference(cell).formatAsString();
                cell.setCellValue(address);
            }

        }     
        
        FileOutputStream out = new FileOutputStream("/Users/tootwo2/Documents/sxssf.xlsx");
        wb.write(out);
        out.close();

        // dispose of temporary files backing this workbook on disk
        wb.dispose();
    }

}

HSSFworkbook,XSSFworkbook,SXSSFworkbook區別總結

用JavaPOI導出Excel時，咱們須要考慮到Excel版本及數據量的問題。針對不一樣的Excel版本，要採用不一樣的工具類，若是使用錯了，會出現錯誤信息。JavaPOI導出Excel有三種形式，他們分別是1.HSSFWorkbook 2.XSSFWorkbook 3.SXSSFWorkbook。

HSSFWorkbook:是操做Excel2003之前（包括2003）的版本，擴展名是.xls；

XSSFWorkbook:是操做Excel2007後的版本，擴展名是.xlsx；

SXSSFWorkbook:是操做Excel2007後的版本，擴展名是.xlsx；

第一種：HSSFWorkbook

poi導出excel最經常使用的方式；可是此種方式的侷限就是導出的行數至多爲65535行，超出65536條後系統就會報錯。此方式由於行數不足七萬行因此通常不會發生內存不足的狀況（OOM）。

對於不一樣版本的EXCEL文檔要使用不一樣的工具類，若是使用錯了，會提示以下錯誤信息。

org.apache.poi.openxml4j.exceptions.InvalidOperationException org.apache.poi.poifs.filesystem.OfficeXmlFileException

第二種：XSSFWorkbook

這種形式的出現是爲了突破HSSFWorkbook的65535行侷限。其對應的是excel2007(1048576行，16384列)擴展名爲「.xlsx」，最多能夠導出104萬行，不過這樣就伴隨着一個問題---OOM內存溢出，緣由是你所建立的book sheet row cell等此時是存在內存的並無持久化。

第三種：SXSSFWorkbook

從POI 3.8版本開始，提供了一種基於XSSF的低內存佔用的SXSSF方式。對於大型excel文件的建立，一個關鍵問題就是，要確保不會內存溢出。其實，就算生成很小的excel（好比幾Mb），它用掉的內存是遠大於excel文件實際的size的。若是單元格還有各類格式（好比，加粗，背景標紅之類的），那它佔用的內存就更多了。對於大型excel的建立且不會內存溢出的，就只有SXSSFWorkbook了。它的原理很簡單，用硬盤空間換內存（就像hash map用空間換時間同樣）。

SXSSFWorkbook是streaming版本的XSSFWorkbook,它只會保存最新的excel rows在內存裏供查看，在此以前的excel rows都會被寫入到硬盤裏（Windows電腦的話，是寫入到C盤根目錄下的temp文件夾）。被寫入到硬盤裏的rows是不可見的/不可訪問的。只有還保存在內存裏的才能夠被訪問到。

SXSSF與XSSF的對比：

a. 在一個時間點上，只能夠訪問必定數量的數據

b. 再也不支持Sheet.clone()

c. 再也不支持公式的求值

d. 在使用Excel模板下載數據時將不能動態改變表頭，由於這種方式已經提早把excel寫到硬盤的了就不能再改了

當數據量超出65536條後，在使用HSSFWorkbook或XSSFWorkbook，程序會報OutOfMemoryError：Javaheap space;內存溢出錯誤。這時應該用SXSSFworkbook。

注意：針對 SXSSF Beta 3.8下，會有臨時文件產生，好比：
poi-sxssf-sheet4654655121378979321.xml
文件位置：java.io.tmpdir這個環境變量下的位置
Windows 7下是C:\Users\xxxxxAppData\Local\Temp
Linux下是 /var/tmp/
要根據實際狀況，看是否刪除這些臨時文件

參考連接：