技巧以管理R會話中的可用內存

時間 2020-01-21

標籤技巧管理會話可用內存简体版

原文原文鏈接

人們使用什麼技巧來管理交互式R會話的可用內存？我使用下面的函數（基於Petr Pikal和David Hinds在2004年r-help列表中的發佈）列出（和/或排序）最大的對象，並偶爾對其中一些對象進行rm() 。可是到目前爲止，最有效的解決方案是...在具備足夠內存的64位Linux下運行。算法

人們還想分享其餘有趣的技巧嗎？請每一個帖子一個。服務器

# improved list of objects
.ls.objects <- function (pos = 1, pattern, order.by,
                        decreasing=FALSE, head=FALSE, n=5) {
    napply <- function(names, fn) sapply(names, function(x)
                                         fn(get(x, pos = pos)))
    names <- ls(pos = pos, pattern = pattern)
    obj.class <- napply(names, function(x) as.character(class(x))[1])
    obj.mode <- napply(names, mode)
    obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class)
    obj.size <- napply(names, object.size)
    obj.dim <- t(napply(names, function(x)
                        as.numeric(dim(x))[1:2]))
    vec <- is.na(obj.dim)[, 1] & (obj.type != "function")
    obj.dim[vec, 1] <- napply(names, length)[vec]
    out <- data.frame(obj.type, obj.size, obj.dim)
    names(out) <- c("Type", "Size", "Rows", "Columns")
    if (!missing(order.by))
        out <- out[order(out[[order.by]], decreasing=decreasing), ]
    if (head)
        out <- head(out, n)
    out
}
# shorthand
lsos <- function(..., n=10) {
    .ls.objects(..., order.by="Size", decreasing=TRUE, head=TRUE, n=n)
}

#1樓

我很幸運，儀器將大數據集保存在大約100 MB（32位二進制）的「塊」（子集）中。所以，在融合數據集以前，我能夠依次進行預處理步驟（刪除不具信息的部分，進行下采樣）。 app
若是數據大小接近可用內存，則手動調用gc ()會有所幫助。函數
有時，不一樣的算法須要更少的內存。
有時，向量化和內存使用之間須要權衡取捨。
比較： split和lapply與for循環。測試
爲了快速，輕鬆地進行數據分析，我一般首先處理數據的一小部分隨機子集（ sample () ）。數據分析腳本/.Rnw完成後，數據分析代碼和完整的數據將進入計算服務器進行整夜/週末/ ...計算。大數據