從linux內核中學到的編程技巧 【轉】

 

分類: LINUXhtml

 

1構建泛型宏 (./linux/include/linux/kernel.h)
#define min(x, y) ({				\
typeof(x) _min1 = (x); \
typeof(y) _min2 = (y); \
(void) (&_min1 == &_min2); \
_min1 < _min2 ? _min1 : _min2; })

你們看了就明白是什麼意思了。可是我還有幾點疑問:
(1)
(void) (&_min1 == &_min2);這行代碼是用來幹什麼的?
(2)爲何{}的外面要加(),不加的時候編譯是不經過的,具體是什麼緣由?
2 範圍的擴展
(1) switch 語句
switch(a)
{
case 1 ... 3:
printf("fafadsf");
break;
case 4 ... 8:
printf("dsafaf");
break;
}
(2)數組的初始化

int widths[] = { [0 ... 9] = 1, [10 ... 99] = 2, [100] = 3 };
以上部份內核中用的不少。

3 零長度的數組
struct iso_block_store {
atomic_t refcount;
size_t data_size;
quadlet_t data[0];
};
這容許結構中的元素引用結構實例後面緊接着的內存。在須要數量可變的數組成員時,這個特性頗有用
應用實例:
struct iso_block_store * p =(void *)malloc(sizeof(struct iso_block_store) + data_size);

4 得到函數的返回地址

以下面的代碼所示,__builtin_return_address 接收一個稱爲 level 的參數。這個參數定義但願獲取返回地址的調用堆棧級別。例如,若是指定 level 爲 0,那麼就是請求當前函數的返回地址。若是指定 level 爲 1,那麼就是請求進行調用的函數的返回地址,依此類推。linux

void * __builtin_turn_address( unsigned int level );

在下面的示例中(見 ./linux/kernel/softirq.c),local_bh_disable 函數在本地處理器上禁用軟中斷,從而禁止在當前處理器上運行 softirqs、tasklets 和 bottom halves。使用 __builtin_return_address 捕捉返回地址,以便在之後進行跟蹤時使用這個地址。編程

void local_bh_disable(void)
{
__local_bh_disable((unsigned long)__builtin_return_address(0));
}

5 常量檢測數組

在編譯時,可使用 GCC 提供的一個內置函數判斷一個值是不是常量。這種信息很是有價值,由於能夠構造出可以經過常量疊算(constant folding)優化的表達式。__builtin_constant_p 函數用來檢測常量。緩存

__builtin_constant_p 的原型以下所示。注意,__builtin_constant_p 並不能檢測出全部常量,由於 GCC 不容易證實某些值是不是常量。函數

int __builtin_constant_p( exp )

Linux 至關頻繁地使用常量檢測。在清單 3 所示的示例中(見 ./linux/include/linux/log2.h),使用常量檢測優化 roundup_pow_of_two 宏。若是發現表達式是常量,那麼就使用能夠優化的常量表達式。若是表達式不是常量,就調用另外一個宏函數把值向上取整到 2 的冪。性能



				
#define roundup_pow_of_two(n) \
( \
__builtin_constant_p(n) ? ( \
(n == 1) ? 1 : \
(1UL << (ilog2((n) - 1) + 1)) \
) : \
__roundup_pow_of_two(n) \
)

6 函數屬性fetch

GCC 提供許多函數級屬性,能夠經過它們向編譯器提供更多數據,幫助編譯器執行優化。本節描述與功能相關聯的一些屬性。優化

屬性經過其餘符號定義指定了別名。能夠以此幫助閱讀源代碼參考,瞭解屬性的使用方法(見 ./linux/include/linux/compiler-gcc3.h)。ui

				
# define __inline__ __inline__ __attribute__((always_inline))
# define __deprecated __attribute__((deprecated))
# define __attribute_used__ __attribute__((__used__))
# define __attribute_const__ __attribute__((__const__))
# define __must_check __attribute__((warn_unused_result))

定義是 GCC 中可用的一些函數屬性。它們也是在 Linux 內核中最有用的函數屬性。下面解釋如何使用這些屬性:

  • always_inline 讓 GCC 之內聯方式處理指定的函數,不管是否啓用了優化。
  • deprecated 指出函數已經被廢棄,不該該再使用。若是試圖使用已經廢棄的函數,就會收到警告。還能夠對類型和變量應用這個屬性,促使開發人員儘量少使用它們。
  • __used__ 告訴編譯器不管 GCC 是否發現這個函數的調用實例,都要使用這個函數。這對於從彙編代碼中調用 C 函數有幫助。
  • __const__ 告訴編譯器某個函數是無狀態的(也就是說,它使用傳遞給它的參數生成要返回的結果)。
  • warn_unused_result 讓編譯器檢查全部調用者是否都檢查函數的結果。這確保調用者適當地檢驗函數結果,從而可以適當地處理錯誤。

下面是在 Linux 內核中使用這些屬性的示例。deprecated 示例來自與體系結構無關的內核(./linux/kernel/resource.c),const 示例來自 IA64 內核源代碼(./linux/arch/ia64/kernel/unwind.c)。

int __deprecated __check_region(struct resource 
*parent, unsigned long start, unsigned long n)

static enum unw_register_index __attribute_const__
decode_abreg(unsigned char abreg, int memory)


7 分支預測提示

在 Linux 內核中最經常使用的優化技術之一是 __builtin_expect。在開發人員使用有條件代碼時,經常知道最可能執行哪一個分支,而哪一個分支不多執行。若是編譯器知道這種預測信息,就能夠圍繞最可能執行的分支生成最優的代碼。

以下所示,__builtin_expect 的使用方法基於兩個宏 likely 和 unlikely(見 ./linux/include/linux/compiler.h)。

#define likely(x)	__builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

經過使用 __builtin_expect,編譯器能夠作出符合提供的預測信息的指令選擇決策。這使執行的代碼儘量接近實際狀況。它還能夠改進緩存和指令流水線。

例 如,若是一個條件標上了 「likely」,那麼編譯器能夠把代碼的 True 部分直接放在分支指令後面(這樣就不須要執行分支指令)。經過分支指令訪問條件結構的 False 部分,這不是最優的方式,可是訪問它的可能性不大。按照這種方式,代碼對於最可能出現的狀況是最優的。

下面給出一個使用 likely 和 unlikely 宏的函數(見 ./linux/net/core/datagram.c)。這個函數預測 sum 變量將是零(數據包的 checksum 是有效的),並且 ip_summed 變量不等於 CHECKSUM_HW


				
unsigned int __skb_checksum_complete(struct sk_buff *skb)
{
unsigned int sum;

sum = (u16)csum_fold(skb_checksum(skb, 0, skb->len, skb->csum));
if (likely(!sum)) {
if (unlikely(skb->ip_summed == CHECKSUM_HW))
netdev_rx_csum_fault(skb->dev);
skb->ip_summed = CHECKSUM_UNNECESSARY;
}
return sum;
}

8 預抓取

另外一種重要的性能改進方法是把必需的數據緩存在接近處理器的地方。緩存能夠顯著減小訪問數據花費的時間。大多數現代處理器都有三類內存:

  • 一級緩存一般支持單週期訪問
  • 二級緩存支持兩週期訪問
  • 系統內存支持更長的訪問時間

爲了儘量減小訪問延時並由此提升性能,最好把數據放在最近的內存中。手工執行這個任務稱爲預抓取。GCC 經過內置函數 __builtin_prefetch 支持數據的手工預抓取。在須要數據以前,使用這個函數把數據放到緩存中。以下所示,__builtin_prefetch函數接收三個參數:

  • 數據的地址
  • rw 參數,使用它指明預抓取數據是爲了執行讀操做,仍是執行寫操做
  • locality 參數,使用它指定在使用數據以後數據應該留在緩存中,仍是應該清除

 

void __builtin_prefetch( const void *addr, int rw, int locality );

Linux 內核常用預抓取。一般是經過宏和包裝器函數使用預抓取。下面是一個輔助函數示例,它使用內置函數的包裝器(見 ./linux/include/linux/prefetch.h)。這個函數爲流操做實現預抓取機制。使用這個函數一般能夠減小緩存缺失和停頓,從而 提升性能。

				
#ifndef ARCH_HAS_PREFETCH
#define prefetch(x) __builtin_prefetch(x)
#endif

static inline void prefetch_range(void *addr, size_t len)
{
#ifdef ARCH_HAS_PREFETCH
char *cp;
char *end = addr + len;

for (cp = addr; cp < end; cp += PREFETCH_STRIDE)
prefetch(cp);
#endif
}

10 變量屬性

除了本文前面討論的函數屬性以外,GCC 還爲變量和類型定義提供了屬性。最重要的屬性之一是 aligned 屬性,它用於在內存中實現對象對齊。除了對於性能很重要以外,某些設備或硬件配置也須要對象對齊。aligned 屬性有一個參數,它指定所需的對齊類型。

下面的示例用於軟件暫停(見 ./linux/arch/i386/mm/init.c)。在須要頁面對齊時,定義 PAGE_SIZE 對象。

char __nosavedata swsusp_pg_dir[PAGE_SIZE]
__attribute__ ((aligned (PAGE_SIZE)));

 

  • packed 屬性打包一個結構的元素,從而儘量減小它們佔用的空間。這意味着,若是定義一個 char 變量,它佔用的空間不會超過一字節(8 位)。位字段壓縮爲一位,而不會佔用更多存儲空間。
  • 這段源代碼使用一個 __attribute__ 聲明進行優化,它用逗號分隔的列表定義多個屬性。


				
static struct swsusp_header {
char reserved[PAGE_SIZE - 20 - sizeof(swp_entry_t)];
swp_entry_t image;
char orig_sig[10];
char sig[10];
} __attribute__((packed, aligned(PAGE_SIZE))) swsusp_header;

分類: LINUX

 

1構建泛型宏 (./linux/include/linux/kernel.h)
#define min(x, y) ({				\
typeof(x) _min1 = (x); \
typeof(y) _min2 = (y); \
(void) (&_min1 == &_min2); \
_min1 < _min2 ? _min1 : _min2; })

你們看了就明白是什麼意思了。可是我還有幾點疑問:
(1)
(void) (&_min1 == &_min2);這行代碼是用來幹什麼的?
(2)爲何{}的外面要加(),不加的時候編譯是不經過的,具體是什麼緣由?
2 範圍的擴展
(1) switch 語句
switch(a)
{
case 1 ... 3:
printf("fafadsf");
break;
case 4 ... 8:
printf("dsafaf");
break;
}
(2)數組的初始化

int widths[] = { [0 ... 9] = 1, [10 ... 99] = 2, [100] = 3 };
以上部份內核中用的不少。

3 零長度的數組
struct iso_block_store {
atomic_t refcount;
size_t data_size;
quadlet_t data[0];
};
這容許結構中的元素引用結構實例後面緊接着的內存。在須要數量可變的數組成員時,這個特性頗有用
應用實例:
struct iso_block_store * p =(void *)malloc(sizeof(struct iso_block_store) + data_size);

4 得到函數的返回地址

以下面的代碼所示,__builtin_return_address 接收一個稱爲 level 的參數。這個參數定義但願獲取返回地址的調用堆棧級別。例如,若是指定 level 爲 0,那麼就是請求當前函數的返回地址。若是指定 level 爲 1,那麼就是請求進行調用的函數的返回地址,依此類推。

void * __builtin_turn_address( unsigned int level );

在下面的示例中(見 ./linux/kernel/softirq.c),local_bh_disable 函數在本地處理器上禁用軟中斷,從而禁止在當前處理器上運行 softirqs、tasklets 和 bottom halves。使用 __builtin_return_address 捕捉返回地址,以便在之後進行跟蹤時使用這個地址。

void local_bh_disable(void)
{
__local_bh_disable((unsigned long)__builtin_return_address(0));
}

5 常量檢測

在編譯時,可使用 GCC 提供的一個內置函數判斷一個值是不是常量。這種信息很是有價值,由於能夠構造出可以經過常量疊算(constant folding)優化的表達式。__builtin_constant_p 函數用來檢測常量。

__builtin_constant_p 的原型以下所示。注意,__builtin_constant_p 並不能檢測出全部常量,由於 GCC 不容易證實某些值是不是常量。

int __builtin_constant_p( exp )

Linux 至關頻繁地使用常量檢測。在清單 3 所示的示例中(見 ./linux/include/linux/log2.h),使用常量檢測優化 roundup_pow_of_two 宏。若是發現表達式是常量,那麼就使用能夠優化的常量表達式。若是表達式不是常量,就調用另外一個宏函數把值向上取整到 2 的冪。



				
#define roundup_pow_of_two(n) \
( \
__builtin_constant_p(n) ? ( \
(n == 1) ? 1 : \
(1UL << (ilog2((n) - 1) + 1)) \
) : \
__roundup_pow_of_two(n) \
)

6 函數屬性

GCC 提供許多函數級屬性,能夠經過它們向編譯器提供更多數據,幫助編譯器執行優化。本節描述與功能相關聯的一些屬性。

屬性經過其餘符號定義指定了別名。能夠以此幫助閱讀源代碼參考,瞭解屬性的使用方法(見 ./linux/include/linux/compiler-gcc3.h)。

				
# define __inline__ __inline__ __attribute__((always_inline))
# define __deprecated __attribute__((deprecated))
# define __attribute_used__ __attribute__((__used__))
# define __attribute_const__ __attribute__((__const__))
# define __must_check __attribute__((warn_unused_result))

定義是 GCC 中可用的一些函數屬性。它們也是在 Linux 內核中最有用的函數屬性。下面解釋如何使用這些屬性:

  • always_inline 讓 GCC 之內聯方式處理指定的函數,不管是否啓用了優化。
  • deprecated 指出函數已經被廢棄,不該該再使用。若是試圖使用已經廢棄的函數,就會收到警告。還能夠對類型和變量應用這個屬性,促使開發人員儘量少使用它們。
  • __used__ 告訴編譯器不管 GCC 是否發現這個函數的調用實例,都要使用這個函數。這對於從彙編代碼中調用 C 函數有幫助。
  • __const__ 告訴編譯器某個函數是無狀態的(也就是說,它使用傳遞給它的參數生成要返回的結果)。
  • warn_unused_result 讓編譯器檢查全部調用者是否都檢查函數的結果。這確保調用者適當地檢驗函數結果,從而可以適當地處理錯誤。

下面是在 Linux 內核中使用這些屬性的示例。deprecated 示例來自與體系結構無關的內核(./linux/kernel/resource.c),const 示例來自 IA64 內核源代碼(./linux/arch/ia64/kernel/unwind.c)。

int __deprecated __check_region(struct resource 
*parent, unsigned long start, unsigned long n)

static enum unw_register_index __attribute_const__
decode_abreg(unsigned char abreg, int memory)


7 分支預測提示

在 Linux 內核中最經常使用的優化技術之一是 __builtin_expect。在開發人員使用有條件代碼時,經常知道最可能執行哪一個分支,而哪一個分支不多執行。若是編譯器知道這種預測信息,就能夠圍繞最可能執行的分支生成最優的代碼。

以下所示,__builtin_expect 的使用方法基於兩個宏 likely 和 unlikely(見 ./linux/include/linux/compiler.h)。

#define likely(x)	__builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

經過使用 __builtin_expect,編譯器能夠作出符合提供的預測信息的指令選擇決策。這使執行的代碼儘量接近實際狀況。它還能夠改進緩存和指令流水線。

例 如,若是一個條件標上了 「likely」,那麼編譯器能夠把代碼的 True 部分直接放在分支指令後面(這樣就不須要執行分支指令)。經過分支指令訪問條件結構的 False 部分,這不是最優的方式,可是訪問它的可能性不大。按照這種方式,代碼對於最可能出現的狀況是最優的。

下面給出一個使用 likely 和 unlikely 宏的函數(見 ./linux/net/core/datagram.c)。這個函數預測 sum 變量將是零(數據包的 checksum 是有效的),並且 ip_summed 變量不等於 CHECKSUM_HW


				
unsigned int __skb_checksum_complete(struct sk_buff *skb)
{
unsigned int sum;

sum = (u16)csum_fold(skb_checksum(skb, 0, skb->len, skb->csum));
if (likely(!sum)) {
if (unlikely(skb->ip_summed == CHECKSUM_HW))
netdev_rx_csum_fault(skb->dev);
skb->ip_summed = CHECKSUM_UNNECESSARY;
}
return sum;
}

8 預抓取

另外一種重要的性能改進方法是把必需的數據緩存在接近處理器的地方。緩存能夠顯著減小訪問數據花費的時間。大多數現代處理器都有三類內存:

  • 一級緩存一般支持單週期訪問
  • 二級緩存支持兩週期訪問
  • 系統內存支持更長的訪問時間

爲了儘量減小訪問延時並由此提升性能,最好把數據放在最近的內存中。手工執行這個任務稱爲預抓取。GCC 經過內置函數 __builtin_prefetch 支持數據的手工預抓取。在須要數據以前,使用這個函數把數據放到緩存中。以下所示,__builtin_prefetch函數接收三個參數:

  • 數據的地址
  • rw 參數,使用它指明預抓取數據是爲了執行讀操做,仍是執行寫操做
  • locality 參數,使用它指定在使用數據以後數據應該留在緩存中,仍是應該清除

 

void __builtin_prefetch( const void *addr, int rw, int locality );

Linux 內核常用預抓取。一般是經過宏和包裝器函數使用預抓取。下面是一個輔助函數示例,它使用內置函數的包裝器(見 ./linux/include/linux/prefetch.h)。這個函數爲流操做實現預抓取機制。使用這個函數一般能夠減小緩存缺失和停頓,從而 提升性能。

				
#ifndef ARCH_HAS_PREFETCH
#define prefetch(x) __builtin_prefetch(x)
#endif

static inline void prefetch_range(void *addr, size_t len)
{
#ifdef ARCH_HAS_PREFETCH
char *cp;
char *end = addr + len;

for (cp = addr; cp < end; cp += PREFETCH_STRIDE)
prefetch(cp);
#endif
}

10 變量屬性

除了本文前面討論的函數屬性以外,GCC 還爲變量和類型定義提供了屬性。最重要的屬性之一是 aligned 屬性,它用於在內存中實現對象對齊。除了對於性能很重要以外,某些設備或硬件配置也須要對象對齊。aligned 屬性有一個參數,它指定所需的對齊類型。

下面的示例用於軟件暫停(見 ./linux/arch/i386/mm/init.c)。在須要頁面對齊時,定義 PAGE_SIZE 對象。

char __nosavedata swsusp_pg_dir[PAGE_SIZE]
__attribute__ ((aligned (PAGE_SIZE)));

 

  • packed 屬性打包一個結構的元素,從而儘量減小它們佔用的空間。這意味着,若是定義一個 char 變量,它佔用的空間不會超過一字節(8 位)。位字段壓縮爲一位,而不會佔用更多存儲空間。
  • 這段源代碼使用一個 __attribute__ 聲明進行優化,它用逗號分隔的列表定義多個屬性。


				
static struct swsusp_header {
char reserved[PAGE_SIZE - 20 - sizeof(swp_entry_t)];
swp_entry_t image;
char orig_sig[10];
char sig[10];
} __attribute__((packed, aligned(PAGE_SIZE))) swsusp_header;
相關文章
相關標籤/搜索