記一次uboot升級過程的兩個坑

背景

以前作過一次uboot的升級,當時留下了一些記錄,本文摘錄其中比較有意思的兩個問題。html

啓動失敗問題

問題簡述

uboot代碼中用到了一個庫,考慮到庫自己跟uboot版本沒什麼關係,就直接把舊的庫文件拷貝過來使用。結果編譯連接是沒問題,啓動卻會卡住。git

消失的打印

爲了明確卡住的位置,就去修改了庫的源碼,添加一些打印(此時仍是在舊版本uboot下編譯的),結果發現卡住的位置或隨着添加打印的變化而變化,且有些打印語句,添加後未打印出來。ide

我決定先從這些神祕消失的打印入手。函數

分析下uboot中的printf實現,最底層就是寫寄存器,是一個同步的函數,也沒什麼可疑的地方。ui

爲了確認打印不出來的時候,到底有沒有調用到printf,我決定給printf增長一個計數器,在gd結構體中,增長一個printf_count字段,初始化爲0,每次打印時執行printf_count++並打印出值。this

設計這個試驗,本意是確認未打印出來時是否確實也調用到了printf,但卻有了別的發現,實驗結果中printf_count值會異常變化,不是按打印順序遞增,而是會突變成很大的異常值。url

printf_countgd結構體的成員,那就是gd的問題了。進一步將uboot全局結構體gd的地址打印出來。確認了緣由是gd結構體的指針變化了。.net

這也能夠解釋部分打印消失的現象,緣由是咱們在gd中有另外一個字段,用於控制打印等級。當gd被改動了,printf就可能解析出錯,誤覺得打印等級爲0而提早返回。設計

gd的實現

那麼好端端的,gd爲何會被改了呢?這就要先看看gd究竟是怎麼實現的了。3d

uboot中維護了一個全局的結構體gd。在代碼中加入

DECLARE_GLOBAL_DATA_PTR;

便可使用gd指針訪問這個全局結構體,許多地方都會藉助gd來保存傳遞信息。

進一步看看這個宏的定義

舊版本uboot:
#define DECLARE_GLOBAL_DATA_PTR        register volatile gd_t *gd asm ("r8")

新版本uboot:
#define DECLARE_GLOBAL_DATA_PTR        register volatile gd_t *gd asm ("r9")

竟然不同,一個是將gd的值放到r8寄存器,一個是放在r9寄存器。

那麼就能夠猜想到,庫是在舊版本uboot中編譯出來的,可能使用了r9,那麼放到新版本uboot中去,就會破壞r9寄存器中保存的gd值,致使一系列依賴gd的代碼不能正常工做。

驗證改動

爲了求證,將庫反彙編出來,發現確實避開了r8寄存器,但使用了r9寄存器。

說明uboot在指定gd寄存器的同時,還有某種方法讓其餘代碼不使用這個寄存器。

那是否是把舊uboot中的這個r8改爲r9,從新編譯庫就能夠了呢?試一下,仍是不行。

那麼禁止其餘代碼使用r8寄存器確定就是經過別的方式實現的了。簡單粗暴地在舊版本uboot下搜索r8,去掉.c .h等類型後,很容易發現了

./arch/arm/cpu/armv7/config.mk:24:PLATFORM_RELFLAGS += -fno-common -ffixed-r8 -msoft-floa

-ffixed-r8修改成-ffixed-r9,從新編譯出庫,這回就能夠正常工做了,打印正常,啓動正常。反彙編出來也能夠看到,新編譯出來的庫用了r8沒有用r9

固然更好的改法,是直接在新版本的uboot中編譯,這是最可靠的。

追本溯源

話說回來,爲何兩個版本的uboot,會使用不一樣的寄存器呢?難道有什麼坑?

這就得去翻一下git記錄了。

commit fe1378a961e508b31b1f29a2bb08ba1dac063155
Author: Jeroen Hofstee <jeroen@myspectrum.nl>
Date:   Sat Sep 21 14:04:41 2013 +0200

    ARM: use r9 for gd
    
    To be more EABI compliant and as a preparation for building
    with clang, use the platform-specific r9 register for gd
    instead of r8.
    
    note: The FIQ is not updated since it is not used in u-boot,
    and under discussion for the time being.
    
    The following checkpatch warning is ignored:
    WARNING: Use of volatile is usually wrong: see
    Documentation/volatile-considered-harmful.txt
    
    Signed-off-by: Jeroen Hofstee <jeroen@myspectrum.nl>
    cc: Albert ARIBAUD <albert.u.boot@aribaud.net>

git記錄中,也能夠確認完整地將r8切換到r9,都須要作哪些修改

diff --git a/arch/arm/config.mk b/arch/arm/config.mk
index 16c2e3d1e0..d0cf43ff41 100644
--- a/arch/arm/config.mk
+++ b/arch/arm/config.mk
@@ -17,7 +17,7 @@ endif
 
 LDFLAGS_FINAL += --gc-sections
 PLATFORM_RELFLAGS += -ffunction-sections -fdata-sections \
-                     -fno-common -ffixed-r8 -msoft-float
+                     -fno-common -ffixed-r9 -msoft-float
 
 # Support generic board on ARM
 __HAVE_ARCH_GENERIC_BOARD := y
diff --git a/arch/arm/cpu/armv7/lowlevel_init.S b/arch/arm/cpu/armv7/lowlevel_init.S
index 82b2b86520..69e3053a42 100644
--- a/arch/arm/cpu/armv7/lowlevel_init.S
+++ b/arch/arm/cpu/armv7/lowlevel_init.S
@@ -22,11 +22,11 @@ ENTRY(lowlevel_init)
        ldr     sp, =CONFIG_SYS_INIT_SP_ADDR
        bic     sp, sp, #7 /* 8-byte alignment for ABI compliance */
 #ifdef CONFIG_SPL_BUILD
-       ldr     r8, =gdata
+       ldr     r9, =gdata
 #else
        sub     sp, #GD_SIZE
        bic     sp, sp, #7
-       mov     r8, sp
+       mov     r9, sp
 #endif
        /*
         * Save the old lr(passed in ip) and the current lr to stack
diff --git a/arch/arm/include/asm/global_data.h b/arch/arm/include/asm/global_data.h
index 79a9597419..e126436093 100644
--- a/arch/arm/include/asm/global_data.h
+++ b/arch/arm/include/asm/global_data.h
@@ -47,6 +47,6 @@ struct arch_global_data {
 
 #include <asm-generic/global_data.h>
 
-#define DECLARE_GLOBAL_DATA_PTR     register volatile gd_t *gd asm ("r8")
+#define DECLARE_GLOBAL_DATA_PTR     register volatile gd_t *gd asm ("r9")
 
 #endif /* __ASM_GBL_DATA_H */
diff --git a/arch/arm/lib/crt0.S b/arch/arm/lib/crt0.S
index 960d12e732..ac54b9359a 100644
--- a/arch/arm/lib/crt0.S
+++ b/arch/arm/lib/crt0.S
@@ -69,7 +69,7 @@ ENTRY(_main)
        bic     sp, sp, #7      /* 8-byte alignment for ABI compliance */
        sub     sp, #GD_SIZE    /* allocate one GD above SP */
        bic     sp, sp, #7      /* 8-byte alignment for ABI compliance */
-       mov     r8, sp          /* GD is above SP */
+       mov     r9, sp          /* GD is above SP */
        mov     r0, #0
        bl      board_init_f
 
@@ -81,15 +81,15 @@ ENTRY(_main)
  * 'here' but relocated.
  */
 
-       ldr     sp, [r8, #GD_START_ADDR_SP]     /* sp = gd->start_addr_sp */
+       ldr     sp, [r9, #GD_START_ADDR_SP]     /* sp = gd->start_addr_sp */
        bic     sp, sp, #7      /* 8-byte alignment for ABI compliance */
-       ldr     r8, [r8, #GD_BD]                /* r8 = gd->bd */
-       sub     r8, r8, #GD_SIZE                /* new GD is below bd */
+       ldr     r9, [r9, #GD_BD]                /* r9 = gd->bd */
+       sub     r9, r9, #GD_SIZE                /* new GD is below bd */
 
        adr     lr, here
-       ldr     r0, [r8, #GD_RELOC_OFF]         /* r0 = gd->reloc_off */
+       ldr     r0, [r9, #GD_RELOC_OFF]         /* r0 = gd->reloc_off */
        add     lr, lr, r0
-       ldr     r0, [r8, #GD_RELOCADDR]         /* r0 = gd->relocaddr */
+       ldr     r0, [r9, #GD_RELOCADDR]         /* r0 = gd->relocaddr */
        b       relocate_code
 here:
 
@@ -111,8 +111,8 @@ clbss_l:cmp r0, r1                  /* while not at end of BSS */
        bl red_led_on
 
        /* call board_init_r(gd_t *id, ulong dest_addr) */
-       mov     r0, r8                  /* gd_t */
-       ldr     r1, [r8, #GD_RELOCADDR] /* dest_addr */
+       mov     r0, r9                  /* gd_t */
+       ldr     r1, [r9, #GD_RELOCADDR] /* dest_addr */
        /* call board_init_r */
        ldr     pc, =board_init_r       /* this is auto-relocated! */

啓動慢問題

問題簡述

填了幾個坑以後,新的uboot能夠啓動到內核了,但發現啓動速度很是慢,內核啓動速度慢了接近10倍!明明是同一個內核,爲何差別這麼大。

排查寄存器

初步排查了下設備樹配置,以及uboot跳轉內核前的一些關鍵寄存器,確實在兩個版本的uboot中有所不一樣,但具體去看這些不一樣,發現都不會影響速度,將一些驅動對齊以後寄存器差別基本就消失了。

差別的分界

那再細看,kernel的速度有差別,uboot呢?在哪一個時間點以後,速度開始產生差別?

嘗試在兩個版本的uboot中插入一些操做,對比時間戳,發現兩個uboot在某個節點以後的速度確實有區別。

進一步排查,原來是在打開cache操做以後,舊uboot的速度就會比新uboot快。嘗試將舊ubootcache關掉,則兩者基本一致。嘗試將舊uboot操做cache的代碼,移植到新uboot,未發生改變。

此時可確認新uboot的開cache有問題。但以爲這個跟kernel啓動慢不要緊。由於uboot進入kernel以前都會關cache,由kernel本身去從新打開。

也就是不論是用哪份uboot,也無論uboot中是否開了cache,對kernel階段都應該沒有影響纔對。

因而記錄下來uboot的這個問題,待後續修復。先繼續找kernel啓動慢的緣由。(注:如今看來當時的作法是有問題的,這裏的異常這麼明顯,應該設法追蹤下去找出緣由纔對)

鎖定uboot

uboot的嫌疑很是大,但還不能徹底確認,由於uboot以前還有一級spl。是否會是spl的問題呢?

嘗試改用新spl+舊uboot,啓動速度正常。而新spl+新uboot的啓動速度則很慢,其餘因素都不變,說明問題確實出在uboot階段。

多作or少作

當時到這一步就卡住了,直接比較兩份uboot的代碼不太現實,差別太大了。

後來我就給本身提了個問題,到底新uboot是多作了某件事情,仍是少作了某件事情?

換個說法,目前已知

spl --> 舊uboot --> kernel(速度快)
spl --> 新uboot --> kernel(速度快)

但究竟是如下的狀況A仍是狀況B呢?

A: spl(速度慢) --> 舊uboot(作了某個會提高速度的操做) --> kernel(速度快)
   spl(速度慢) --> 新uboot(少作了某個會提高速度的操做) --> kernel(速度慢)

B: spl(速度快) --> 舊uboot(沒作特殊操做) --> kernel(速度快)
   spl(速度快) --> 新uboot(多作了某個會限制速度的操做) --> kernel(速度慢)

爲了驗證,我決定讓spl直接啓動內核,看看內核究竟是快是慢。

支持過程碰到了一些小問題

1.spl沒有能力加載這麼大的kernel

解決:此時不須要kernel能徹底啓動,只須要能加載啓動一段,足以體現出啓動速度是否正常便可,因而裁剪出一個很是小kernel來輔助實驗。

2.kernel須要dtb

解決:內核有一個CONFIG_BUILD_ARM_APPENDED_DTB_IMAGE選項。選上從新編譯。編譯後再用ddkerneldtb拼接到一塊兒,做爲新的kernel。這樣,spl就只須要加載一個文件並跳轉過去便可。

試驗結果,spl啓動的kernel和使用新uboot啓動的kernel速度一致,均比舊uboot啓動的kernel慢。

說明,舊uboot中作了某個關鍵操做,而新uboot沒作。

找出關鍵操做

那接下來的任務就是,找出舊uboot中的這個關鍵操做了。

怎麼找呢?有了上一步的成果,咱們可使用如下方法來排查

  1. spl加載kernel和舊uboot

  2. spl跳轉到舊uboot,此時kernel其實已經在dram中準備好了,隨時能夠啓動

  3. 在舊uboot的啓動流程各個階段,嘗試直接跳轉到kernel,觀察啓動速度

  4. 若是在舊ubootA點跳轉kernel啓動慢,B點跳轉啓動快,則說明關鍵操做位於AB點之間。

方法有了,很快就鎖定到start.S,進一步在start.S中揪出了這段代碼

#if defined(CONFIG_ARM_A7)
@set SMP bit
    mrc     p15, 0, r0, c1, c0, 1
    orr        r0, r0, #(1<<6)
    mcr        p15, 0, r0, c1, c0, 1
#endif

ubootstart.S中沒有這段代碼,嘗試在新ubootstart.S中添加此操做,速度立馬恢復正常了。

再全局搜索下,原來這個新版本uboot中,套路是在board_init中進行此項設置的,而這個平臺從舊版本移植過來,就沒有設置 SMP bit, 補上便可。

SMP bit是什麼

SMP 是指對稱多處理器,看起來這個 bit 會影響多核的 cache一致性,此處沒有再深刻研究。

但能夠知道,對於單處理器的狀況,也須要設置這個bit才能正常使用cache

貼下arm的圖和描述:

[6]	SMP	

Signals if the Cortex-A9 processor is taking part in coherency or not.

In uniprocessor configurations, if this bit is set, then Inner Cacheable Shared is treated as Cacheable. The reset value is zero.

搜下kernel的代碼,發現也是有地方調用了的。不過這個芯片是單核的,根本就沒配置CONFIG_SMP

#ifdef CONFIG_SMP
	ALT_SMP(mrc	p15, 0, r0, c1, c0, 1)
	ALT_UP(mov	r0, #(1 << 6))		@ fake it for UP
	tst	r0, #(1 << 6)			@ SMP/nAMP mode enabled?
	orreq	r0, r0, #(1 << 6)		@ Enable SMP/nAMP mode
	orreq	r0, r0, r10			@ Enable CPU-specific SMP bits
	mcreq	p15, 0, r0, c1, c0, 1
#endif

總結

整理出來一方面是記錄這兩個bug,另外一方面也是想記錄下當時的一些操做。

畢竟一樣的bug可能之後都不會碰到了,但解bug的方法和思路倒是能夠積累複用的。

blog: http://www.javashuo.com/article/p-tylcsvns-hk.html
公衆號:https://sourl.cn/shT3kz

相關文章
相關標籤/搜索