以前作過一次uboot
的升級,當時留下了一些記錄,本文摘錄其中比較有意思的兩個問題。html
uboot
代碼中用到了一個庫,考慮到庫自己跟uboot
版本沒什麼關係,就直接把舊的庫文件拷貝過來使用。結果編譯連接是沒問題,啓動卻會卡住。git
爲了明確卡住的位置,就去修改了庫的源碼,添加一些打印(此時仍是在舊版本uboot
下編譯的),結果發現卡住的位置或隨着添加打印的變化而變化,且有些打印語句,添加後未打印出來。ide
我決定先從這些神祕消失的打印入手。函數
分析下uboot
中的printf
實現,最底層就是寫寄存器,是一個同步的函數,也沒什麼可疑的地方。ui
爲了確認打印不出來的時候,到底有沒有調用到printf
,我決定給printf
增長一個計數器,在gd
結構體中,增長一個printf_count
字段,初始化爲0
,每次打印時執行printf_count++
並打印出值。this
設計這個試驗,本意是確認未打印出來時是否確實也調用到了printf
,但卻有了別的發現,實驗結果中printf_count
值會異常變化,不是按打印順序遞增,而是會突變成很大的異常值。url
printf_count
是gd
結構體的成員,那就是gd
的問題了。進一步將uboot
全局結構體gd
的地址打印出來。確認了緣由是gd
結構體的指針變化了。.net
這也能夠解釋部分打印消失的現象,緣由是咱們在gd
中有另外一個字段,用於控制打印等級。當gd
被改動了,printf
就可能解析出錯,誤覺得打印等級爲0
而提早返回。設計
那麼好端端的,gd
爲何會被改了呢?這就要先看看gd
究竟是怎麼實現的了。3d
uboot
中維護了一個全局的結構體gd
。在代碼中加入
DECLARE_GLOBAL_DATA_PTR;
便可使用gd
指針訪問這個全局結構體,許多地方都會藉助gd
來保存傳遞信息。
進一步看看這個宏的定義
舊版本uboot: #define DECLARE_GLOBAL_DATA_PTR register volatile gd_t *gd asm ("r8") 新版本uboot: #define DECLARE_GLOBAL_DATA_PTR register volatile gd_t *gd asm ("r9")
竟然不同,一個是將gd
的值放到r8
寄存器,一個是放在r9
寄存器。
那麼就能夠猜想到,庫是在舊版本uboot
中編譯出來的,可能使用了r9
,那麼放到新版本uboot
中去,就會破壞r9
寄存器中保存的gd
值,致使一系列依賴gd
的代碼不能正常工做。
爲了求證,將庫反彙編出來,發現確實避開了r8
寄存器,但使用了r9
寄存器。
說明uboot
在指定gd
寄存器的同時,還有某種方法讓其餘代碼不使用這個寄存器。
那是否是把舊uboot
中的這個r8
改爲r9
,從新編譯庫就能夠了呢?試一下,仍是不行。
那麼禁止其餘代碼使用r8寄存器確定就是經過別的方式實現的了。簡單粗暴地在舊版本uboot
下搜索r8
,去掉.c .h
等類型後,很容易發現了
./arch/arm/cpu/armv7/config.mk:24:PLATFORM_RELFLAGS += -fno-common -ffixed-r8 -msoft-floa
將-ffixed-r8
修改成-ffixed-r9
,從新編譯出庫,這回就能夠正常工做了,打印正常,啓動正常。反彙編出來也能夠看到,新編譯出來的庫用了r8
沒有用r9
。
固然更好的改法,是直接在新版本的uboot
中編譯,這是最可靠的。
話說回來,爲何兩個版本的uboot
,會使用不一樣的寄存器呢?難道有什麼坑?
這就得去翻一下git
記錄了。
commit fe1378a961e508b31b1f29a2bb08ba1dac063155 Author: Jeroen Hofstee <jeroen@myspectrum.nl> Date: Sat Sep 21 14:04:41 2013 +0200 ARM: use r9 for gd To be more EABI compliant and as a preparation for building with clang, use the platform-specific r9 register for gd instead of r8. note: The FIQ is not updated since it is not used in u-boot, and under discussion for the time being. The following checkpatch warning is ignored: WARNING: Use of volatile is usually wrong: see Documentation/volatile-considered-harmful.txt Signed-off-by: Jeroen Hofstee <jeroen@myspectrum.nl> cc: Albert ARIBAUD <albert.u.boot@aribaud.net>
從git
記錄中,也能夠確認完整地將r8
切換到r9
,都須要作哪些修改
diff --git a/arch/arm/config.mk b/arch/arm/config.mk index 16c2e3d1e0..d0cf43ff41 100644 --- a/arch/arm/config.mk +++ b/arch/arm/config.mk @@ -17,7 +17,7 @@ endif LDFLAGS_FINAL += --gc-sections PLATFORM_RELFLAGS += -ffunction-sections -fdata-sections \ - -fno-common -ffixed-r8 -msoft-float + -fno-common -ffixed-r9 -msoft-float # Support generic board on ARM __HAVE_ARCH_GENERIC_BOARD := y diff --git a/arch/arm/cpu/armv7/lowlevel_init.S b/arch/arm/cpu/armv7/lowlevel_init.S index 82b2b86520..69e3053a42 100644 --- a/arch/arm/cpu/armv7/lowlevel_init.S +++ b/arch/arm/cpu/armv7/lowlevel_init.S @@ -22,11 +22,11 @@ ENTRY(lowlevel_init) ldr sp, =CONFIG_SYS_INIT_SP_ADDR bic sp, sp, #7 /* 8-byte alignment for ABI compliance */ #ifdef CONFIG_SPL_BUILD - ldr r8, =gdata + ldr r9, =gdata #else sub sp, #GD_SIZE bic sp, sp, #7 - mov r8, sp + mov r9, sp #endif /* * Save the old lr(passed in ip) and the current lr to stack diff --git a/arch/arm/include/asm/global_data.h b/arch/arm/include/asm/global_data.h index 79a9597419..e126436093 100644 --- a/arch/arm/include/asm/global_data.h +++ b/arch/arm/include/asm/global_data.h @@ -47,6 +47,6 @@ struct arch_global_data { #include <asm-generic/global_data.h> -#define DECLARE_GLOBAL_DATA_PTR register volatile gd_t *gd asm ("r8") +#define DECLARE_GLOBAL_DATA_PTR register volatile gd_t *gd asm ("r9") #endif /* __ASM_GBL_DATA_H */ diff --git a/arch/arm/lib/crt0.S b/arch/arm/lib/crt0.S index 960d12e732..ac54b9359a 100644 --- a/arch/arm/lib/crt0.S +++ b/arch/arm/lib/crt0.S @@ -69,7 +69,7 @@ ENTRY(_main) bic sp, sp, #7 /* 8-byte alignment for ABI compliance */ sub sp, #GD_SIZE /* allocate one GD above SP */ bic sp, sp, #7 /* 8-byte alignment for ABI compliance */ - mov r8, sp /* GD is above SP */ + mov r9, sp /* GD is above SP */ mov r0, #0 bl board_init_f @@ -81,15 +81,15 @@ ENTRY(_main) * 'here' but relocated. */ - ldr sp, [r8, #GD_START_ADDR_SP] /* sp = gd->start_addr_sp */ + ldr sp, [r9, #GD_START_ADDR_SP] /* sp = gd->start_addr_sp */ bic sp, sp, #7 /* 8-byte alignment for ABI compliance */ - ldr r8, [r8, #GD_BD] /* r8 = gd->bd */ - sub r8, r8, #GD_SIZE /* new GD is below bd */ + ldr r9, [r9, #GD_BD] /* r9 = gd->bd */ + sub r9, r9, #GD_SIZE /* new GD is below bd */ adr lr, here - ldr r0, [r8, #GD_RELOC_OFF] /* r0 = gd->reloc_off */ + ldr r0, [r9, #GD_RELOC_OFF] /* r0 = gd->reloc_off */ add lr, lr, r0 - ldr r0, [r8, #GD_RELOCADDR] /* r0 = gd->relocaddr */ + ldr r0, [r9, #GD_RELOCADDR] /* r0 = gd->relocaddr */ b relocate_code here: @@ -111,8 +111,8 @@ clbss_l:cmp r0, r1 /* while not at end of BSS */ bl red_led_on /* call board_init_r(gd_t *id, ulong dest_addr) */ - mov r0, r8 /* gd_t */ - ldr r1, [r8, #GD_RELOCADDR] /* dest_addr */ + mov r0, r9 /* gd_t */ + ldr r1, [r9, #GD_RELOCADDR] /* dest_addr */ /* call board_init_r */ ldr pc, =board_init_r /* this is auto-relocated! */
填了幾個坑以後,新的uboot
能夠啓動到內核了,但發現啓動速度很是慢,內核啓動速度慢了接近10
倍!明明是同一個內核,爲何差別這麼大。
初步排查了下設備樹配置,以及uboot
跳轉內核前的一些關鍵寄存器,確實在兩個版本的uboot中
有所不一樣,但具體去看這些不一樣,發現都不會影響速度,將一些驅動對齊以後寄存器差別基本就消失了。
那再細看,kernel
的速度有差別,uboot
呢?在哪一個時間點以後,速度開始產生差別?
嘗試在兩個版本的uboot
中插入一些操做,對比時間戳,發現兩個uboot
在某個節點以後的速度確實有區別。
進一步排查,原來是在打開cache
操做以後,舊uboot
的速度就會比新uboot
快。嘗試將舊uboot
的cache
關掉,則兩者基本一致。嘗試將舊uboot
操做cache
的代碼,移植到新uboot
,未發生改變。
此時可確認新uboot
的開cache
有問題。但以爲這個跟kernel
啓動慢不要緊。由於uboot
進入kernel
以前都會關cache
,由kernel
本身去從新打開。
也就是不論是用哪份uboot
,也無論uboot
中是否開了cache
,對kernel
階段都應該沒有影響纔對。
因而記錄下來uboot
的這個問題,待後續修復。先繼續找kernel
啓動慢的緣由。(注:如今看來當時的作法是有問題的,這裏的異常這麼明顯,應該設法追蹤下去找出緣由纔對)
uboot
的嫌疑很是大,但還不能徹底確認,由於uboot
以前還有一級spl
。是否會是spl
的問題呢?
嘗試改用新spl+舊uboot
,啓動速度正常。而新spl+新uboot
的啓動速度則很慢,其餘因素都不變,說明問題確實出在uboot
階段。
當時到這一步就卡住了,直接比較兩份uboot
的代碼不太現實,差別太大了。
後來我就給本身提了個問題,到底新uboot
是多作了某件事情,仍是少作了某件事情?
換個說法,目前已知
spl --> 舊uboot --> kernel(速度快) spl --> 新uboot --> kernel(速度快)
但究竟是如下的狀況A
仍是狀況B
呢?
A: spl(速度慢) --> 舊uboot(作了某個會提高速度的操做) --> kernel(速度快) spl(速度慢) --> 新uboot(少作了某個會提高速度的操做) --> kernel(速度慢) B: spl(速度快) --> 舊uboot(沒作特殊操做) --> kernel(速度快) spl(速度快) --> 新uboot(多作了某個會限制速度的操做) --> kernel(速度慢)
爲了驗證,我決定讓spl
直接啓動內核,看看內核究竟是快是慢。
支持過程碰到了一些小問題
1.spl
沒有能力加載這麼大的kernel
解決:此時不須要kernel
能徹底啓動,只須要能加載啓動一段,足以體現出啓動速度是否正常便可,因而裁剪出一個很是小kernel
來輔助實驗。
2.kernel
須要dtb
解決:內核有一個CONFIG_BUILD_ARM_APPENDED_DTB_IMAGE
選項。選上從新編譯。編譯後再用dd
將kernel
和dtb
拼接到一塊兒,做爲新的kernel
。這樣,spl
就只須要加載一個文件並跳轉過去便可。
試驗結果,spl
啓動的kernel
和使用新uboot
啓動的kernel
速度一致,均比舊uboot
啓動的kernel
慢。
說明,舊uboot
中作了某個關鍵操做,而新uboot
沒作。
那接下來的任務就是,找出舊uboot
中的這個關鍵操做了。
怎麼找呢?有了上一步的成果,咱們可使用如下方法來排查
spl
加載kernel
和舊uboot
spl
跳轉到舊uboot
,此時kernel
其實已經在dram
中準備好了,隨時能夠啓動
在舊uboot
的啓動流程各個階段,嘗試直接跳轉到kernel
,觀察啓動速度
若是在舊uboot
的A
點跳轉kernel
啓動慢,B
點跳轉啓動快,則說明關鍵操做位於AB
點之間。
方法有了,很快就鎖定到start.S
,進一步在start.S
中揪出了這段代碼
#if defined(CONFIG_ARM_A7) @set SMP bit mrc p15, 0, r0, c1, c0, 1 orr r0, r0, #(1<<6) mcr p15, 0, r0, c1, c0, 1 #endif
新uboot
的start.S
中沒有這段代碼,嘗試在新uboot
的start.S
中添加此操做,速度立馬恢復正常了。
再全局搜索下,原來這個新版本uboot
中,套路是在board_init
中進行此項設置的,而這個平臺從舊版本移植過來,就沒有設置 SMP bit
, 補上便可。
SMP
是指對稱多處理器,看起來這個 bit
會影響多核的 cache
一致性,此處沒有再深刻研究。
但能夠知道,對於單處理器的狀況,也須要設置這個bit
才能正常使用cache
。
貼下arm
的圖和描述:
[6] SMP Signals if the Cortex-A9 processor is taking part in coherency or not. In uniprocessor configurations, if this bit is set, then Inner Cacheable Shared is treated as Cacheable. The reset value is zero.
搜下kernel
的代碼,發現也是有地方調用了的。不過這個芯片是單核的,根本就沒配置CONFIG_SMP
。
#ifdef CONFIG_SMP ALT_SMP(mrc p15, 0, r0, c1, c0, 1) ALT_UP(mov r0, #(1 << 6)) @ fake it for UP tst r0, #(1 << 6) @ SMP/nAMP mode enabled? orreq r0, r0, #(1 << 6) @ Enable SMP/nAMP mode orreq r0, r0, r10 @ Enable CPU-specific SMP bits mcreq p15, 0, r0, c1, c0, 1 #endif
整理出來一方面是記錄這兩個bug
,另外一方面也是想記錄下當時的一些操做。
畢竟一樣的bug
可能之後都不會碰到了,但解bug
的方法和思路倒是能夠積累複用的。
blog: http://www.javashuo.com/article/p-tylcsvns-hk.html
公衆號:https://sourl.cn/shT3kz