在ARM开发板上移植Linux2.6

现在的位置: 首页 > 综合 > 正文

在ARM开发板上移植Linux2.6

2013年04月21日 ⁄ 综合 ⁄ 共 28270字 ⁄ 字号小中大 ⁄ 评论关闭

正文
在ARM开发板上移植Linux2.6

声明：本文内容大多节选自一些网上的文章。

ARM开发板简介

PXA255处理器介绍：
Intel: "For advanced devices that run the most impactful mobile applications, the Intel? PXA255 Processor is the answer. A pin-for-pin compatible, drop-in replacement for the Intel? PXA250 processor, the Intel PXA255 processor is a highly integrated, 32-bit RISC processor that combines the efficiency of Intel design with the ARM v.5TE instruction set architecture. The Intel PXA255 processor delivers industry leading processing power with built-in multimedia capabilities for high performance and hand-held functionality. "

eetchina.com: "Intel Xscale PXA255处理器是新一代的嵌入式处理器，基于ARMv5TE体系结构的微处理器，性价比较高、功耗较低，适合于数字移动电话、个人数字助理、网络路由器等嵌入式系统的应用。"

Features of the PXA255 processor are:
. Core frequencies supported - 100 MHz - 400 MHz
. System memory interface
— 100MHz SDRAM
— 4 MB to 256 MB of SDRAM memory
— Support for 16, 64, 128, or 256 Mbit DRAM technologies
— 4 Banks of SDRAM, each supporting 64 MB of memory
— Clock enable (1 CKE pin is provided to put the entire SDRAM interface into self refresh)
— Supports as many as 6 static memory devices (SRAM, Flash, or VLIO)
. PCMCIA/Compact Flash card control pins
. LCD Controller pins
. Full Function UART
. Bluetooth UART
. Hardware UART
. MMC Controller pins
. SSP Pins
. Network SSP Pins
. USB Client Pins
. AC'97 Controller Pins
. Standard UART Pins
. I2C Controller pins
. PWM pins
. 15 dedicated GPIOs pins
. Integrated JTAG support

Linux2.6简介[ Linux 2.6内核的精彩世界 http://www-128.ibm.com/developerworks/cn/linux/kernel/l-kernel26/index.html]
多种平台支持
能够支持相当广泛的硬件和平台，是采用Linux作为内核的操作系统（比如 GNU操作系统，系统和环境常常是和Linux一块分发。Linux一般不被认为是独立的操作系统，只是操作系统的内核。）的优势之一。Linux自1.2版就开始包含对新的处理器类型和特性的支持，最新的Linux 2.6内核发布版本也不例外。这种趋势不会直接影响到Linux在Intel平台下的使用，同时使得Linux能在尽可能大的范围内被使用，这一点非常重要。

小规模－嵌入式系统中的Linux

Linux 2.6 扩展多平台支持的一个主要途径就是把uClinux的大部并入了主流内核（mainstream kernel）。uCLinux（可以发音为"you-see-Linux"，但更正确的拼写，首字母应该式希腊字母"mu"）是将Linux应用在微控制器平台的项目。很多年来，这个Linux分支为许多嵌入式芯片提供了支持，把它更多的集成到主流内核中是一件非常有意义的事。

不像通常的Linux移植版本，这里描述的嵌入式移植版由于硬件限制和通常的Linux相比，不具有所有类似的特性。主要的区别在于：这些移植版是针对于没有内存管理单元（MMU）的处理器的（Intel的CPU从386开始就有MMU了）。缺少MMU的支持，运行真正的多任务系统时，任务之间没有内存保护机制（因此任何程序都可以使得其他程序崩溃），一些有关进程派生的系统调用也无法实现。正是因为没有内存保护机制（或者说，没有任何安全性可言），它们不适用于多用户系统。

在对嵌入式处理器支持上，Linux 2.6有四个主要的新进步。首先是对Motorola的新型嵌入式m68k系列处理器移植。这些被命名为Dragonball或是ColdFire的处理器可以在Motorola，Lineo，Arcturus或是其他厂商生产的系统或是评估板上找到。大多数Linux用户应该对这些处理器相当熟悉，因为从Palm 1000到最新的Palm III，他们一直是Palm Pilots的心脏。不幸的是，对早期没有MMU的m68k处理器（比如早期苹果机上使用的68000系列）还没有支持。最新支持的嵌入式平台还包括日立（Hitachi）的H8/300系列（不包含H8S，但可能会尽快地集成进来）以及NEC v850处理器。

无论怎么强调Linux 2.6旨在支持无MMU系统的主要体系结构变化，都不为过分。所有Linux的前期版本，不论直接或是间接，都起源于Linus最初在Intel 80386上的工作，局限性是固有的。沿着这个方向（对无MMU系统的支持），将来也许会有更多的其他早期的硬件被支持（事实上，已经有关于此目的的项目启动）。但是，不像为现代的以及仍在生产中的嵌入式处理器的提供支持，对早期的硬件的支持被更多地认为是基于某种爱好，并且对于最终用户而言很可能是无用的（因此在今后的Linux的官方发布版本也许不会将其包含在内）。

最新的Linux版本包含了对Axis通信公司的ETAX CRIS（"Code Reduced Instruction Set"）处理器的支持（更确切地说，支持ETRAX 100LX及更新的产品），它从技术的角度而言不是uCLinux合并的一部分（因为它包含MMU单元）。实际上对这款处理器的支持在2.4开发周期就已经有了，但它在2.4.0以后才被引入，所以现在应该提到它。它是主要用于网络设备的嵌入式处理器。与此相关的ETRAX 100，是得到uClinux支持的无MMU处理器，但是在主流的Linux内核中相关支持却没有集成进来。
子体系结构（Subarchitecture）支持

Linux 2.6除了对许多新的处理器体系结构外，还包含了一个称为子体系结构（Subarchitecture）的新概念。以前，Linux通常假设处理器和其他硬件是配套的。也就是说，i386系列处理器只会在PC/AT服务器上使用。这条针对i386的假设在Linux 2.4中就被打破，因为i386的额外支持使其可以在SGI的视频工作站（Visual Workstation）中使用。（事实上，在其他非i386体系结构上，这个假设早被打破了。比如，m68k很早就支持Amiga，Michintosh等平台。）Linux 2.6对于此最大的变化就是，让这个特性以及概念成为标准，以便所有的体系结构都可以用相似而健全的方法来处理，以便更清晰地划分模块。

标准的确立使得i386可以运用于两个新的平台。第一个是NCR的Voyager体系。这是一个对称多处理器（SMP）系统（在Intel的MP规范标准确定之前就已经开发出来了），它支持多达32个486－686的处理器配置。实际采取这种体系结构的产品处理器的配置数目要相对少一些，而且目前并不是所有的型号都得到了Linux的支持（最早的就不支持）。第二种得到最新支持的体系结构是更为广泛使用的由NEC开发的PC-9800平台，它曾是日本市场占统治地位的PC平台，一直到最近几年。最初的PC-9800装载的是8086处理器，最终发展到奔腾级处理器和SMP支持。（当然，Linux对它的支持局限在386以上。）尽管在美国它完全不为人所知，微软的Windows 95之前的版本曾移植到这个平台上。该平台由于生产商对标准PC的偏爱，生产已经中止。

Linux对差异细微的硬件类型支持的形式化，使得操作系统能更容易的移植到其他平台上，比如移植到专为存储设计的硬件或者是使用在工业领域的主流处理器。需要澄清的是，子体系结构也不是任何时候都管用的，它能够发挥作用是因为这些可移植的系统非常底层构件（比如IRQ路由）有或多或少的不同。比起在X-box上运行Linux的差别来说，驱动程序等相对小的差别还不足以把它们从传统的i386系统中分开。Linux对X-box的支持，就不是子体系结构的问题。
统一设备模型
作为操作系统中的一个相对独立的组件，设备模型对于那些被设计运行于用于多种硬件之上的操作系统而言是至关重要的。简单地说，设备模型是内核中的基础设施，用于检测和决定系统中所有可选模块的资源使用。所有的操作系统（包括各版本的Linux）都固有一些设备的概念。老版本的Linux（2.2或更早）仅使用一种直接的方法操作设备。系统为不同种类的硬件总线提供驱动程序，各式各样的设备驱动程序知道如何探测它们所支持的设备总线以寻找对应的硬件设备。这种系统非常分散，各种各样的总线提供许多互不兼容的API，用于处理各种不同的操作。Linux 2.4通过使用一组通用接口将PCI，PC卡以及ISA PnP 整合到一个单一的设备结构中，完成了构建统一设备模型的第一步。Linux 2.6更进一步地推进了这方面的努力，力求在整个系统的范围内，内核以一种新的统一的视角看待它所依赖的硬件。

ARM Linux
ARM Linux is a port of the successful Linux Kernel to ARM processor based machines, lead mainly by Russell King, with contributions from many others. ARM Linux is under almost constant development by various people and organisations around the world.
The ARM Linux kernel is being ported, or has been ported to more than 500 different machine variations, including complete computers, network computers, hand held devices and evaluation boards.
JTAG简介
到底什么是JTAG呢？
JTAG(Joint Test Action Group)联合测试行动小组)是一种国际标准测试协议（IEEE 1149.1兼容），主要用于芯片内部测试。现在多数的高级器件都支持JTAG协议，如DSP、FPGA器件等。标准的JTAG接口是4线：TMS、 TCK、TDI、TDO，分别为模式选择、时钟、数据输入和数据输出线。
JTAG最初是用来对芯片进行测试的，基本原理是在器件内部定义一个TAP（Test Access Port测试访问口）通过专用的JTAG测试工具对进行内部节点进行测试。JTAG测试允许多个器件通过JTAG接口串联在一起，形成一个JTAG链，能实现对各个器件分别测试。现在，JTAG接口还常用于实现ISP（In-System rogrammable在线编程），对FLASH等器件进行编程。
JTAG编程方式是在线编程，传统生产流程中先对芯片进行预编程现再装到板上因此而改变，简化的流程为先固定器件到电路板上，再用JTAG编程，从而大大加快工程进度。JTAG接口可对PSD芯片内部的所有部件进行编程。
边界扫描
在JTAG调试当中，边界扫描（Boundary-Scan）是一个很重要的概念。边界扫描技术的基本思想是在靠近芯片的输入输出管脚上增加一个移位寄存器单元。因为这些移位寄存器单元都分布在芯片的边界上（周围），所以被称为边界扫描寄存器（Boundary-Scan Register Cell）。当芯片处于调试状态的时候，这些边界扫描寄存器可以将芯片和外围的输入输出隔离开来。通过这些边界扫描寄存器单元，可以实现对芯片输入输出信号的观察和控制。对于芯片的输入管脚，可以通过与之相连的边界扫描寄存器单元把信号（数据）加载倒该管脚中去；对于芯片的输出管脚，也可以通过与之相连的边界扫描寄存器“捕获”（CAPTURE）该管脚上的输出信号。在正常的运行状态下，这些边界扫描寄存器对芯片来说是透明的，所以正常的运行不会受到任何影响。这样，边界扫描寄存器提供了一个便捷的方式用以观测和控制所需要调试的芯片。另外，芯片输入输出管脚上的边界扫描（移位）寄存器单元可以相互连接起来，在芯片的周围形成一个边界扫描链（Boundary-Scan Chain）。一般的芯片都会提供几条独立的边界扫描链，用来实现完整的测试功能。边界扫描链可以串行的输入和输出，通过相应的时钟信号和控制信号，就可以方便的观察和控制处在调试状态下的芯片。
JTAG的一些说明
通常所说的JTAG大致分两类，一类用于测试芯片的电气特性，检测芯片是否有问题；一类用于Debug；一般支持JTAG的CPU内都包含了这两个模块。
一个含有JTAG Debug接口模块的CPU，只要时钟正常，就可以通过JTAG接口访问CPU的内部寄存器和挂在CPU总线上的设备，如FLASH，RAM，SOC（比如4510B，44Box，AT91M系列）内置模块的寄存器，象UART，Timers，GPIO等等的寄存器。
仿真器与简易JTAG电缆
关于简单JTAG电缆。
目前有各种各样简单JTAG电缆，如Wiggle，SDT等。其实只是一个电平转换电路，同时还起到保护作用。JTAG的逻辑则由运行在PC上的软件实现，所以在理论上，任何一个简单 JTAG电缆，都可以支持各种应用软件，如Debug等。
仿真器
用户选用ARM处理器开发嵌入式系统时，选择合适的开发工具可以加快开发进度，节省开发成本。因此一套含有编辑软件、编译软件、汇编软件、链接软件、调试软件、工程管理及函数库的集成开发环境（IDE）一般来说是必不可少的，至于嵌入式实时操作系统、评估板等其他开发工具则可以根据应用软件规模和开发计划选用。
使用集成开发环境开发基于ARM的应用软件，包括编辑、编译、汇编、链接等工作全部在PC机上即可完成，调试工作则需要配合其他的模块或产品方可完成，目前常见的调试方法有以下几种：
1、指令集模拟器
部分集成开发环境提供了指令集模拟器，可方便用户在PC机上完成一部分简单的调试工作，但是由于指令集模拟器与真实的硬件环境相差很大，因此即使用户使用指令集模拟器调试通过的程序也有可能无法在真实的硬件环境下运行，用户最终必须在硬件平台上完成整个应用的开发。
2、驻留监控软件
驻留监控软件（Resident Monitors）是一段运行在目标板上的程序，集成开发环境中的调试软件通过以太网口、并行端口、串行端口等通讯端口与驻留监控软件进行交互，由调试软件发布命令通知驻留监控软件控制程序的执行、读写存储器、读写寄存器、设置断点等。
驻留监控软件是一种比较低廉有效的调试方式，不需要任何其他的硬件调试和仿真设备。ARM公司的Angel就是该类软件，大部分嵌入式实时操作系统也是采用该类软件进行调试，不同的是在嵌入式实时操作系统中，驻留监控软件是作为操作系统的一个任务存在的。
驻留监控软件的不便之处在于它对硬件设备的要求比较高，一般在硬件稳定之后才能进行应用软件的开发，同时它占用目标板上的一部分资源，而且不能对程序的全速运行进行完全仿真，所以对一些要求严格的情况不是很适合。
3、JTAG仿真器
JTAG仿真器也称为JTAG调试器，是通过ARM芯片的JTAG边界扫描口进行调试的设备。JTAG仿真器比较便宜，连接比较方便，通过现有的JTAG边界扫描口与 ARM CPU 核通信，属于完全非插入式(即不使用片上资源)调试，它无需目标存储器，不占用目标系统的任何端口，而这些是驻留监控软件所必需的。另外，由于JTAG调试的目标程序是在目标板上执行，仿真更接近于目标硬件，因此，许多接口问题，如高频操作限制、AC和DC参数不匹配，电线长度的限制等被最小化了。使用集成开发环境配合JTAG仿真器进行开发是目前采用最多的一种调试方式。
4、在线仿真器
在线仿真器使用仿真头完全取代目标板上的CPU，可以完全仿真ARM芯片的行为，提供更加深入的调试功能。但这类仿真器为了能够全速仿真时钟速度高于100MHz的处理器，通常必须采用极其复杂的设计和工艺，因而其价格比较昂贵。在线仿真器通常用在ARM的硬件开发中，在软件的开发中较少使用，其价格高昂也是在线仿真器难以普及的因素。
Flash烧写
没找到合适的文章抄，只好自己写一点了：=)
初始的板子没有任何代码可供运行，也就是没有BOOT Loader，必须得使用某种方法把最初启动所需要的代码（Boot Loader）弄进去。大规模生产的时候，可能是预先烧好的Flash直接焊接上就可以了。研发阶段一般由仿真器来做这个事情。如果没有仿真器，只好借助简易JTAG电缆，找一些烧写软件来烧写了。
烧写软件五花八门，大半都是为特定处理器，特定FLASH芯片而写。即便通用的，也不能支持所有的FLASH。
Intel也推出烧写软件JFlashMM，支持Intel Stratash Flash. 可以通过简易JTAG电缆烧写，它支持Insight/Parellel两种接线方式。对它进行一点小改动，也可以让它支持SDT方式。
http://www.copathway.com/itbookreview/view_paper.asp?paper_id=1580
有了boot loader以后，可以在boot loader里编写烧写程序，相对来说，要容易得多，烧写速度也更快。
公共闪存接口CFI[ 公共闪存接口CFI在FlashMemory程序设计中的应用]
虽然Flash Memory应用越来越广泛，但由于生产Flash Memory的半导体制造商众多，不同厂商Flash Memory产品的操作命令集和电气参数又千差万别，这给Flash Memory的开发设计人员和OEM制造商带来许多不便。为了对现有的Flash Memory的产品进行升级或使用其它公司的Flash Memory产品替换，必须对原有的程序代码和硬件结构进行修改。为解决上述原因所引发的问题，迫切需要Flash Memory制造商提出一个公共的标准解决方案，在这样的背景下，公共闪存接口（Common Flash Interface），简称CFI诞生了，CFI是一个公开的标准的从Flash Memory器件中读取数据的接口。它可以使系统软件查询已安装的Flash Memory器件的各种参数，包括器件阵列结构参数、电气和时间参数以及器件支持的功能等。利用CFI可以不用修改系统软件就可以用新型的和改进的产品代替旧版本的产品。例如：如果新型的Flash Memory的擦除时间只有旧版本的一半，系统软件只要通过CFI读取新器件的擦除时间等参数，修改一下定时器的时间参数即可。为了充分有效地利用CFI所提供的功能，有必要了解一下以下几个方面的问题。

1 Flash Memory的工作方式

对Flash Memory芯片的所有操作都是通过芯片的命令用户接口（CUI）来实现的，命令用户接口是微处理器或微控制器与芯片内部操作之间的界面。当通过CUI写入不同的控制命令时，Flash Memory从一个工作状态转移到另一个工作状态，其常见的工作状态分为以下几种。

1.1 读存储单元操作

在Flash Memory芯片上电以后，或者从深度低功耗状态返回以后，芯片就处于读存储单元状态。可通过写入复位命令进入读存储单元状态。此时可以读取Flash Memory芯片存储单元的内容，读存储单元的操作与SRAM相同但不同公司的产品逻辑电源供电电压(Vcc)是不同的。

1.2 擦除操作

对Flash Memory芯片进行擦除操作时，由于Flash Memory采用模块分区的阵列结构，使得各个存储模块可以被独立地擦除，当给出的地址是在模块地址范围之内且向命令用户接口写入模块擦除命令时，相应的模块就被擦除。在执行擦除操作时有三个问题需要注意：（１）由于Flash Memory采用模块分区的阵列结构，不同型号的Flash Memory产品模块分区的数量和每个分区的大小是不一样的；（２）不同型号的Flash Memory产品在执行擦除操作时，擦除电压是不一样的；（３）不同型号的Flash Memory产品整片擦除时间和每个模块分区的擦除时间参数是不同的。

1.3 编程操作

Flash Memory 的编程操作是自动字节编程，既可以是顺序写入，也可以是指定地址写入。向用户命令接口写入字节编程命令时，芯片自动进行字节编程和编程校验。在执行编程操作时有两个问题需要注意：（１）对不同型号的Flash Memory产品进行编程操作时编程电压是不一样的；（２）不同型号的Flash Memory产品字节／字编程时间是不同的。所有这些问题都是在系统程序设计时必须要考虑的问题。

除了以上所提到的常见的三种工作方式外，Flash Memory还有芯片复位、读标识码、擦除挂起和擦除恢复等工作方式，只不过这几种工作方式在程序设计时几乎不需要考虑什么问题，只要输入正确的命令字即可，但是不同公司的Flash Memory命令控制字是不同的。前面所遇到的问题，都可以通过CFI来解决，但首先要保证待操作的Flash Memory是一个CFI使能的器件。

2 CFI使能器件的识别

为了确定一个闪速存储器是否是一个CFI使能的Flash Memory器件，系统软件首先要通过CUI往闪速存储器的地址55H写入数据98H，然后从器件的地址10H处开始通过数据总线连续读取3个存储单元中的内容，如果数据总线返回的3个存储单元的字符分别为‘Q’、‘R’和‘Y’，那么该器件是一个CFI使能的Flash Memory器件。

由于Flash Memory内部的阵列结构各不相同，从器件返回查询字符‘Q’的地址和数量亦不同。目前常见的Flash Memory内部阵列结构主要有以下三种模式：

(１) 单片×16结构，该芯片有8位访问能力，但只能操作在16位总线模式；

(２) 双片×8／16结构，每片既有8位又有16位总线存储模式，但每片仅能操作在8位总线模式，整个芯片阵列结构为16位总线；

(３) 双片×16结构，每片仅有8位总线存储模式，且每片仅能操作在8位总线模式，整个芯片阵列结构为16位总线。

在判决一个Flash Memory是CFI使能器件后，软件程序要根据从器件返回的查询字符＇Ｑ＇的数量来确定Flash Memory的阵列结构，并以此来保证对器件正确的读写操作。

3 公共闪存接口的结构

在识别器件为CFI使能器件后，通过查询命令来读取CFI查询结构或数据库，这些数据的地址和含义如表1，在表1中地址13H处为制造商命令集和控制接口识别码ID信息，其数据代表的含义如表2所示。

表1 CFI数据结构（数据库）的地址和含义表

表２制造商命令集和控制接口识别码ＩＤ定义表

４ CFI查询操作软件流程

从表1中可以看到CFI提供了一种公开的标准的数据信息，系统软件能够利用这些信息使用不同制造商的命令集、调整擦除和编程定时时间、根据擦除块区域信息调整存储器体积大小等。系统软件要在CFI查询操作中读取CFI提供的主要数据信息，利用这些信息很容易对各种Flash Memory进行程序设计。CFI的查询操作的程序框图如图1所示。

开发工具资源列表工具链
JFlashMM
     http://www.intel.com/design/pca/applicationsprocessors/swsup/JFlashMM.htm
U-Boot-1.1.5
     http://sourceforge.net/projects/u-boot
BusyBox 1.2.2.1
http://www.busybox.net/
Linux 2.6.18
http://www.kernel.org/
工具链
arm-linux-gcc-3.4.1.tar.bz2
     ftp://ftp.handhelds.org/projects/toolchain/
    这个是预编译好的，可以用来编译Linux Kernel，和U-Boot, 也可以编译BusyBox。
arm-uclibc-3.3.1-toolchain.tar.bz2
http://frodo.nt.fh-koeln.de/~tkrawuts/arm-uclibc-tools.tar.bz2
这个可以用来编译BusyBox，因为采用了uClibC，因此尺寸大大减小。
genext2fs-1.3-2.i686.rpm
http://genext2fs.sourceforge.net/
用来生成ramdisk，制作initrd。
mkfs.jffs2
ftp://sources.redhat.com/pub/jffs2/mkfs.jffs2
用来生成jffs2文件系统。

Boot Loader简介[ 詹荣开嵌入式系统 Boot Loader 技术内幕 http://www-128.ibm.com/developerworks/cn/linux/l-btloader/]
1. 引言

在专用的嵌入式板子运行 GNU/Linux 系统已经变得越来越流行。一个嵌入式 Linux 系统从软件的角度看通常可以分为四个层次：

1. 引导加载程序。包括固化在固件(firmware)中的 boot 代码(可选)，和 Boot Loader 两大部分。

2. Linux 内核。特定于嵌入式板子的定制内核以及内核的启动参数。

3. 文件系统。包括根文件系统和建立于 Flash 内存设备之上文件系统。通常用 ram disk 来作为 root fs。

4. 用户应用程序。特定于用户的应用程序。有时在用户应用程序和内核层之间可能还会包括一个嵌入式图形用户界面。常用的嵌入式 GUI 有：MicroWindows 和 MiniGUI 懂。

引导加载程序是系统加电后运行的第一段软件代码。回忆一下 PC 的体系结构我们可以知道，PC 机中的引导加载程序由 BIOS(其本质就是一段固件程序)和位于硬盘 MBR 中的 OS Boot Loader（比如，LILO 和 GRUB 等）一起组成。BIOS 在完成硬件检测和资源分配后，将硬盘 MBR 中的 Boot Loader 读到系统的 RAM 中，然后将控制权交给 OS Boot Loader。Boot Loader 的主要运行任务就是将内核映象从硬盘上读到 RAM 中，然后跳转到内核的入口点去运行，也即开始启动操作系统。

而在嵌入式系统中，通常并没有像 BIOS 那样的固件程序（注，有的嵌入式 CPU 也会内嵌一段短小的启动程序），因此整个系统的加载启动任务就完全由 Boot Loader 来完成。比如在一个基于 ARM7TDMI core 的嵌入式系统中，系统在上电或复位时通常都从地址 0x00000000 处开始执行，而在这个地址处安排的通常就是系统的 Boot Loader 程序。

本文将从 Boot Loader 的概念、Boot Loader 的主要任务、Boot Loader 的框架结构以及 Boot Loader 的安装等四个方面来讨论嵌入式系统的 Boot Loader。

2. Boot Loader 的概念

简单地说，Boot Loader 就是在操作系统内核运行之前运行的一段小程序。通过这段小程序，我们可以初始化硬件设备、建立内存空间的映射图，从而将系统的软硬件环境带到一个合适的状态，以便为最终调用操作系统内核准备好正确的环境。

通常，Boot Loader 是严重地依赖于硬件而实现的，特别是在嵌入式世界。因此，在嵌入式世界里建立一个通用的 Boot Loader 几乎是不可能的。尽管如此，我们仍然可以对 Boot Loader 归纳出一些通用的概念来，以指导用户特定的 Boot Loader 设计与实现。

1. Boot Loader 所支持的 CPU 和嵌入式板

每种不同的 CPU 体系结构都有不同的 Boot Loader。有些 Boot Loader 也支持多种体系结构的 CPU，比如 U-Boot 就同时支持 ARM 体系结构和MIPS 体系结构。除了依赖于 CPU 的体系结构外，Boot Loader 实际上也依赖于具体的嵌入式板级设备的配置。这也就是说，对于两块不同的嵌入式板而言，即使它们是基于同一种 CPU 而构建的，要想让运行在一块板子上的 Boot Loader 程序也能运行在另一块板子上，通常也都需要修改 Boot Loader 的源程序。

2. Boot Loader 的安装媒介（Installation Medium）

系统加电或复位后，所有的 CPU 通常都从某个由 CPU 制造商预先安排的地址上取指令。比如，基于 ARM7TDMI core 的 CPU 在复位时通常都从地址 0x00000000 取它的第一条指令。而基于 CPU 构建的嵌入式系统通常都有某种类型的固态存储设备(比如：ROM、EEPROM 或 FLASH 等)被映射到这个预先安排的地址上。因此在系统加电后，CPU 将首先执行 Boot Loader 程序。

下图1就是一个同时装有 Boot Loader、内核的启动参数、内核映像和根文件系统映像的固态存储设备的典型空间分配结构图。

图1 固态存储设备的典型空间分配结构

3. 用来控制 Boot Loader 的设备或机制

主机和目标机之间一般通过串口建立连接，Boot Loader 软件在执行时通常会通过串口来进行 I/O，比如：输出打印信息到串口，从串口读取用户控制字符等。

4. Boot Loader 的启动过程是单阶段（Single Stage）还是多阶段（Multi-Stage）

通常多阶段的 Boot Loader 能提供更为复杂的功能，以及更好的可移植性。从固态存储设备上启动的 Boot Loader 大多都是 2 阶段的启动过程，也即启动过程可以分为 stage 1 和 stage 2 两部分。而至于在 stage 1 和 stage 2 具体完成哪些任务将在下面讨论。

5. Boot Loader 的操作模式 (Operation Mode)

大多数 Boot Loader 都包含两种不同的操作模式："启动加载"模式和"下载"模式，这种区别仅对于开发人员才有意义。但从最终用户的角度看，Boot Loader 的作用就是用来加载操作系统，而并不存在所谓的启动加载模式与下载工作模式的区别。

启动加载（Boot loading）模式：这种模式也称为"自主"（Autonomous）模式。也即 Boot Loader 从目标机上的某个固态存储设备上将操作系统加载到 RAM 中运行，整个过程并没有用户的介入。这种模式是 Boot Loader 的正常工作模式，因此在嵌入式产品发布的时侯，Boot Loader 显然必须工作在这种模式下。

下载（Downloading）模式：在这种模式下，目标机上的 Boot Loader 将通过串口连接或网络连接等通信手段从主机（Host）下载文件，比如：下载内核映像和根文件系统映像等。从主机下载的文件通常首先被 Boot Loader 保存到目标机的 RAM 中，然后再被 Boot Loader 写到目标机上的FLASH 类固态存储设备中。Boot Loader 的这种模式通常在第一次安装内核与根文件系统时被使用；此外，以后的系统更新也会使用 Boot Loader 的这种工作模式。工作于这种模式下的 Boot Loader 通常都会向它的终端用户提供一个简单的命令行接口。

像 Blob 或 U-Boot 等这样功能强大的 Boot Loader 通常同时支持这两种工作模式，而且允许用户在这两种工作模式之间进行切换。比如，Blob 在启动时处于正常的启动加载模式，但是它会延时 10 秒等待终端用户按下任意键而将 blob 切换到下载模式。如果在 10 秒内没有用户按键，则 blob 继续启动 Linux 内核。

6. BootLoader 与主机之间进行文件传输所用的通信设备及协议

最常见的情况就是，目标机上的 Boot Loader 通过串口与主机之间进行文件传输，传输协议通常是 xmodem／ymodem／zmodem 协议中的一种。但是，串口传输的速度是有限的，因此通过以太网连接并借助 TFTP 协议来下载文件是个更好的选择。

此外，在论及这个话题时，主机方所用的软件也要考虑。比如，在通过以太网连接和 TFTP 协议来下载文件时，主机方必须有一个软件用来的提供 TFTP 服务。

在讨论了 BootLoader 的上述概念后，下面我们来具体看看 BootLoader 的应该完成哪些任务。

3. Boot Loader 的主要任务与典型结构框架

在继续本节的讨论之前，首先我们做一个假定，那就是：假定内核映像与根文件系统映像都被加载到 RAM 中运行。之所以提出这样一个假设前提是因为，在嵌入式系统中内核映像与根文件系统映像也可以直接在 ROM 或 Flash 这样的固态存储设备中直接运行。但这种做法无疑是以运行速度的牺牲为代价的。

从操作系统的角度看，Boot Loader 的总目标就是正确地调用内核来执行。

另外，由于 Boot Loader 的实现依赖于 CPU 的体系结构，因此大多数 Boot Loader 都分为 stage1 和 stage2 两大部分。依赖于 CPU 体系结构的代码，比如设备初始化代码等，通常都放在 stage1 中，而且通常都用汇编语言来实现，以达到短小精悍的目的。而 stage2 则通常用C语言来实现，这样可以实现给复杂的功能，而且代码会具有更好的可读性和可移植性。

Boot Loader 的 stage1 通常包括以下步骤(以执行的先后顺序)：

硬件设备初始化。

为加载 Boot Loader 的 stage2 准备 RAM 空间。

拷贝 Boot Loader 的 stage2 到 RAM 空间中。

设置好堆栈。

跳转到 stage2 的 C 入口点。

Boot Loader 的 stage2 通常包括以下步骤(以执行的先后顺序)：

初始化本阶段要使用到的硬件设备。

检测系统内存映射(memory map)。

将 kernel 映像和根文件系统映像从 flash 上读到 RAM 空间中。

为内核设置启动参数。

调用内核。
3.1 Boot Loader 的 stage1

3.1.1 基本的硬件初始化

这是 Boot Loader 一开始就执行的操作，其目的是为 stage2 的执行以及随后的 kernel 的执行准备好一些基本的硬件环境。它通常包括以下步骤（以执行的先后顺序）：

1．屏蔽所有的中断。为中断提供服务通常是 OS 设备驱动程序的责任，因此在 Boot Loader 的执行全过程中可以不必响应任何中断。中断屏蔽可以通过写 CPU 的中断屏蔽寄存器或状态寄存器（比如 ARM 的 CPSR 寄存器）来完成。

2．设置 CPU 的速度和时钟频率。

3． RAM 初始化。包括正确地设置系统的内存控制器的功能寄存器以及各内存库控制寄存器等。

4．初始化 LED。典型地，通过 GPIO 来驱动 LED，其目的是表明系统的状态是 OK 还是 Error。如果板子上没有 LED，那么也可以通过初始化 UART 向串口打印 Boot Loader 的 Logo 字符信息来完成这一点。

5．关闭 CPU 内部指令／数据 cache。

3.1.2 为加载 stage2 准备 RAM 空间

为了获得更快的执行速度，通常把 stage2 加载到 RAM 空间中来执行，因此必须为加载 Boot Loader 的 stage2 准备好一段可用的 RAM 空间范围。

由于 stage2 通常是 C 语言执行代码，因此在考虑空间大小时，除了 stage2 可执行映象的大小外，还必须把堆栈空间也考虑进来。此外，空间大小最好是 memory page 大小(通常是 4KB)的倍数。一般而言，1M 的 RAM 空间已经足够了。具体的地址范围可以任意安排，比如 blob 就将它的 stage2 可执行映像安排到从系统 RAM 起始地址 0xc0200000 开始的 1M 空间内执行。但是，将 stage2 安排到整个 RAM 空间的最顶 1MB(也即(RamEnd-1MB) - RamEnd)是一种值得推荐的方法。

为了后面的叙述方便，这里把所安排的 RAM 空间范围的大小记为：stage2_size(字节)，把起始地址和终止地址分别记为：stage2_start 和 stage2_end(这两个地址均以 4 字节边界对齐)。因此：

stage2_end＝stage2_start＋stage2_size

另外，还必须确保所安排的地址范围的的确确是可读写的 RAM 空间，因此，必须对你所安排的地址范围进行测试。具体的测试方法可以采用类似于 blob 的方法，也即：以 memory page 为被测试单位，测试每个 memory page 开始的两个字是否是可读写的。为了后面叙述的方便，我们记这个检测算法为：test_mempage，其具体步骤如下：

1．先保存 memory page 一开始两个字的内容。

2．向这两个字中写入任意的数字。比如：向第一个字写入 0x55，第 2 个字写入 0xaa。

3．然后，立即将这两个字的内容读回。显然，我们读到的内容应该分别是 0x55 和 0xaa。如果不是，则说明这个 memory page 所占据的地址范围不是一段有效的 RAM 空间。

4．再向这两个字中写入任意的数字。比如：向第一个字写入 0xaa，第 2 个字中写入 0x55。

5．然后，立即将这两个字的内容立即读回。显然，我们读到的内容应该分别是 0xaa 和 0x55。如果不是，则说明这个 memory page 所占据的地址范围不是一段有效的 RAM 空间。

6．恢复这两个字的原始内容。测试完毕。

为了得到一段干净的 RAM 空间范围，我们也可以将所安排的 RAM 空间范围进行清零操作。

3.1.3 拷贝 stage2 到 RAM 中

拷贝时要确定两点：(1) stage2 的可执行映象在固态存储设备的存放起始地址和终止地址；(2) RAM 空间的起始地址。

3.1.4 设置堆栈指针 sp

堆栈指针的设置是为了执行 C 语言代码作好准备。通常我们可以把 sp 的值设置为(stage2_end-4)，也即在 3.1.2 节所安排的那个 1MB 的 RAM 空间的最顶端(堆栈向下生长)。

此外，在设置堆栈指针 sp 之前，也可以关闭 led 灯，以提示用户我们准备跳转到 stage2。

经过上述这些执行步骤后，系统的物理内存布局应该如下图2所示。

3.1.5 跳转到 stage2 的 C 入口点

在上述一切都就绪后，就可以跳转到 Boot Loader 的 stage2 去执行了。比如，在 ARM 系统中，这可以通过修改 PC 寄存器为合适的地址来实现。

图2 bootloader 的 stage2 可执行映象刚被拷贝到 RAM 空间时的系统内存布局

3.2 Boot Loader 的 stage2

正如前面所说，stage2 的代码通常用 C 语言来实现，以便于实现更复杂的功能和取得更好的代码可读性和可移植性。但是与普通 C 语言应用程序不同的是，在编译和链接 boot loader 这样的程序时，我们不能使用 glibc 库中的任何支持函数。其原因是显而易见的。这就给我们带来一个问题，那就是从那里跳转进 main() 函数呢？直接把 main() 函数的起始地址作为整个 stage2 执行映像的入口点或许是最直接的想法。但是这样做有两个缺点：1)无法通过main() 函数传递函数参数；2)无法处理 main() 函数返回的情况。一种更为巧妙的方法是利用 trampoline(弹簧床)的概念。也即，用汇编语言写一段trampoline 小程序，并将这段 trampoline 小程序来作为 stage2 可执行映象的执行入口点。然后我们可以在 trampoline 汇编小程序中用 CPU 跳转指令跳入 main() 函数中去执行；而当 main() 函数返回时，CPU 执行路径显然再次回到我们的 trampoline 程序。简而言之，这种方法的思想就是：用这段 trampoline 小程序来作为 main() 函数的外部包裹(external wrapper)。

下面给出一个简单的 trampoline 程序示例(来自blob)：

.text

.globl _trampoline
_trampoline:
    bl    main
    /* if main ever returns we just call it again */
    b    _trampoline

可以看出，当 main() 函数返回后，我们又用一条跳转指令重新执行 trampoline 程序――当然也就重新执行 main() 函数，这也就是 trampoline(弹簧床)一词的意思所在。

3.2.1初始化本阶段要使用到的硬件设备

这通常包括：（1）初始化至少一个串口，以便和终端用户进行 I/O 输出信息；（2）初始化计时器等。

在初始化这些设备之前，也可以重新把 LED 灯点亮，以表明我们已经进入 main() 函数执行。

设备初始化完成后，可以输出一些打印信息，程序名字字符串、版本号等。

3.2.2 检测系统的内存映射（memory map）

所谓内存映射就是指在整个 4GB 物理地址空间中有哪些地址范围被分配用来寻址系统的 RAM 单元。比如，在 SA-1100 CPU 中，从 0xC000,0000 开始的 512M 地址空间被用作系统的 RAM 地址空间，而在 Samsung S3C44B0X CPU 中，从 0x0c00,0000 到 0x1000,0000 之间的 64M 地址空间被用作系统的 RAM 地址空间。虽然 CPU 通常预留出一大段足够的地址空间给系统 RAM，但是在搭建具体的嵌入式系统时却不一定会实现 CPU 预留的全部 RAM 地址空间。也就是说，具体的嵌入式系统往往只把 CPU 预留的全部 RAM 地址空间中的一部分映射到 RAM 单元上，而让剩下的那部分预留 RAM 地址空间处于未使用状态。由于上述这个事实，因此 Boot Loader 的 stage2 必须在它想干点什么 (比如，将存储在 flash 上的内核映像读到 RAM 空间中) 之前检测整个系统的内存映射情况，也即它必须知道 CPU 预留的全部 RAM 地址空间中的哪些被真正映射到 RAM 地址单元，哪些是处于 "unused" 状态的。

(1) 内存映射的描述

可以用如下数据结构来描述 RAM 地址空间中的一段连续(continuous)的地址范围：

typedef struct memory_area_struct {
    u32 start; /* the base address of the memory region */
    u32 size; /* the byte number of the memory region */
    int used;
} memory_area_t;

这段 RAM 地址空间中的连续地址范围可以处于两种状态之一：(1)used=1，则说明这段连续的地址范围已被实现，也即真正地被映射到 RAM 单元上。(2)used=0，则说明这段连续的地址范围并未被系统所实现，而是处于未使用状态。

基于上述 memory_area_t 数据结构，整个 CPU 预留的 RAM 地址空间可以用一个 memory_area_t 类型的数组来表示，如下所示：

memory_area_t memory_map[NUM_MEM_AREAS] = {
    [0 ... (NUM_MEM_AREAS - 1)] = {
        .start = 0,
        .size = 0,
        .used = 0
    },
};

(2) 内存映射的检测

下面我们给出一个可用来检测整个 RAM 地址空间内存映射情况的简单而有效的算法：

/* 数组初始化 */
for(i = 0; i < NUM_MEM_AREAS; i++)
memory_map[i].used = 0;

/* first write a 0 to all memory locations */
for(addr = MEM_START; addr < MEM_END; addr += PAGE_SIZE)
* (u32 *)addr = 0;

for(i = 0, addr = MEM_START; addr < MEM_END; addr += PAGE_SIZE) {
     /*
      * 检测从基地址 MEM_START+i*PAGE_SIZE 开始,大小为
* PAGE_SIZE 的地址空间是否是有效的RAM地址空间。
      */
     调用3.1.2节中的算法test_mempage()；
     if ( current memory page isnot a valid ram page) {
        /* no RAM here */
        if(memory_map[i].used )
            i++;
        continue;
    }

    /*
     * 当前页已经是一个被映射到 RAM 的有效地址范围
     * 但是还要看看当前页是否只是 4GB 地址空间中某个地址页的别名？
     */
    if(* (u32 *)addr != 0) { /* alias? */
        /* 这个内存页是 4GB 地址空间中某个地址页的别名 */
        if ( memory_map[i].used )
            i++;
        continue;
    }

    /*
     * 当前页已经是一个被映射到 RAM 的有效地址范围
     * 而且它也不是 4GB 地址空间中某个地址页的别名。
     */
    if (memory_map[i].used == 0) {
        memory_map[i].start = addr;
        memory_map[i].size = PAGE_SIZE;
        memory_map[i].used = 1;
    } else {
        memory_map[i].size += PAGE_SIZE;
    }
} /* end of for (…) */

在用上述算法检测完系统的内存映射情况后，Boot Loader 也可以将内存映射的详细信息打印到串口。

3.2.3 加载内核映像和根文件系统映像

(1) 规划内存占用的布局

这里包括两个方面：(1)内核映像所占用的内存范围；（2）根文件系统所占用的内存范围。在规划内存占用的布局时，主要考虑基地址和映像的大小两个方面。

对于内核映像，一般将其拷贝到从(MEM_START＋0x8000) 这个基地址开始的大约1MB大小的内存范围内(嵌入式 Linux 的内核一般都不操过 1MB)。为什么要把从 MEM_START 到 MEM_START＋0x8000 这段 32KB 大小的内存空出来呢？这是因为 Linux 内核要在这段内存中放置一些全局数据结构，如：启动参数和内核页表等信息。

而对于根文件系统映像，则一般将其拷贝到 MEM_START+0x0010,0000 开始的地方。如果用 Ramdisk 作为根文件系统映像，则其解压后的大小一般是1MB。

（2）从 Flash 上拷贝

由于像 ARM 这样的嵌入式 CPU 通常都是在统一的内存地址空间中寻址 Flash 等固态存储设备的，因此从 Flash 上读取数据与从 RAM 单元中读取数据并没有什么不同。用一个简单的循环就可以完成从 Flash 设备上拷贝映像的工作：

while(count) {
*dest++ = *src++; /* they are all aligned with word boundary */
count -= 4; /* byte number */
};

3.2.4 设置内核的启动参数

应该说，在将内核映像和根文件系统映像拷贝到 RAM 空间中后，就可以准备启动 Linux 内核了。但是在调用内核之前，应该作一步准备工作，即：设置 Linux 内核的启动参数。

Linux 2.4.x 以后的内核都期望以标记列表(tagged list)的形式来传递启动参数。启动参数标记列表以标记 ATAG_CORE 开始，以标记 ATAG_NONE 结束。每个标记由标识被传递参数的 tag_header 结构以及随后的参数值数据结构来组成。数据结构 tag 和 tag_header 定义在 Linux 内核源码的include/asm/setup.h 头文件中：

/* The list ends with an ATAG_NONE node. */
#define ATAG_NONE 0x00000000

struct tag_header {
    u32 size; /* 注意，这里size是字数为单位的 */
    u32 tag;
};
……
struct tag {
    struct tag_header hdr;
    union {
        struct tag_core        core;
        struct tag_mem32    mem;
        struct tag_videotext    videotext;
        struct tag_ramdisk    ramdisk;
        struct tag_initrd    initrd;
        struct tag_serialnr    serialnr;
        struct tag_revision    revision;
        struct tag_videolfb    videolfb;
        struct tag_cmdline    cmdline;

        /*
         * Acorn specific
         */
        struct tag_acorn    acorn;

        /*
         * DC21285 specific
         */
        struct tag_memclk    memclk;
    } u;
};

在嵌入式 Linux 系统中，通常需要由 Boot Loader 设置的常见启动参数有：ATAG_CORE、ATAG_MEM、ATAG_CMDLINE、ATAG_RAMDISK、ATAG_INITRD等。

比如，设置 ATAG_CORE 的代码如下：

params = (struct tag *)BOOT_PARAMS;

params->hdr.tag = ATAG_CORE;
params->hdr.size = tag_size(tag_core);

    params->u.core.flags = 0;
    params->u.core.pagesize = 0;
    params->u.core.rootdev = 0;

params = tag_next(params);

其中，BOOT_PARAMS 表示内核启动参数在内存中的起始基地址，指针 params 是一个 struct tag 类型的指针。宏 tag_next() 将以指向当前标记的指针为参数，计算紧临当前标记的下一个标记的起始地址。注意，内核的根文件系统所在的设备ID就是在这里设置的。

下面是设置内存映射情况的示例代码：

for(i = 0; i < NUM_MEM_AREAS; i++) {
        if(memory_map[i].used) {
            params->hdr.tag = ATAG_MEM;
            params->hdr.size = tag_size(tag_mem32);

            params->u.mem.start = memory_map[i].start;
            params->u.mem.size = memory_map[i].size;

            params = tag_next(params);
        }
}

可以看出，在 memory_map［］数组中，每一个有效的内存段都对应一个 ATAG_MEM 参数标记。

Linux 内核在启动时可以以命令行参数的形式来接收信息，利用这一点我们可以向内核提供那些内核不能自己检测的硬件参数信息，或者重载(override)内核自己检测到的信息。比如，我们用这样一个命令行参数字符串"console=ttyS0,115200n8"来通知内核以 ttyS0 作为控制台，且串口采用 "115200bps、无奇偶校验、8位数据位"这样的设置。下面是一段设置调用内核命令行参数字符串的示例代码：

char *p;

    /* eat leading white space */
    for(p = commandline; *p == ' '; p++)
        ;

    /* skip non-existent command lines so the kernel will still
    * use its default command line.
     */
    if(*p == '/0')
        return;

params->hdr.tag = ATAG_CMDLINE;
params->hdr.size = (sizeof(struct tag_header) + strlen(p) + 1 + 4) >> 2;

strcpy(params->u.cmdline.cmdline, p);

params = tag_next(params);

请注意在上述代码中，设置 tag_header 的大小时，必须包括字符串的终止符'/0'，此外还要将字节数向上圆整4个字节，因为 tag_header 结构中的size 成员表示的是字数。

下面是设置 ATAG_INITRD 的示例代码，它告诉内核在 RAM 中的什么地方可以找到 initrd 映象(压缩格式)以及它的大小：

    params->hdr.tag = ATAG_INITRD2;
    params->hdr.size = tag_size(tag_initrd);

    params->u.initrd.start = RAMDISK_RAM_BASE;
    params->u.initrd.size = INITRD_LEN;

    params = tag_next(params);

下面是设置 ATAG_RAMDISK 的示例代码，它告诉内核解压后的 Ramdisk 有多大（单位是KB）：

params->hdr.tag = ATAG_RAMDISK;
params->hdr.size = tag_size(tag_ramdisk);

params->u.ramdisk.start = 0;
params->u.ramdisk.size = RAMDISK_SIZE; /* 请注意，单位是KB */
params->u.ramdisk.flags = 1; /* automatically load ramdisk */

params = tag_next(params);

最后，设置 ATAG_NONE 标记，结束整个启动参数列表：

static void setup_end_tag(void)
{
params->hdr.tag = ATAG_NONE;
params->hdr.size = 0;
}

3.2.5 调用内核

Boot Loader 调用 Linux 内核的方法是直接跳转到内核的第一条指令处，也即直接跳转到 MEM_START＋0x8000 地址处。在跳转时，下列条件要满足：

1． CPU 寄存器的设置：

R0＝0；

R1＝机器类型 ID；关于 Machine Type Number，可以参见 linux/arch/arm/tools/mach-types。

R2＝启动参数标记列表在 RAM 中起始基地址；

2． CPU 模式：

必须禁止中断（IRQs和FIQs）；

CPU 必须 SVC 模式；

3． Cache 和 MMU 的设置：

MMU 必须关闭；

指令 Cache 可以打开也可以关闭；

数据 Cache 必须关闭；
如果用 C 语言，可以像下列示例代码这样来调用内核：

void (*theKernel)(int zero, int arch, u32 params_addr) = (void (*)(int, int, u32))KERNEL_RAM_BASE;
……
theKernel(0, ARCH_NUMBER, (u32) kernel_params_start);

注意，theKernel()函数调用应该永远不返回的。如果这个调用返回，则说明出错。

4. 关于串口终端

在 boot loader 程序的设计与实现中，没有什么能够比从串口终端正确地收到打印信息能更令人激动了。此外，向串口终端打印信息也是一个非常重要而又有效的调试手段。但是，我们经常会碰到串口终端显示乱码或根本没有显示的问题。造成这个问题主要有两种原因：(1) boot loader 对串口的初始化设置不正确。(2) 运行在 host 端的终端仿真程序对串口的设置不正确，这包括：波特率、奇偶校验、数据位和停止位等方面的设置。

此外，有时也会碰到这样的问题，那就是：在 boot loader 的运行过程中我们可以正确地向串口终端输出信息，但当 boot loader 启动内核后却无法看到内核的启动输出信息。对这一问题的原因可以从以下几个方面来考虑：

(1) 首先请确认你的内核在编译时配置了对串口终端的支持，并配置了正确的串口驱动程序。

(2) 你的 boot loader 对串口的初始化设置可能会和内核对串口的初始化设置不一致。此外，对于诸如 s3c44b0x 这样的 CPU，CPU 时钟频率的设置也会影响串口，因此如果 boot loader 和内核对其 CPU 时钟频率的设置不一致，也会使串口终端无法正确显示信息。

(3) 最后，还要确认 boot loader 所用的内核基地址必须和内核映像在编译时所用的运行基地址一致，尤其是对于 uClinux 而言。假设你的内核映像在编译时用的基地址是 0xc0008000，但你的 boot loader 却将它加载到 0xc0010000 处去执行，那么内核映像当然不能正确地执行了。
移植U-BOOT[ 用U-BOOT构建嵌入式系统的引导装载程序 http://www.21ic.com/news/n12682c63.aspx]

1 U-BOOT简介

　　U-BOOT是由德国的工程师Wolfgang Denk从8XXROM代码发展而来的，它支持很多处理器，比如PowerPC、ARM、MIPS和x86。目前，U-BOOT源代码在sourceforge网站的社区服务器中，Internet上有一群自由开发人员对其进行维护和开发，它的项目主页是 http://sourceforge.net/projects/U-BOOT。U-BOOT的最新版本源代码可以在Sourceforge的CVS服务器中匿名获得。
#cvs -d:pserver:anonymous@cvs.sourceforge.net:/cvsroot/U-BOOT login
#cvs -z6 -d:pserver:anonymous@cvs.sourceforge.net:/cvsroot/U-BOOT / co -P modulename

1.1 U-BOOT源代码目录结构

◆ board：和一些已有开发板有关的文件，比如Makefile和u-boot.lds等都和具体开发板的硬件和地址分配有关。
◆ common：与体系结构无关的文件，实现各种命令的C文件。
◆ cpu：CPU相关文件，其中的子目录都是以U-BOOT所支持的CPU为名，比如有子目录arm926ejs、mips、mpc8260和nios等，每个特定的子目录中都包括cpu.c和interrupt.c，start.S。其中cpu.c初始化CPU、设置指令Cache和数据Cache等；interrupt.c设置系统的各种中断和异常，比如快速中断、开关中断、时钟中断、软件中断、预取中止和未定义指令等；start.S是U-BOOT启动时执行的第一个文件，它主要是设置系统堆栈和工作方式，为进入C程序奠定基础。
◆ disk：disk驱动的分区处理代码。
◆ doc：文档。
◆ drivers：通用设备驱动程序，比如各种网卡、支持CFI的Flash、串口和USB总线等。
◆fs:支持文件系统的文件，U-BOOT现在支持cramfs、fat、fdos、jffs2和registerfs。
◆ include：头文件，还有对各种硬件平台支持的汇编文件，系统的配置文件和对文件系统支持的文件。
◆ net：与网络有关的代码，BOOTP协议、TFTP协议、RARP协议和NFS文件系统的实现。
◆ lib_arm：与ARM体系结构相关的代码。
◆ tools：创建S-Record格式文件和U-BOOT images的工具。

1.2 U-BOOT的特点

　　U-BOOT支持SCC/FEC以太网、OOTP/TFTP引导、IP和MAC的预置功能，这一点和其它BootLoader(如BLOB和RedBoot等)类似。但U-BOOT还具有一些特有的功能。

◆ 在线读写Flash、DOC、IDE、IIC、EEROM、RTC，其它的BootLoader根本不支持IDE和DOC的在线读写。
◆ 支持串行口kermit和S-record下载代码，U-BOOT本身的工具可以把ELF32格式的可执行文件转换成为 S-record格式，直接从串口下载并执行。
◆ 识别二进制、ELF32、uImage格式的Image，对Linux引导有特别的支持。U-BOOT对Linux 内核进一步封装为uImage。封装如下：
#{CROSS_COMPILE}-objcopy -O binary -R.note -R.comment -S vmlinux / linux.bin
#gzip -9 linux.bin
#tools/mkimage -A arm -O linux -T kernel -C gzip -a 0xc0008000 -e/
0xc0008000 -n “Linux-2.4.20” -d linux.bin.gz /tftpboot/uImage
即在Linux内核镜像vmLinux前添加了一个特殊的头，这个头在include/image.h中定义，包括目标操作系统的种类(比如Linux，VxWorks等)、目标CPU的体系机构(比如ARM、PowerPC等)、映像文件压缩类型(比如gzip、bzip2等)、加载地址、入口地址、映像名称和映像的生成时间。当系统引导时，U-BOOT会对这个文件头进行CRC校验，如果正确，才会跳到内核执行。如下所示：
WT-ARM9# bootm 0xc1000000
## Checking Image at 0xc100000 ...
Image Name: Linux-2.4.20
Created: 2004-07-02 22:10:11 UTC
Image Type: ARM Linux Kernel Image (gzip compressed)
Data Size: 550196 Bytes = 537 kB = 0 MB
Load Address: 0xc0008000
Entry Point: 0xc0008000
Verifying Checksum ... OK
Uncompressing Kernel Image ……… OK
◆ 单任务软件运行环境。U-BOOT可以动态加载和运行独立的应用程序，这些独立的应用程序可以利用U-BOOT控制台的I/O函数、内存申请和中断服务等。这些应用程序还可以在没有操作系统的情况下运行，是测试硬件系统很好的工具。
◆ 监控(minitor)命令集：读写I/O，内存，寄存器、内存、外设测试功能等
◆ 脚本语言支持(类似BASH脚本)。利用U-BOOT中的autoscr命令，可以在U-BOOT中运行“脚本”。首先在文本文件中输入需要执行的命令，然后用tools/mkimage封装，然后下载到开发板上，用autoscr执行就可以了。
① 编辑如下的脚本example.script。
echo
echo Network Configuration:
echo ----------------------
echo Target:
printenv ipaddr hostname
echo
echo Server:
printenv serverip rootpath
echo
② 用tools/mkimage对脚本进行封装。
# mkimage -A ARM -O linux -T script -C none -a 0 -e 0 -n "autoscr example script" -d example.script /tftpboot/example.img
Image Name: autoscr example script
Created: Wes Sep 8 01:15:02 2004
Image Type: ARM Linux Script (uncompressed)
Data Size: 157 Bytes = 0.15 kB = 0.00 MB
Load Address: 0x00000000
Entry Point: 0x00000000
Contents:
Image 0: 149 Bytes = 0 kB = 0 MB
③ 在U-BOOT中加载并执行这个脚本。
WT-ARM9# tftp 100000 /tftpboot/example.img
ARP broadcast 1
TFTP from server 10.0.0.2; our IP address is 10.0.0.99
Filename ’/tftpboot/TQM860L/example.img’.
Load address: 0x100000
Loading: #
done
Bytes transferred = 221 (dd hex)
WT-ARM9# autoscr 100000
## Executing script at 00100000
Network Configuration:
----------------------
Target:
ipaddr=10.0.0.99
hostname=arm
Server:
serverip=10.0.0.2
rootpath=/nfsroot
WT-ARM9#
◆ 支持WatchDog、LCD logo和状态指示功能等。如果系统支持splash screen，U-BOOT启动时，会把这个图像显示到LCD上，给用户更友好的感觉。
◆ 支持MTD和文件系统。U-BOOT作为一种强大的BootLoader，它不仅支持MTD，而且可以在MTD基础上实现多种文件系统，比如cramfs、fat和jffs2等。
◆ 支持中断。由于传统的BootLoader都分为stage1和stage2，所以在stage2中添加中断处理服务十分困难，比如BLOB；而U-BOOT是把两个部分放到了一起，所以添加中断服务程序就很方便。
◆ 详细的开发文档。由于大多数BootLoader都是开源项目，所以文档都不是很充分。U-BOOT的维护人员意识到了这个问题，充分记录了开发文档，所以它的移植要比BLOB等缺少文档的BootLoader方便。

编译Linux2.6

事实上，编译Linux2.6相当容易，修改内核源码中Makefile的交叉编译选项ARCH=arm,CROSS_COMPILE=arm-linux-。针对硬件配置，make menuconfig，然后make就可以了。如果开发板与Linux2.6已经支持的开发板类似，可以把相应的开发板的defconfig拷贝出来覆盖.config，然后再配置。

配置串口

配置网卡

制作INITRD

制作JFFS2

BUSYBOX

uCLibC与GLibC

参考

Intel PXA255 Processor Developer's Manual.pdf
Linux 2.6内核的精彩世界 http://www-128.ibm.com/developerworks/cn/linux/kernel/l-kernel26/index.html
什么是JTAG与关于JTAG的一些说明 http://www.dz863.com/all-technology/Electronics-Glossary/JTAG.htm
马忠梅. ARM嵌入式处理器结构与应用基础
OPEN-JTAG开发小组 ARM JTAG 调试原理
H-JTAG http://twentyone.bokee.com/
公共闪存接口CFI在FlashMemory程序设计中的应用
http://www.intel.com/design/pca/applicationsprocessors/swsup/JFlashMM.htm
http://sourceforge.net/projects/u-boot
http://www.busybox.net/
http://www.kernel.org/
ftp://ftp.handhelds.org/projects/toolchain/
http://frodo.nt.fh-koeln.de/~tkrawuts/arm-uclibc-tools.tar.bz2
http://genext2fs.sourceforge.net/
ftp://sources.redhat.com/pub/jffs2/mkfs.jffs2
嵌入式系统 Boot Loader 技术内幕