构建机房运维基础架构(五): 装机问题汇总(DELL)

1. 获取控制卡IP失败

控制卡没有通过DHCP获取到IP,需要检查网线和控制卡配置。

控制卡的正确配置参考此链接

 

2. NO DHCP OR proxyDHCP 

内网卡没法通过DHCP 获取到IP,请检查DHCP服务,一般的问题是:
1) 新机器内网段没在DHCP配置里面添加
2) 内网网线没插好
3) 交换机没配置DHCP relay

 

3. Media test failure

网线没插好,需要检查。

 

4. 拿不到网卡信息

/admin1-> racadm get NIC.NICConfig
ERROR: SWC0244 : Invalid Fully Qualified Device Descriptor (FQDD).

——————————————————————————-
Valid Options:

System.Power
System.Power.Supply
iDRAC.IMC
LifecycleController.LCAttributes
System.LCD
iDRAC.SNMP.Alert
System.Location

猜测和固件版本过低有关,待确认。

DELL的回复:

有异常的的这台7SK45W1是去年的机器,有可能是idrac固件版本较低的缘故。
BIOS.BiosBootSettings.BootSeq 这个参数在1.50.50版本上看到的。

1.之前的版本命令行格式可能不一样,您可以输入BIOS后按tab让其自动补全看看。

2.请web检查下idrac web界面能否正常登陆,如果无法正常登陆,请重启idrac后再尝试。
有两种方式可以让idrac重启重新初始化:
(a.长按前面板i键20秒,idrac会重启初始化  b.关机后拔掉电源线,长按电源开关按键15秒,后再插上电源线开机)

3.您也可以更新至新版idrac固件后再尝试,版本如果差太多的话,请先刷新至1.40.40后在更新至1.56.55
http://ftp.dell.com/FOLDER02069189M/1/ESM_Firmware_V554G_WN32_1.56.55_A00.EXE
http://ftp.dell.com/FOLDER01526113M/1/ESM_Firmware_F5F8N_WN32_1.40.40_A00.EXE

(登陆到idrac web页面下的更新与回滚,直接上传更新)

 

5. 设置不了启动顺序

第一种报错:
/admin1-> racadm set BIOS.BiosBootSettings.BootSeq HardDisk.List.1-1,NIC.Integrated.1-2-1

ERROR: BOOT018: Specified boot control list is read-only.
Verify the dependencies of the objects under the specified group using
“racadm help <device class>.<groupname>”, and retry the operation.

可能是硬盘没做RAID,尝试重做RAID 。

– – – – – – – – – – – – – – – – – – – – – – – –

第二种报错:
/admin1-> racadm set BIOS.BiosBootSettings.BootSeq HardDisk.List.1-1,NIC.Integrated.1-2-1

ERROR: BOOT016: Input source argument value for the boot device is incorrect or
     not found among the boot devices on the system.

这种报错,登陆到BIOS里面的启动设置选项,发现启动顺利里面没有第二块网卡,只有第一块。

这个问题的原因:

原来第一块网卡设置成了PXE,第二块网卡被设置成了 NONE,这TMD 也有影响 ,狗日的DELL 初始化居然没做 ! ! !

update at  Wed May 14 18:57:49 CST 2014 :

关于这个问题,我今天又遇到一个原因,就是  硬盘都是裸盘,没做RAID ,所以就废掉了。

– – – – – – – – – – – – – – – – – – – – – – – –

第三种报错:
/admin1-> racadm set BIOS.BiosBootSettings.BootSeq HardDisk.List.1-1,NIC.Integrated.1-2-1
[Key=BIOS.Setup.1-1#BiosBootSettings]
RAC1017: Successfully modified the object value and the change is in
pending state.
To apply modified value, create a configuration job and reboot
the system. To create the commit and reboot jobs, use “jobqueue”
command. For more information about the “jobqueue” command, see RACADM
help.
/admin1->
/admin1-> racadm jobqueue delete –all
/admin1-> racadm jobqueue create BIOS.Setup.1-1 -r pwrcycle -s TIME_NOW
ERROR: SUP002: Job creation failure. Retry the action. If this fails, reboot the iDRAC.

重启方法:
/admin1-> racadm racreset
RAC reset operation initiated successfully. It may take a few
minutes for the RAC to come online again.

另外,想重设idrac 配置,用 racadm racresetcfg

 

6. 设置网卡支持PXE启动报错

第一种报错:

/admin1-> racadm set NIC.NICConfig.2.LegacyBootProto PXE
[Key=NIC.Slot.1-2-1#NICConfig]
RAC1017: Successfully modified the object value and the change is in
pending state.
To apply modified value, create a configuration job and reboot
the system. To create the commit and reboot jobs, use “jobqueue”
command. For more information about the “jobqueue” command, see RACADM
help.
/admin1-> racadm jobqueue create NIC.Embedded.2-1-1 -r pwrcycle -s TIME_NOW
ERROR: RAC944: Unable to create the configuration job. Run “racadm set LifecycleController.LCAttributes.LifecycleControllerState 1” to enable Lifecycle Controller, and retry the operation.

根据提示,执行一下 蓝色的命令就好了。

/admin1-> racadm set LifecycleController.LCAttributes.LifecycleControllerState 1
Object value modified successfully

/admin1-> racadm jobqueue create NIC.Embedded.2-1-1 -r pwrcycle -s TIME_NOW
RAC1024: Successfully scheduled a job.
Verify the job status using “racadm jobqueue view -i JID_xxxxx” command.
Commit JID = JID_057986530557
Reboot JID = RID_057986531087

第二种报错:
/admin1-> racadm set NIC.NICConfig.2.LegacyBootProto PXE
[Key=NIC.Slot.1-2-1#NICConfig]
RAC1017: Successfully modified the object value and the change is in
pending state.
To apply modified value, create a configuration job and reboot
the system. To create the commit and reboot jobs, use “jobqueue”
command. For more information about the “jobqueue” command, see RACADM
help.
/admin1-> racadm jobqueue create NIC.Embedded.2-1-1 -r pwrcycle -s TIME_NOW
ERROR: SWC0244 : Invalid Fully Qualified Device Descriptor (FQDD).

这个错误我也不知道原因,但是手动重启之后机器会自己初始化,自己就好了。

 

7. 重启失败

/admin1-> racadm serveraction powercycle
ERROR: Timeout while waiting for server to perform requested power action.

查看页面,发现机器没法启动,重启了idrac卡就好了。

/admin1-> racadm racreset
RAC reset operation initiated successfully. It may take a few
minutes for the RAC to come online again.

/admin1-> racadm serveraction powercycle
Server power operation successful

注:如果查看电源状态,使用 racadm serveraction powerstatus

 

8. 连接ILO IP 报 No more sessions are available for this type of connection!

比如,

$ ssh root@10.2.8.195
root@10.2.8.195’s password:

No more sessions are available for this type of connection!

Connection to 10.2.8.195 closed.

用浏览器访问也会报这个错。

可以用ipmitool 命令把 控制卡冷重启了。
# ipmitool -I lanplus -H IP -U 用户名 -P 密码 mc reset cold 

DELL 机器上,要启用 LAN 上 IPMI,否则会报 Error: Unable to establish IPMI v2 / RMCP+ session 。

111110d2924e5f5261407fda7d6477cb2e302

(如果是本机,可以用 ipmitool mc reset cold,经实际测试,此命令不会重启操作系统,只是重启控制卡)

这个链接数超限的问题 可以通过升级 idrac 卡的 firmware 来解决。
1.57.57 版本的 firmware 下载地址

该版本的 bug fix 中提到过一点:
– Fix for issues that cause iDRAC7 sluggish responsiveness after a prolonged period of time (approx. 45-100 days, depending on the usage). In some cases, if the iDRAC is not reset, the iDRAC may become unresponsive and requires a server AC Power on reset. This issue was introduced in firmware release 1.50.50 and fixed in 1.56.55.

 

装机系统原理在这

 

构建机房运维基础架构(四): 机器装机初始配置(DELL)

我们的服务器基本是DELL的,所以下面的配置是针对DELL 最新的R420 R720等服务器的,机器在经过下面的配置之后运到机房,插线之后即可通过SN解析到控制卡IP。

其他机器型号(HP,HUAWEI等)的配置找其他资料哈。

 

1.  把第一块网卡设置成 none,第二块网卡设置成 PXE 启动模式(出厂默认第一块网卡是PXE模式,我们自己用第二块网卡装机,所以给第一块关掉。)

如下:

CTRL + S 进入配置

cc9fb7c0985a670ee56e917d11b8cad4

 

2. 关于远程控制卡,需要设置为 Dedicated 模式,开启 DHCP,并使用DHCP获取到的DNS (因为我们的远程控制卡IP是自动获取的,用来装机,这点很重要)

222

8388bd6b0ea330eaa5349e772bb54080

76c9349f8bd80b57dc6521d6066192bd

 

3. Boot Mode 和 Boot Seq 设置  (720 720xd等 默认是UEFI,把它改成 BIOS;启动顺序 为 Hard drive C:,第二块网卡,第一块网卡。 )

3dacb5207bfe3be34b84b8dda1b02dbc

4fff19561d207d2b03ab04bf8071847f

 

 

 

这里只列出了自动装机需要的配置,其他的配置比如电源设置、风扇设置等没写,可以参考:

https://www.evernote.com/shard/s240/sh/292d15ba-404d-4d54-912e-ff5fa325713d/c67904c014276b864364104b48017612

 

 

 

构建机房运维基础架构(三): 自动装机流程

流程

1. 根据 SN 去 DDNS 请求 ILO IP

2. 设置第二块网卡支持PXE启动 (通过 ssh root@$iloip 设置)。

3. 设置启动顺序,硬盘启动第一优先级,第二块网卡第二优先级。

4. 设置机器从PXE启动一次。

5. 重启

6. 拷贝对应的tftp 配置文件(根据mac地址命名文件名)

7. 机器从第二块网卡启动PXE,通过DHCP获取到IP,DHCP告诉机器 tftp服务器的IP

8. 机器连接tftp服务器,获取内核文件,加载内核,并获取到 tftp配置文件,并根据配置文件去请求 ks 文件。

9. 拿到ks文件,执行装机流程,包括 语言、时区、硬盘格式化、防火墙 等等。

10. 执行到post阶段,开始执行自己的自定义脚本。

11. 我们的装机类型有三种:
1) raw_clean (纯净物理机)
2) kvm_host  (宿主机)
3) kvm_guest (虚拟机)

我们的自定义脚本是post_install.sh ,会自动装好三种 类型的机器;脚本做的最重要的事情有:
1) 通用初始化
2) 获取主机名和IP,并配置到系统
3) 准备好增加本机主机名到DNS的脚本到机器上。
4) 准备puppet执行环境

这个脚本也是最可能需要动的了。

12. post 阶段 之后 是 重启,重启之后DNS脚本自动执行,把自己的主机名增加DNS,然后Puppet 开始执行初始化环境 ( Puppet会自动把资产和监控的客户端安装好,资产的客户端会把机器信息上传到资产系统 )。

 

注意的问题

1. 物理装机我们用DHCP指定的 DNS —

    option domain-name-servers 10.0.12.234;
    option domain-name “nosa.me;

虚拟机装机的时候在virt-install 命令里 要手动指定一个 dns server —

   -x “ip=xxx netmask=xxx gateway=xxx dns=xxx “ 

这样会解析所有的全域名,但是遇到 前缀域名就完蛋了,因为 kickstart 不支持search nosa.me 之类的语法;这个问题导致了我的Puppet 不能工作,初始化失败。

所以可以在post阶段 执行下面这个命令:
  echo “search nosa.me” >>/etc/resolv.conf

此乃大坑。