0

    又谎报“军情”?到底是802.1x问题还是IP冲突?(一)

    2023.04.11 | admin | 287次围观

    前言

    有时候,网络遇到问题的时候,非专业的用户会直接向运维单位申报故障。但是大部分非专业的用户不太明白网络工程师处理故障的思路,有时候为了体现故障的严重性,用故意说大故障范围来试图引起工程师的重视。但实际上呢,本来是部分几个主机网络不正常,被说成了是所有主机的网络都不正常,这肯定会干扰网络工程师对故障的定位和评估,从而影响解决进度……

    本案例就说了这个故事:一个重要的部门还用着两台老旧的Cisco 3750作为接入层交换机,在802.1x问题解决以后,第二天该部门又出问题了,而且还搞得火急火燎的。本来就是一个IP冲突的小问题,结果还喊工程师去又重启设备又更换设备的……

    本章核心知识点:

    1、802.1x功能和工作方式

    2、交换机与AAA服务器联动配置;

    3、IP冲突的现象和排查思路

    01

    令人刨烦的运维

    1.1 谁让接的这个项目?

    这一段时间以来,陈志一直在和吴雄飞闹肚子官司。

    因为贵阳有一家国企的运维项目,当时邀请嘉铭科技去竞标。吴雄飞早就知道这家单位纯属“事多、钱少、态度鸟”,不仅是子弟公子哥充斥其中,而且这里的设备,连总公司的核心交换机都是2006年就投运的Cisco 6509,到现在设备十几年了都没换过。虽然吴雄飞不想去投标,但是架不住在贵阳九组的余大鹏他们要去投啊,毕竟九组是个运维性质的部门,如果不投这个标,九组可就完成不了业绩了。

    最后呢,这该死的运维项目让嘉铭科技成功中标电脑老是显示ip冲突,但余大鹏不知道在吴雄飞那里使了什么,还是说他余大鹏悄悄跑去给紫竹和雪儿一人送了一堆高档面膜,搞得吴雄飞不得不同意把陈志借调给九组去带领他们做这个运维项目了。这个地方的客户叫马索罗,态度确实很鸟,还动不动就喊人出现场,有一些分公司的网络故障排除操作,本来可以远程解决的,但是就算解决了都还要跑到现场去签了报告才算数。而且,跑到现场去签报告,分公司的人还各种刁难。

    有一次就是因为在贵阳小河区的分公司说网络出了问题,马索罗非要喊陈志开车去处理。于是呢,陈志只能开车从金阳跑到小河,几十公里路还有点堵就不说了,就是到了小河分公司,那边的负责人白建还说:“找我是要预约了,没预约不让见!”于是,保安就把陈志拦在了门口,说啥也不准进。

    陈志再打电话,那白建就真的不接电话了,那怎么办呢?陈志掏出随身携带的IPAD,拨了V.PN连到总部的内网,直接把小河分公司的网络出口给关掉了,这下,小河全部断网了……最后,白建只能是屁颠屁颠地,恭恭敬敬地迎接陈志……

    不过呢,后来乌当分公司那边的破事,可真是让陈志又发了一堆脾气。

    那天是马索罗的老婆块生产了,马索罗请了陪产假了。本来这天都到了中午了,马索罗突然打电话给陈志,态度还很不好地说:“你去一下乌当分公司,那边6楼财务部说断网了,待会我把那边财务部负责人的电话给你,你去和他对接!顺便,带一个交换机去换了!”

    本来,陈志还想问一问到底是什么故障呢,马索罗在那边居然发了脾气,他吼道:“陈志,你赶紧去,这件事情我们大领导都在监督这件事情,你要不去……”

    陈志一听马索罗这鸟样,没等他说完话就挂了电话了。要说,乌当分公司这边6楼财务部的交换机,那是不是真的太老了,真要换了啊?

    1.2 802.1x的问题

    就在这件事情的两天以前,还是乌当分公司那边的6楼财务部接入层交换机,就出过一次故障。当时这个任务是九组的小兄弟小陶接的活,当时他家正好就在乌当区那边,所以他就顺道跑去乌当分公司看了,发现的现象是:这个交换机上,大部分插着网线的接口,橙色指示灯都在急促地闪烁,但是也有几个接口是正常的闪烁方式。小陶跑到办公室去一问,有人给他说:“我们这里只有少数几台电脑是好的,大部分都上不了网。”

    橙色指示灯在急促闪烁,看起来很有可能是广播风暴吧?但实际上这个办公室下面没有人私接Hub,所以环路不太可能存在。而且,在这个交换机上出了广播风暴,还会有少部分的电脑上网正常吗?所以,当小陶把这个现象传回给陈志的时候,陈志一听就把广播风暴的可能性给否了。

    当陈志登上这台Cisco 3750的时候,觉得操作起来很流畅,而且CPU和内存的占用率都没超过60%呢,这更不可能是广播风暴的问题了,但那是什么问题呢?陈志先查看了一下这台Cisco 3750的配置,发现这台Cisco 3750,大部分接口上都有802.1x认证的配置:

    interface FastEthernet0/2

    switchport mode access

    dot1x pae authenticator

    dot1x port-control auto

    dot1x violation-mode protect

    interface FastEthernet0/3

    switchport mode access

    dot1x pae authenticator

    dot1x port-control auto

    dot1x violation-mode protect

    ……

    既然有802.1x认证的配置,那么那些上不了网的设备,肯定就是通过不了802.1x咯。为什么通过不了呢?可能是这台交换机与AAA服务器的通信出了故障吧,那下面要找的,就是在这台Cisco 3750里面,找它与AAA联动的相关配置。但是陈志把show run都翻了好几遍,都没找到这台Cisco 3750与AAA联动的配置。无奈之下,为了抢通网络,把小陶从乌当那边“解救”回来,他只能是先把这台交换机下所有接口的802.1x认证配置全删了。

    按道理来说,陈志这边为了救急,私自变更了分公司接入层交换机配置,他肯定要去找马索罗报备的,顺便问一问省公司这边AAA服务器的地址是多少,他也好把Cisco 3750与AAA的配置写回去。但是呢,马索罗也只是 一句:“AAA服务器?早就没用了,麻烦!”

    “那没用了,之前乌当那边财务部是怎么通的网呢?”这下子陈志诧异了。

    而陈志删掉802.1x的配置以后,他也记不得有没有保存了。直到两天以后,乌当那边财务部的彭仁贵给马索罗打电话,口气特别炸裂:“我们这边网全都断了,你们的人呢?前几天才断了一次今天又断,搞的啥狗屁东西?!”

    当时马索罗正在陪媳妇待产呢,听到彭仁贵这口气火爆,他脾气也上来了,只能往陈志身上撒了。而陈志那边莫名其妙地被马索罗骂了一顿,也只能憋一肚子气先去现场看看怎么回事了。

    02

    查了一中午才发现是IP冲突

    2.1 奇怪的现象

    陈志赶到乌当分公司的时候,是中午1点多,财务部办公室里很多人都休息了。彭仁贵倒是一直等着陈志过来,他说道:“你来我电脑这里看看,根本就啥网都上不去了!”

    陈志问道,是不是你们整个办公室都上不了呢?

    彭仁贵倒是没接他这个话茬,他说道:“那边开着的三个电脑,都不行,你也可以去看看。”

    “那好!我先看看你的!”于是,陈志记录了彭仁贵电脑的IP地址,是10.110.116.98/24,MAC地址是E8-6A-64-C5-6C-73,然后拿着电脑和Console线,钻6楼电井里面去了。

    他首先看了一下这台Cisco 3750,上面满是灰尘,他戴了口罩,拿了刷子,先清除掉了Cisco 3750上的灰尘,然后从Console线去登录。

    乌当分公司6楼接入交换机-Cisco 3750

    查看到的信息:

    1、CPU利用率

    72小时内,最大利用率50%多一点,平均也才10%

    2、与网关之间的连通性:

    ping 100个包给上联设备,全部正常,延迟还很小

    3、再看与上联设备的接口CRC,也是为0,正常的

    4、再看MAC地址表,用户这台PC的MAC也被记录在里面

    虽然说这台Cisco 3750有点老了,但是当前看起来运转状态还是正常的,和上联的通信也是完好的,那怎么就会造成一个楼层的办公室全部断网了呢?

    两天以前刚刚删掉了802.1x的认证,且MAC地址都已经学习进来了,二层是通的,三层往骨干网也是通的。

    陈志反反复复检查了好几遍,都没发现这台交换机有任何故障,而访问上联也是正常的。于是,他再次返回办公室。正好,除了彭仁贵的电脑以外,其他还有几台电脑是开着的,也是登录着的,于是,陈志正好想起去测试一下。

    正好,测试到第一台电脑的时候,这台电脑的上网就是正常的。

    “我去!我怎么不早点在这台电脑上来测试一下啊?!”陈志摸了一把额头。很显然,彭仁贵这次是谎报“军情”了,因为他的办公室里面那几台开着并登录着的电脑,访问网络都是正常的!这很有可能是IP地址冲突。

    为什么就能判断是IP冲突而不是其他的原因呢,其实这是IP冲突表现出来的一个现象,也就是在同一个网段内,部分PC网络业务正常而部分PC业务中断。

    问:IP冲突在计算机上一般都会有下图这样的提示吗?

    答:这可不一定,有时候就不会报这个提示。

    虽然说在乌当分公司财务部办公室,有部分的PC网络业务正常,有部分PC业务中断,这个可以初步判断为IP冲突。那如何进行进一步的排查呢?

    在没有条件登上网关设备的情形下,陈志只能找了一台网络业务正常的主机,去ping 10.110.116.98,然后不管通不通都在主机上,先用arp –d清空一下本机的ARP缓存表,再使用arp –a去查看ARP信息。如果能ping通,且查看到10.110.116.98对应的MAC地址不是E8-6A-64-C5-6C-73,这就肯定是IP冲突了。如果ping不通10.110.116.98,或者ping通了,ARP信息里记录的MAC地址就是E8-6A-64-C5-6C-73,这还比较麻烦了。不过呢,有一种笨办法,就是让彭仁贵在他的电脑上,换IP地址。因为这个10.110.116.0/24里面地址段很大,所以从10.110.116.200—10.110.116.250这些地址里面,一个一个地配上去尝试,哪个地址通了就换哪个地址。

    不过彭仁贵不太乐意这个处理方式,他说:“我的电脑早上还好好的,是人家把我的地址搞冲突了,你去把那个电脑抓出来让他换啊!”

    “放屁!”陈志也是一肚子火气,这下撒了出来,他骂道:“你是想赶紧解决问题还是想找麻烦?IP冲突处理的原则就是‘谁不通了谁换地址’,而且你之前谎报军情,说是整个办公室都断线了,这个会影响我们的判断和工作准备!你以为你故意把问题说那么严重我们就能马上来现场吗?太不懂我们做网络的人了。”

    03

    IP地址冲突的排查和处理原则

    3.1 造成IP冲突的原因

    IP冲突有同网段的冲突和不同网段的冲突,而我们这个案例里面说的IP冲突,就是同网段的IP冲突。简单的说就是在局域网内的同一个网段里面两个主机的IP地址配置成了相同的,造成一台主机通而另外一台主机不通了。

    造成IP地址冲突的原因有两点:

    如果是DHCP造成的问题,这个可以在DS-01和DS-02上的DHCP地址池设置成“互斥”的情形。让DS-01分配的IP地址为10.110.116.1—128,让DS-02分配的IP地址为10.110.116.129-250。或者DS-01分配的IP地址为10.110.116.1—190,让DS-02分配的IP地址为10.110.116.191-250。但如果是用户的问题呢,这个就真的是防不胜防了,能确认是IP地址冲突的话,就遵守一个原则:“谁报的故障就喊谁改IP,不要去计较谁把他的地址冲突了。”

    2.2 IP冲突的定位和解决办法

    IP冲突可以通过查看MAC地址表进行查找,首先需要用户提供自身电脑的IP地址和MAC地址,一条ipconfig /all命令就能查出来:

    在这里可以看到,故障PC的IP地址是10.112.100.106,MAC地址是28-3A-4D-65-76-45。如果报告IP地址冲突的办公室不方便过去,就可以登录到网关设备上,查询ARP表:

    此时,在网关设备上查看ARP表,发现10.116.100.106这个IP地址对应的MAC地址和故障电脑的MAC地址不符,于是可以断定就是IP冲突。

    那如果查到的ARP信息,IP和MAC地址对应上了呢?也就是10.112.100.106和MAC地址28-3A-4D-65-76-45正好是对上的呢?那此时10.112.100.106应该就是正常的,那台造成冲突的主机可能关机下线了。如果两台主机都上线的话,就多查几次ARP,因为IP冲突的一个现象就是,10.112.100.106这个IP地址对应的MAC地址总是在变。

    如果查出来10.112.100.106这台主机确实有IP地址冲突,那也是遵循“谁报故障谁改IP”这个原则进行处理。在ARP表里面,查看这个VLAN里面,有哪些地址没在ARP表里显示就大致可以判断是这些地址没使用,让对方用户配置上这个地址就可以了。

    虽然说可以通过查看MAC地址表去查造成冲突的主机到底连接在哪个接入交换机的接口上电脑老是显示ip冲突,但是这也无法确定造成冲突的主机的“地理位置”,所以就有IP地址冲突是“谁报故障谁改IP”的处理原则。

    未完待续!!!

    2021

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论