ASR 授权问题

在未改变任务网络配置的情况下,服务器搬迁到中数办公室,网卡接口和@王**@张**再三确认,插入网线启动服务,发现 ASR 授权出现问题。

错误信息显示:the license does not match the device。但由于此时已到下午四点钟,中数下班,更多错误的信息无法获取到。

ASR授权错误

当时(12.11,周五)的网络配置信息,实际启动的网卡是 eno1:

网线插口,一开始是插入的错误的,经过确认之后插入到正确的接口:

然而,在周一(12.14)重启服务器之后,ASR 授权正常,第一时间我对网络做了查看,发现启动的网卡是 eno2。

经排查发现,两次的网卡启动不一致。我们的服务器网络做了 bond 虚拟处理,会根据实际启动的网卡做“漂移”。所以两次网卡信息不一致,deviceName 也就不一致,造成了 ASR 授权失败的情况。

但问题是 12.11日当时已经把网线插入到网口1 了,但是授权还是失败。那么问题就在 asr 获取网卡信息的时候,会不会当第一次获取的设备信息会缓存,就算后续的网卡已经设置为正确的,依然从缓存中拿取设备信息,造成授权的失败。

此处也给我们提供了一点经验,对外整机出售的服务,网卡信息不要再做 bond虚拟化处理了。

网络拓扑

中数不提供接入他们的办公网,让客户自己组建局域网。我对这一块以前也没涉及过,也没有任何经验。网博的技术在去中数的时候带了一个100M路由器,但我们的服务器接口时 1000M 的,调试之后,网博的服务器和路由器是互通的,但是我们的服务和路由器一直无法通信(一开始网博的人和我都是未知的,后来搞不定,咨询了亮亮,亮亮最后指出了这个隐藏的问题),在组建局域网的时候耗时很久。

最后,求助中数,提供了一台千兆交换机,解决了问题。

这张图是当时亮亮画的一张拓扑图,当时根据这个做过一次配置,不过配置的网博的机器,但是同一台机器上同一网段开两个网卡是无法通信的,需要加路由信息,网博的技术觉得太过于麻烦,最后用了中数提供的交换机。

image-20201215135314689

所以,如果要用上图,需要在公司的机器上做一下演练,配置响应的路由。可能在后续的其他项目也会遇到此类问题,没有交换机、没有路由器最贱局域网。

Aerospike 启动失败

周五(12.11)启动 asp,在 root 用户下正常启动,但是在周一(12.14)在中数办公室启动的时候,失败了,查看日志发现,里面的配置ip 错误。

错误日志如下(tail -f /usr/local/aerospike-server/logs/aerospike.log):

image-20201215140922810

最后的解决方式,修改配置文件:

Aerospike配置

问题:为什么在配置信息没有任何改动的情况下原来能启动,但是过了一个周末启不来了?首先我想到的是,启动用户的不同,asp 是否会在优先加载当前用户根目录下的配置,我从启动的信息中看到类似从./下面找 aerospike.conf 的信息,但由于条件限制,没能及时把信息保存下来。

Zk启动失败

当在办公室演示结束之后,搬入机房启动服务时,发现zk 死活起不来…~~o(>_<)o ~~

AS连接错误

查看了zookeeper 的配置文件,conf/zoo1.conf、conf/zoo2.conf, conf/zoo3.conf,发现里面写的是 127.0.0.1,按正常情况来说应该是没任何的问题,但就是起不来,服务器也重启过了。

最后根据网上的教程,设置为0.0.0.0,才正常启动。此外说明,截图错误信息中显示的 0.0.0.0:2181是已经改了 zoo1.conf 后的信息,原来是 127.0.0.1:2181。

遗留问题,为什么 127.0.0.1 突然起不来~~~

补充:2022-4-30 也遇到了类似的问题。和上面的不同,zk起不来,是启动用户没有权限引起的问题。

应用启动

在启动应用的时候,发现 sleipnir应用授权服务起不来,加载不到 so包,应该是环境变量没有设置。在当时给的应用部署文档中写着一段话,一定要设置的,但查看后没有找到相关的配置。

LD_LIBRARY_PATH

这个问题,定位很快,只需要看 java 应用日志就知道是什么原因了。

总结

很多问题出现的莫名其妙,但大部分问题与配置相关,要么是网络的问题,要么就是中间件的配置问题,在这一块,我们需要运维、网络、基建各部门的协助,但我们实施和开发也需要对这一块也要做进一步的深入了解和学习。