Ami elromolhat, el is romlik, avagy miért viselkedik úgy a P2V konvertált Exchange 2007 HUB/CAS szerver, mint egy rakoncátlan kisgyerek?
1. felvonás, avagy amikor még minden frankón működik.
Adva van 2 szerverke (HP DL360G5), rajtuk a kiváló Microsoft® gyártmányú 2003 szerver, megfejelve egy-egy Exchange 2007 Hub/Cas szerepkörrel. A szerverek között a terhelés (úgy tűnik) remekül megoszlik a csodálatosz (omlósz) MS NLB-vel. Semmi különös. Mezei unicast cluster, multiple host, single affinity, 0-65535 port tartománnyal. Vagy 2 évig probléma nélkül működik.
2. felvonás, az izgága rendszerépítő esete a Hyper-v szerverrel.
Egy új projekt kapcsán kellett valahonnan szerválni egy szervert, amire fel lehet túrni az ingyenes crackberry szervert. Persze vas az nincs, a VMWare szerver meg már így is túlterhelt. Viszont van 3 gép (edge, meg a hub1+hub2 testvérek) amiknek az össz terhelése kb 2% csúcsidőben. Nosza csináljunk a hub2-ből hyperv szervert. P2V konvertálás, storage config, kis kábelezés, Hyper-v r2 telepít (ez a hyperv r2 telepítése sanos, multipathos környezetre is megérne egy szösszenetet), konvertált gép bepakolása az új gépre, boot.
3. felvonás, hátennek meg mibajavan?
Természetesen a boot után az NLB úgy elhasalt, ahogyan az a nagykönyvben meg van írva. Érthető okokból, mivel eltűntek alóla a hálókártyák. No hátakkor a kártyák szépen átnevezve, NLB cluster törölve, újra létrehozva. Nem megy… Reboot… Nem megy.
EventID 4198 – IP conflict. Hülye ez? Persze, hogy a 2 gép 1-1 hálókártyájának ugyan az a címe. Eh…
EventID 2, 6, 12, 53 – NLB hibák. Az 53-as NLB hiba beszédes, a többi csak windózos nyavajgás.NLB Cluster : The adapter to which NLB is bound does not support dynamically changing the MAC address. NLB will not bind to this adapter.
Hajjajj. De szerencsére nincs nagy baj. Gyors VMM túrás, és megvan a megoldás.
Az ethernet mac-et inkább átállítottam fix-re (mind2 hálókártyán), a spoofing meg szintén mind2 kártyán beállítva, biztos ami tuti. Valószínűleg elég lenne a cluster kártyának a mac spoofing.
Ha már a beállítások piszkálásása van folyamatban, akkor a Host access pipa is a hyper-v szerver beállításainál törlésre került, mivel 2 hálókártya van a gépben, az egyik dedikálva csak a Hyper-v szerver menedzselésre.
Reboot… NLB converged… ööm! bódottág.
Kis kitérő: A mac spoofingot csak az R2-es Hyper-V –ben lehet megtalálni. Az előző verziókban ez az opció tudtommal teljesen hiányzik.
4. felvonás, hátennek meg mibajavan? már megint…
Az első gyanús jel már az NLB megjavításakor jelentkezett, mégpedig az NLB manager a konvertált hub2 gépről indítva nem látta az hub1 gépet… hub1-ről mindenki látszott. Mivel minden más működni látszott, ez a probléma ment a „non blocking issue, majd egyszer valamikor megnézzük” tasklistbe.
Pár nap után aztán elkezdett az egész félig nem működni. Éppencsak pont annyira makacsolta meg magát, hogy ne legyen feltűnő. A szerver ment, az NLB cluster converged állapotban, leveleket fogadott, csak éppen a konvertált gépről kimenő forgalom nagy százaléka valahova eltűnt. Valamint nem mindig lehetett rdp-vel belépni a gépre. Persze az Exchange MBX szervereknek sem adta tovább a rajta keresztül beeső leveleket, csak amikor kedve volt (ritka alkalom), vagy csak a reboot utáni pár percben. Aztán az eventlogra ránézve a hibahegyek.
EventID 40960 LSASERV – No logon servers available. Áhá! Szóval ezért nem tudok belépni.
EventID 24,29 – Time szerver hibák, nem éri el vagy hibás adatot kap. Milyen hibás adat? A moszkvai időt kapja vagy mi?
EventID 8021, 8032 – Browser. Master browsert nem éri el. Ott van az pedig. A másik kb. 30 barátod a rackrényben látja. Hűlyegép.
EventID 2105, 2116 – ADAccess. Változatosabbnál változatosabb szemetgyönyörködtető AD, topológia, dns hibák tömkelege.
Az nslookup a gépről hol ment, hol nem. Inkább hol nem. A ping mindig jó. A céges intranet a böngésző szerint 1 connection error nevű lapból áll (letisztult grafika, bullshit mentes szövegezés, csak gyanús lett, hogy másik gépről nem egészen ez jön be). Ugyanakkor az azonos subneten ülő wiki meg böngészhető (a szerver valószínűleg titokban az itt lévő golden quoccot olvassa, levéltovábbítás helyett). „Ki érti ezt én nem.”
Szóval a szerver egy rossz kisgyerek mintájára a homokozó közepén durcásan dobálja a kislapátot, meg szórja a homokot, miközben senkivel sem áll szóba, és különbenis csokit neki ideazonnal.
5. felvonás, debug
Egyértelmű hálózati hiba lesz, úgyhogy egy gyors show arp, és show mac-address-table ellövése a 4506-oson… nincs hiba. (Konvertált gépnél jártam már úgy, hogy kicsit összekavarodtak a dolgok az arp cache táblában.) Kábel szemrevételezése… nincs hiba. Hyper-V szerver, és guest beállítások végigbogarászása… minden jónak tűnik. Az 1 kártyás multicast NLB-ről találtam érdekes dolgokat, de itt 2 hálókártya és unicast van, szóval nemnyert.
Windows server 2008-hoz találtam egy érdekes írást. Van itt a hotfixtől kezdve minden, viszont 1 dolgot kipróbáltam innen (hátha). A hyper-v guest 2. hálókártyájának (ami a cluster nic) megadtam ugyan azt a mac address-t amit az NLB cluster manager kiír (jobklikk a clusteren, cluster properties, network address). Nemnyert. Továbbra is ugyan olyan fura módon (nem)működött mint eddig.
TechNet NLB problémalövöldözős oldal végigbogarászása, komplett NLB leírás végigbogarászása, Netbios over tcpip kapcsolgatása, dns beírása kézzel a cluster hálókártyán… nincs eredmény.
Feltűnt egyébként, hogy a cluster nicnek nincsen minden adata kitöltve. Nincs ugye dns 1-2, default gw, meg ezek… mondjuk minek is lenne. IP címe meg netmaskja van aztán kalap kabát. Gyors route print kimenet összehasonlítás a hub1 géppel. Jó minden. De mégis mintha a másik kártyán szeretne kummunikálni?
6. felvonás, végjáték
A fenti nagyon ködös sejtés miatt kezdtem el bogarászni, a multihomed, dualnic, dual gateway vonalon, és itt sikerült belebotlani az első használhatónak tekinthető tippbe. Mégpedig, hogy több adapternél létezik egy, connection order (vagyvalami hasonló) nevezetű beállítás. El van dugva a Network connections ablakban, az advanced menü, advanced settings menüpont alá.
WTF? Nic2 az első? Az a cluster adapter. Kitetteoda? Gyors ellenőrzés, hogy a Hub1-en miaharcihelyzet ez ügyben… persze ott a Nic1 vezeti a sort. Sorrendcsere, reboot. Nagylevegő, fekete csirke nyak életlen ikeás késsel nyiszálás, balkézzel jobfület megfogás, mindeközben jobblábon ugrálás… éééééés. Úgytűnik eltűntek a hibák. Gyors tesztek: ping megy, intranet megy, NLB manager a Hub2-ről is látja az egész clustert végre. AD topology ok, dns ok, levelek jönnek mennek, ősz hajszálak visszabarnulnak.
Mitől cserélődőtt meg vajon? Hiszen a Nic1 az valóban az első hálókártya. Nincs elnézve az elnevezés. Mind1 lényeg, hogy végre rendesen működik ez a vacak.