375просмотров
21 февраля 2026 г.
stats📷 ФотоScore: 413
17 февраля развалился наш kuber кластер, который смог прожить 1102 дня! Он уже давно требовал обновления - старая версия Rancher(2.7.10) и старый kuber (кластер обновлять довольно сложно). От UI создания в Rancher я отошел довольно давно, а с текущим ИИ все стало еще проще, поэтому почти все было готово к довольно быстрой миграции. По факту 4 часа я пытался реанимировать старый кластер, а потом еще 6 часов - до 6 утра поднимал все системы. Сложнее всего было, когда я нечайно поднял второй мастер - потратил 40 минут на исследования как восстановить, но в итоге пересоздал кластер с нуля. Добавить 32 сервера в кластер, пересоздав их тоже не быстро - хотя можно было и автоматизировать эту часть - но руками было стабильнее. Так же только ИИ помог разобраться с закрытым 443 портом - что сильно тормознуло доступность АПИ для клиентов. Все восстановили, обновили часть внутренней документации по архитектуре и конфигурации. P.S. а все началось с недостатка места на одном из серверов - теперь там дополнительные 8 ТБ.