Когато повечето хора чуят „изкуствен интелект“, те си представят невронни мрежи, сложни алгоритми или може би онези леко странни хуманоидни роботи. Това, което рядко се споменава директно, е следното: изкуственият интелект изразходва памет почти толкова лакомо, колкото и изчислява . И не просто някакво хранилище за обекти стои тихо на заден план, вършейки неочакваната, но абсолютно необходима работа по захранването на моделите с необходимите им данни.
Нека разгледаме какво прави съхранението на обекти толкова важно за изкуствения интелект, как се различава от „старата гвардия“ на системите за съхранение и защо се оказва един от ключовите лостове за мащабируемост и производителност.
Статии, които може да ви харесат след тази:
🔗 Кои технологии трябва да са налице, за да се използва широкомащабен генеративен изкуствен интелект за бизнеса
Ключови технологии, от които бизнесите се нуждаят, за да мащабират ефективно генеративния изкуствен интелект.
🔗 Управление на данни за инструменти с изкуствен интелект, които трябва да разгледате
Най-добри практики за обработка на данни за оптимизиране на производителността на изкуствения интелект.
🔗 Последици от изкуствения интелект за бизнес стратегията
Как изкуственият интелект влияе върху бизнес стратегиите и вземането на дългосрочни решения.
Какво прави съхранението на обекти подходящо за изкуствения интелект? 🌟
Голямата идея: съхранението на обекти не се занимава с папки или твърди блокови оформления. То разделя данните на „обекти“, всеки от които е маркиран с метаданни. Тези метаданни могат да бъдат неща на системно ниво (размер, времеви марки, клас на съхранение) и потребителски дефинирани тагове ключ:стойност [1]. Мислете за това като за всеки файл, носещ куп лепкави бележки, които ви казват точно какво представлява, как е създаден и къде се вписва във вашия процес на обработка.
За екипите с изкуствен интелект тази гъвкавост е революционна:
-
Мащабиране без мигрена - езерата с данни се простират до петабайти, а хранилищата за обекти се справят с тях с лекота. Те са проектирани за почти неограничен растеж и издръжливост в множество зони (Amazon S3 се хвали с „11 деветки“ и междузонова репликация по подразбиране) [2].
-
Богатство на метаданни - По-бързо търсене, по-чисти филтри и по-интелигентни канали, тъй като контекстът се променя заедно с всеки обект [1].
-
Облачно-ориентиран - Данните постъпват през HTTP(S), което означава, че можете да паралелизирате извличанията и да поддържате разпределеното обучение без прекъсване.
-
Вградена устойчивост - Когато тренирате с дни, не можете да рискувате повреден шард, който ще убие епоха 12. Съхранението на обекти избягва това по дизайн [2].
Това е по същество раница без дъно: може би е разхвърляна отвътре, но всичко е достъпно, когато посегнете към нея.
Таблица за бързо сравнение за съхранение на обекти с изкуствен интелект 🗂️
| Инструмент / Услуга | Най-добро за (аудитория) | Ценови диапазон | Защо работи (Бележки в полетата) |
|---|---|---|---|
| Амазон S3 | Предприятия + екипи, ориентирани към облака | Плащане при ползване | Изключително издръжлив, устойчив на регионални влияния [2] |
| Google Cloud Storage | Специалисти по данни и разработчици на машинно обучение | Гъвкави нива | Силни ML интеграции, напълно облачно ориентирани |
| Съхранение на BLOB файлове в Azure | Магазини, силно ориентирани към Microsoft | Многоетапно (топло/студено) | Безпроблемно с инструментите за данни и машинно обучение на Azure |
| MinIO | Настройки с отворен код / „Направи си сам“ | Безплатен/самостоятелен хостинг | S3-съвместим, лек, може да се използва навсякъде 🚀 |
| Горещ облак от уасаби | Организации, чувствителни към разходите | Фиксирана ниска ставка $ | Без такси за изход или API заявки (според политиката) [3] |
| IBM Cloud Object Storage | Големи предприятия | Варира | Зрял стек със силни опции за корпоративна сигурност |
Винаги проверявайте разумността на цените спрямо реалната ви употреба – особено спрямо изходящия трафик, обема на заявките и комбинацията от класове за съхранение.
Защо обучението по изкуствен интелект обича съхранението на обекти 🧠
Обучението не е „шепа файлове“. Това са милиони и милиони записи, обработвани паралелно. Йерархичните файлови системи се огъват под тежка паралелност. Съхранението на обекти заобикаля това с плоски пространства от имена и изчистени API. Всеки обект има уникален ключ; работниците се разпръскват и извличат паралелно. Шардирани набори от данни + паралелен вход/изход = графичните процесори остават заети, вместо да чакат.
Съвет от окопите: дръжте активните шардове близо до изчислителния клъстер (в същия регион или зона) и кеширайте агресивно на SSD. Ако имате нужда от почти директни захранвания към графичните процесори, NVIDIA GPUDirect Storage - той намалява буферите за отскачане на процесора, намалява латентността и увеличава честотната лента директно към ускорителите [4].
Метаданни: Недооценената суперсила 🪄
Ето къде обектното съхранение блести по не толкова очевидни начини. При качване можете да прикачите персонализирани метаданни (като x-amz-meta-… за S3). Например, набор от данни за зрение може да маркира изображения с lighting=low или blur=high . Това позволява на каналите да филтрират, балансират или стратифицират, без да е необходимо повторно сканиране на суровите файлове [1].
И след това има версии . Много хранилища на обекти съхраняват множество версии на даден обект една до друга – идеално за възпроизводими експерименти или политики за управление, които се нуждаят от връщане към предишни версии [5].
Обект срещу блок срещу съхранение на файлове ⚔️
-
Блоково съхранение : Страхотно за транзакционни бази данни - бързо и прецизно - но твърде скъпо за неструктурирани данни с мащаб от петабайти.
-
Съхранение на файлове : Познато, POSIX-съвместимо, но директориите се задавят при масивно паралелно натоварване.
-
Съхранение на обекти : Проектирано от самото начало за мащабиране, паралелизъм и достъп, управляван от метаданни [1].
Ако искате тромава метафора: блоковото хранилище е шкаф за документи, хранилището за файлове е папка на работния плот, а хранилището за обекти е... бездънна яма с лепкави бележки, които по някакъв начин го правят използваем.
Хибридни работни процеси с изкуствен интелект 🔀
Не винаги е само в облака. Често срещана комбинация изглежда така:
-
Локално обектно съхранение (MinIO, Dell ECS) за чувствителни или регулирани данни.
-
Облачно съхранение на обекти за бързи натоварвания, експерименти или сътрудничество.
Този баланс засяга разходите, съответствието и гъвкавостта. Виждал съм екипи буквално да изсипват терабайти за една нощ в S3 контейнер, само за да заредят временен GPU клъстер, а след това да го унищожат, когато спринтът приключи. За по-ограничени бюджети, моделът с фиксирана ставка/без излизане [3] на Wasabi улеснява прогнозирането.
Частта, с която никой не се хвали 😅
Проверка на реалността: не е безупречно.
-
Латентност - Ако изчислителните процеси и устройствата за съхранение са твърде далеч едно от друго, графичните ви процесори ще се забавят. GDS помага, но архитектурата все още има значение [4].
-
Изненади с разходите - Таксите за изходен достъп и API заявки се прокрадват незабелязано. Някои доставчици ги отменят (Wasabi го прави; други не) [3].
-
Хаос в метаданните в голям мащаб - Кой определя „истината“ в таговете и версиите? Ще ви трябват договори, политики и известна управленска мощ [5].
Съхранението на обекти е инфраструктурна водопроводна система: ключова, но не и бляскава.
Накъде отива 🚀
-
По-интелигентно, AI-съзнателно хранилище , което автоматично маркира и предоставя данни чрез SQL-подобни слоеве на заявки [1].
-
По-тясна хардуерна интеграция (DMA пътища, разтоварване на NIC), така че графичните процесори да не са лишени от I/O [4].
-
Прозрачно, предвидимо ценообразуване (опростени модели, отменени такси за излизане) [3].
Хората говорят за изчисленията като бъдещето на изкуствения интелект. Но реалистично казано? Проблемът е в това как бързото подаване на данни в моделите, без да се разорява бюджетът . Ето защо ролята на обектното съхранение само нараства.
Заключение 📝
Съхранението на обекти не е лъскаво, но е основополагащо. Без мащабируемо, съобразено с метаданните и устойчиво съхранение, обучението на големи модели е като бягане на маратон в сандали.
Така че, да - графичните процесори са важни, рамките са важни. Но ако се отнасяте сериозно към изкуствения интелект, не пренебрегвайте къде се намират вашите данни . Вероятно обектното съхранение вече тихомълком задържа цялата операция.
Референции
[1] AWS S3 – Метаданни за обекти - системни и персонализирани метаданни
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – Класове за съхранение - издръжливост („11 деветки“) + устойчивост
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi Hot Cloud – Ценообразуване - фиксирана цена, без такси за изход/API
https://wasabi.com/pricing
[4] NVIDIA GPUDirect Storage – Документация - DMA пътища към графичните процесори
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – Версиониране - множество версии за управление/възпроизводимост
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html