Съхранение на обекти за ИИ: Избори, избори, избори

Съхранение на обекти за ИИ: Избори, избори, избори

Когато повечето хора чуят „изкуствен интелект“, те си представят невронни мрежи, сложни алгоритми или може би онези леко странни хуманоидни роботи. Това, което рядко се споменава директно, е следното: изкуственият интелект изразходва памет почти толкова лакомо, колкото и изчислява . И не просто някакво хранилище за обекти стои тихо на заден план, вършейки неочакваната, но абсолютно необходима работа по захранването на моделите с необходимите им данни.

Нека разгледаме какво прави съхранението на обекти толкова важно за изкуствения интелект, как се различава от „старата гвардия“ на системите за съхранение и защо се оказва един от ключовите лостове за мащабируемост и производителност.

Статии, които може да ви харесат след тази:

🔗 Кои технологии трябва да са налице, за да се използва широкомащабен генеративен изкуствен интелект за бизнеса
Ключови технологии, от които бизнесите се нуждаят, за да мащабират ефективно генеративния изкуствен интелект.

🔗 Управление на данни за инструменти с изкуствен интелект, които трябва да разгледате
Най-добри практики за обработка на данни за оптимизиране на производителността на изкуствения интелект.

🔗 Последици от изкуствения интелект за бизнес стратегията
Как изкуственият интелект влияе върху бизнес стратегиите и вземането на дългосрочни решения.


Какво прави съхранението на обекти подходящо за изкуствения интелект? 🌟

Голямата идея: съхранението на обекти не се занимава с папки или твърди блокови оформления. То разделя данните на „обекти“, всеки от които е маркиран с метаданни. Тези метаданни могат да бъдат неща на системно ниво (размер, времеви марки, клас на съхранение) и потребителски дефинирани тагове ключ:стойност [1]. Мислете за това като за всеки файл, носещ куп лепкави бележки, които ви казват точно какво представлява, как е създаден и къде се вписва във вашия процес на обработка.

За екипите с изкуствен интелект тази гъвкавост е революционна:

  • Мащабиране без мигрена - езерата с данни се простират до петабайти, а хранилищата за обекти се справят с тях с лекота. Те са проектирани за почти неограничен растеж и издръжливост в множество зони (Amazon S3 се хвали с „11 деветки“ и междузонова репликация по подразбиране) [2].

  • Богатство на метаданни - По-бързо търсене, по-чисти филтри и по-интелигентни канали, тъй като контекстът се променя заедно с всеки обект [1].

  • Облачно-ориентиран - Данните постъпват през HTTP(S), което означава, че можете да паралелизирате извличанията и да поддържате разпределеното обучение без прекъсване.

  • Вградена устойчивост - Когато тренирате с дни, не можете да рискувате повреден шард, който ще убие епоха 12. Съхранението на обекти избягва това по дизайн [2].

Това е по същество раница без дъно: може би е разхвърляна отвътре, но всичко е достъпно, когато посегнете към нея.


Таблица за бързо сравнение за съхранение на обекти с изкуствен интелект 🗂️

Инструмент / Услуга Най-добро за (аудитория) Ценови диапазон Защо работи (Бележки в полетата)
Амазон S3 Предприятия + екипи, ориентирани към облака Плащане при ползване Изключително издръжлив, устойчив на регионални влияния [2]
Google Cloud Storage Специалисти по данни и разработчици на машинно обучение Гъвкави нива Силни ML интеграции, напълно облачно ориентирани
Съхранение на BLOB файлове в Azure Магазини, силно ориентирани към Microsoft Многоетапно (топло/студено) Безпроблемно с инструментите за данни и машинно обучение на Azure
MinIO Настройки с отворен код / ​​„Направи си сам“ Безплатен/самостоятелен хостинг S3-съвместим, лек, може да се използва навсякъде 🚀
Горещ облак от уасаби Организации, чувствителни към разходите Фиксирана ниска ставка $ Без такси за изход или API заявки (според политиката) [3]
IBM Cloud Object Storage Големи предприятия Варира Зрял стек със силни опции за корпоративна сигурност

Винаги проверявайте разумността на цените спрямо реалната ви употреба – особено спрямо изходящия трафик, обема на заявките и комбинацията от класове за съхранение.


Защо обучението по изкуствен интелект обича съхранението на обекти 🧠

Обучението не е „шепа файлове“. Това са милиони и милиони записи, обработвани паралелно. Йерархичните файлови системи се огъват под тежка паралелност. Съхранението на обекти заобикаля това с плоски пространства от имена и изчистени API. Всеки обект има уникален ключ; работниците се разпръскват и извличат паралелно. Шардирани набори от данни + паралелен вход/изход = графичните процесори остават заети, вместо да чакат.

Съвет от окопите: дръжте активните шардове близо до изчислителния клъстер (в същия регион или зона) и кеширайте агресивно на SSD. Ако имате нужда от почти директни захранвания към графичните процесори, NVIDIA GPUDirect Storage - той намалява буферите за отскачане на процесора, намалява латентността и увеличава честотната лента директно към ускорителите [4].


Метаданни: Недооценената суперсила 🪄

Ето къде обектното съхранение блести по не толкова очевидни начини. При качване можете да прикачите персонализирани метаданни (като x-amz-meta-… за S3). Например, набор от данни за зрение може да маркира изображения с lighting=low или blur=high . Това позволява на каналите да филтрират, балансират или стратифицират, без да е необходимо повторно сканиране на суровите файлове [1].

И след това има версии . Много хранилища на обекти съхраняват множество версии на даден обект една до друга – идеално за възпроизводими експерименти или политики за управление, които се нуждаят от връщане към предишни версии [5].


Обект срещу блок срещу съхранение на файлове ⚔️

  • Блоково съхранение : Страхотно за транзакционни бази данни - бързо и прецизно - но твърде скъпо за неструктурирани данни с мащаб от петабайти.

  • Съхранение на файлове : Познато, POSIX-съвместимо, но директориите се задавят при масивно паралелно натоварване.

  • Съхранение на обекти : Проектирано от самото начало за мащабиране, паралелизъм и достъп, управляван от метаданни [1].

Ако искате тромава метафора: блоковото хранилище е шкаф за документи, хранилището за файлове е папка на работния плот, а хранилището за обекти е... бездънна яма с лепкави бележки, които по някакъв начин го правят използваем.


Хибридни работни процеси с изкуствен интелект 🔀

Не винаги е само в облака. Често срещана комбинация изглежда така:

  • Локално обектно съхранение (MinIO, Dell ECS) за чувствителни или регулирани данни.

  • Облачно съхранение на обекти за бързи натоварвания, експерименти или сътрудничество.

Този баланс засяга разходите, съответствието и гъвкавостта. Виждал съм екипи буквално да изсипват терабайти за една нощ в S3 контейнер, само за да заредят временен GPU клъстер, а след това да го унищожат, когато спринтът приключи. За по-ограничени бюджети, моделът с фиксирана ставка/без излизане [3] на Wasabi улеснява прогнозирането.


Частта, с която никой не се хвали 😅

Проверка на реалността: не е безупречно.

  • Латентност - Ако изчислителните процеси и устройствата за съхранение са твърде далеч едно от друго, графичните ви процесори ще се забавят. GDS помага, но архитектурата все още има значение [4].

  • Изненади с разходите - Таксите за изходен достъп и API заявки се прокрадват незабелязано. Някои доставчици ги отменят (Wasabi го прави; други не) [3].

  • Хаос в метаданните в голям мащаб - Кой определя „истината“ в таговете и версиите? Ще ви трябват договори, политики и известна управленска мощ [5].

Съхранението на обекти е инфраструктурна водопроводна система: ключова, но не и бляскава.


Накъде отива 🚀

  • По-интелигентно, AI-съзнателно хранилище , което автоматично маркира и предоставя данни чрез SQL-подобни слоеве на заявки [1].

  • По-тясна хардуерна интеграция (DMA пътища, разтоварване на NIC), така че графичните процесори да не са лишени от I/O [4].

  • Прозрачно, предвидимо ценообразуване (опростени модели, отменени такси за излизане) [3].

Хората говорят за изчисленията като бъдещето на изкуствения интелект. Но реалистично казано? Проблемът е в това как бързото подаване на данни в моделите, без да се разорява бюджетът . Ето защо ролята на обектното съхранение само нараства.


Заключение 📝

Съхранението на обекти не е лъскаво, но е основополагащо. Без мащабируемо, съобразено с метаданните и устойчиво съхранение, обучението на големи модели е като бягане на маратон в сандали.

Така че, да - графичните процесори са важни, рамките са важни. Но ако се отнасяте сериозно към изкуствения интелект, не пренебрегвайте къде се намират вашите данни . Вероятно обектното съхранение вече тихомълком задържа цялата операция.


Референции

[1] AWS S3 – Метаданни за обекти - системни и персонализирани метаданни
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – Класове за съхранение - издръжливост („11 деветки“) + устойчивост
https://aws.amazon.com/s3/storage-classes/

[3] Wasabi Hot Cloud – Ценообразуване - фиксирана цена, без такси за изход/API
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – Документация - DMA пътища към графичните процесори
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – Версиониране - множество версии за управление/възпроизводимост
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html


Намерете най-новия изкуствен интелект в официалния магазин за асистенти с изкуствен интелект

За нас

Обратно към блога