Съхранение на обекти за ИИ: Избори, избори, избори

Когато повечето хора чуят „изкуствен интелект“, те си представят невронни мрежи, сложни алгоритми или може би онези леко странни хуманоидни роботи. Това, което рядко се споменава директно, е следното: изкуственият интелект изразходва памет почти толкова лакомо, колкото и изчислява . И не просто някакво хранилище за обекти стои тихо на заден план, вършейки неочакваната, но абсолютно необходима работа по захранването на моделите с необходимите им данни.

Нека разгледаме какво прави съхранението на обекти толкова важно за изкуствения интелект, как се различава от „старата гвардия“ на системите за съхранение и защо се оказва един от ключовите лостове за мащабируемост и производителност.

Статии, които може да ви харесат след тази:

🔗 Кои технологии трябва да са налице, за да се използва широкомащабен генеративен изкуствен интелект за бизнеса
Ключови технологии, от които бизнесите се нуждаят, за да мащабират ефективно генеративния изкуствен интелект.

🔗 Управление на данни за инструменти с изкуствен интелект, които трябва да разгледате
Най-добри практики за обработка на данни за оптимизиране на производителността на изкуствения интелект.

🔗 Последици от изкуствения интелект за бизнес стратегията
Как изкуственият интелект влияе върху бизнес стратегиите и вземането на дългосрочни решения.

Какво прави съхранението на обекти подходящо за изкуствения интелект? 🌟

Голямата идея: съхранението на обекти не се занимава с папки или твърди блокови оформления. То разделя данните на „обекти“, всеки от които е маркиран с метаданни. Тези метаданни могат да бъдат неща на системно ниво (размер, времеви марки, клас на съхранение) и потребителски дефинирани тагове ключ:стойност [1]. Мислете за това като за всеки файл, носещ куп лепкави бележки, които ви казват точно какво представлява, как е създаден и къде се вписва във вашия процес на обработка.

За екипите с изкуствен интелект тази гъвкавост е революционна:

Мащабиране без мигрена - езерата с данни се простират до петабайти, а хранилищата за обекти се справят с тях с лекота. Те са проектирани за почти неограничен растеж и издръжливост в множество зони (Amazon S3 се хвали с „11 деветки“ и междузонова репликация по подразбиране) [2].
Богатство на метаданни - По-бързо търсене, по-чисти филтри и по-интелигентни канали, тъй като контекстът се променя заедно с всеки обект [1].
Облачно-ориентиран - Данните постъпват през HTTP(S), което означава, че можете да паралелизирате извличанията и да поддържате разпределеното обучение без прекъсване.
Вградена устойчивост - Когато тренирате с дни, не можете да рискувате повреден шард, който ще убие епоха 12. Съхранението на обекти избягва това по дизайн [2].

Това е по същество раница без дъно: може би е разхвърляна отвътре, но всичко е достъпно, когато посегнете към нея.

Таблица за бързо сравнение за съхранение на обекти с изкуствен интелект 🗂️

Инструмент / Услуга	Най-добро за (аудитория)	Ценови диапазон	Защо работи (Бележки в полетата)
Амазон S3	Предприятия + екипи, ориентирани към облака	Плащане при ползване	Изключително издръжлив, устойчив на регионални влияния [2]
Google Cloud Storage	Специалисти по данни и разработчици на машинно обучение	Гъвкави нива	Силни ML интеграции, напълно облачно ориентирани
Съхранение на BLOB файлове в Azure	Магазини, силно ориентирани към Microsoft	Многоетапно (топло/студено)	Безпроблемно с инструментите за данни и машинно обучение на Azure
MinIO	Настройки с отворен код / „Направи си сам“	Безплатен/самостоятелен хостинг	S3-съвместим, лек, може да се използва навсякъде 🚀
Горещ облак от уасаби	Организации, чувствителни към разходите	Фиксирана ниска ставка $	Без такси за изход или API заявки (според политиката) [3]
IBM Cloud Object Storage	Големи предприятия	Варира	Зрял стек със силни опции за корпоративна сигурност

Винаги проверявайте разумността на цените спрямо реалната ви употреба – особено спрямо изходящия трафик, обема на заявките и комбинацията от класове за съхранение.

Защо обучението по изкуствен интелект обича съхранението на обекти 🧠

Обучението не е „шепа файлове“. Това са милиони и милиони записи, обработвани паралелно. Йерархичните файлови системи се огъват под тежка паралелност. Съхранението на обекти заобикаля това с плоски пространства от имена и изчистени API. Всеки обект има уникален ключ; работниците се разпръскват и извличат паралелно. Шардирани набори от данни + паралелен вход/изход = графичните процесори остават заети, вместо да чакат.

Съвет от окопите: дръжте активните шардове близо до изчислителния клъстер (в същия регион или зона) и кеширайте агресивно на SSD. Ако имате нужда от почти директни захранвания към графичните процесори, NVIDIA GPUDirect Storage - той намалява буферите за отскачане на процесора, намалява латентността и увеличава честотната лента директно към ускорителите [4].

Метаданни: Недооценената суперсила 🪄

Ето къде обектното съхранение блести по не толкова очевидни начини. При качване можете да прикачите персонализирани метаданни (като x-amz-meta-… за S3). Например, набор от данни за зрение може да маркира изображения с lighting=low или blur=high . Това позволява на каналите да филтрират, балансират или стратифицират, без да е необходимо повторно сканиране на суровите файлове [1].

И след това има версии . Много хранилища на обекти съхраняват множество версии на даден обект една до друга – идеално за възпроизводими експерименти или политики за управление, които се нуждаят от връщане към предишни версии [5].

Обект срещу блок срещу съхранение на файлове ⚔️

Блоково съхранение : Страхотно за транзакционни бази данни - бързо и прецизно - но твърде скъпо за неструктурирани данни с мащаб от петабайти.
Съхранение на файлове : Познато, POSIX-съвместимо, но директориите се задавят при масивно паралелно натоварване.
Съхранение на обекти : Проектирано от самото начало за мащабиране, паралелизъм и достъп, управляван от метаданни [1].

Ако искате тромава метафора: блоковото хранилище е шкаф за документи, хранилището за файлове е папка на работния плот, а хранилището за обекти е... бездънна яма с лепкави бележки, които по някакъв начин го правят използваем.

Хибридни работни процеси с изкуствен интелект 🔀

Не винаги е само в облака. Често срещана комбинация изглежда така:

Локално обектно съхранение (MinIO, Dell ECS) за чувствителни или регулирани данни.
Облачно съхранение на обекти за бързи натоварвания, експерименти или сътрудничество.

Този баланс засяга разходите, съответствието и гъвкавостта. Виждал съм екипи буквално да изсипват терабайти за една нощ в S3 контейнер, само за да заредят временен GPU клъстер, а след това да го унищожат, когато спринтът приключи. За по-ограничени бюджети, моделът с фиксирана ставка/без излизане [3] на Wasabi улеснява прогнозирането.

Частта, с която никой не се хвали 😅

Проверка на реалността: не е безупречно.

Латентност - Ако изчислителните процеси и устройствата за съхранение са твърде далеч едно от друго, графичните ви процесори ще се забавят. GDS помага, но архитектурата все още има значение [4].
Изненади с разходите - Таксите за изходен достъп и API заявки се прокрадват незабелязано. Някои доставчици ги отменят (Wasabi го прави; други не) [3].
Хаос в метаданните в голям мащаб - Кой определя „истината“ в таговете и версиите? Ще ви трябват договори, политики и известна управленска мощ [5].

Съхранението на обекти е инфраструктурна водопроводна система: ключова, но не и бляскава.

Накъде отива 🚀

По-интелигентно, AI-съзнателно хранилище , което автоматично маркира и предоставя данни чрез SQL-подобни слоеве на заявки [1].
По-тясна хардуерна интеграция (DMA пътища, разтоварване на NIC), така че графичните процесори да не са лишени от I/O [4].
Прозрачно, предвидимо ценообразуване (опростени модели, отменени такси за излизане) [3].

Хората говорят за изчисленията като бъдещето на изкуствения интелект. Но реалистично казано? Проблемът е в това как бързото подаване на данни в моделите, без да се разорява бюджетът . Ето защо ролята на обектното съхранение само нараства.

Заключение 📝

Съхранението на обекти не е лъскаво, но е основополагащо. Без мащабируемо, съобразено с метаданните и устойчиво съхранение, обучението на големи модели е като бягане на маратон в сандали.

Така че, да - графичните процесори са важни, рамките са важни. Но ако се отнасяте сериозно към изкуствения интелект, не пренебрегвайте къде се намират вашите данни . Вероятно обектното съхранение вече тихомълком задържа цялата операция.

Референции

[1] AWS S3 – Метаданни за обекти - системни и персонализирани метаданни
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – Класове за съхранение - издръжливост („11 деветки“) + устойчивост
https://aws.amazon.com/s3/storage-classes/

[3] Wasabi Hot Cloud – Ценообразуване - фиксирана цена, без такси за изход/API
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – Документация - DMA пътища към графичните процесори
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – Версиониране - множество версии за управление/възпроизводимост
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html

Намерете най-новия изкуствен интелект в официалния магазин за асистенти с изкуствен интелект

За нас

Обратно към блога

Държава/регион