Ако изграждате, купувате или дори просто оценявате системи с изкуствен интелект, ще се сблъскате с един измамно прост въпрос: какво е набор от данни за изкуствен интелект и защо е толкова важен? Накратко: това е горивото, готварската книга и понякога компасът за вашия модел.
Статии, които може да ви харесат след тази:
🔗 Как изкуственият интелект предсказва тенденции
Изследва как изкуственият интелект анализира модели, за да прогнозира бъдещи събития и поведения.
🔗 Как да измерим производителността на изкуствения интелект
Метрики и методи за оценка на точността, ефективността и надеждността на модела.
🔗 Как да говорим с изкуствен интелект
Насоки за създаване на по-добри взаимодействия за подобряване на генерираните от изкуствен интелект отговори.
🔗 Какво подсказва изкуственият интелект
Преглед на това как подканите оформят резултатите от изкуствения интелект и цялостното качество на комуникацията.
Какво е набор от данни за изкуствен интелект? Кратко определение 🧩
Какво е набор от данни за изкуствен интелект? Това е колекция от примери, от които вашият модел се учи или върху които се оценява. Всеки пример има:
-
Входни данни - характеристики, които моделът вижда, като текстови фрагменти, изображения, аудио, таблични редове, показания на сензори, графики.
-
Цели - етикети или резултати, които моделът трябва да предвиди, като категории, числа, текстови диапазони, действия или понякога нищо.
-
Метаданни - контекст като източник, метод на събиране, времеви отпечатъци, лицензи, информация за съгласие и бележки относно качеството.
Мислете за това като за внимателно опакована кутия за обяд за вашия модел: съставки, етикети, хранителни факти и да, лепящата се бележка, на която пише „не яжте тази част“. 🍱
За контролирани задачи ще видите входни данни, сдвоени с ясни етикети. За неконтролирани задачи ще видите входни данни без етикети. За обучение с подсилване данните често изглеждат като епизоди или траектории със състояния, действия, награди. За мултимодална работа примерите могат да комбинират текст + изображение + аудио в един запис. Звучи луксозно; предимно е водопроводна логика.
Полезни въведения и практики: за информационни листове за набори от данни помага на екипите да обяснят какво има вътре и как трябва да се използва [1], а картите с модели допълват документацията на данните от страната на модела [2].

Какво прави един добър набор от данни за изкуствен интелект ✅
Нека бъдем честни, много модели са успешни, защото наборът от данни не е бил ужасен. „Добър“ набор от данни е:
-
Представителни за реални случаи на употреба, не само за лабораторни условия.
-
Точно етикетирани , с ясни насоки и периодично разглеждане. Метриките за съгласие (напр. мерки в стил каппа) помагат за проверка на съгласуваността.
-
завършен и балансиран , за да се избегне тиха повреда при дълги опашки. Дисбалансът е нормален; небрежността не е.
-
Ясен произход , с документирано съгласие, лиценз и разрешения. Скучната документация предотвратява вълнуващите съдебни дела.
-
Добре документирано с помощта на карти с данни или информационни листове, които посочват предназначението, ограниченията и известните режими на отказ [1]
-
Управлява се от версии, дневници на промените и одобрения. Ако не можете да възпроизведете набора от данни, не можете да възпроизведете модела. Насоките от рамката за управление на риска, свързан с изкуствения интелект, на NIST третират качеството на данните и документацията като първокласни проблеми [3].
Видове набори от данни за изкуствен интелект, според това, което правите 🧰
По задача
-
Класификация - например спам срещу неспам, категории изображения.
-
Регресия - предсказване на непрекъсната стойност, като например цена или температура.
-
Етикетиране на последователности - именувани обекти, части на речта.
-
Генериране - обобщение, превод, надписване на изображения.
-
Препоръка - потребител, артикул, взаимодействия, контекст.
-
Откриване на аномалии - редки събития във времеви серии или лог файлове.
-
Обучение с подсилване - състояние, действие, награда, последователности от следващо състояние.
-
Извличане - документи, заявки, преценки за релевантност.
По начин на приложение
-
Табличен - колони като възраст, доход, отлив. Подценен, брутално ефективен.
-
Текст - документи, чатове, код, публикации във форуми, описания на продукти.
-
Изображения - снимки, медицински сканирания, сателитни плочки; със или без маски, кутии, ключови точки.
-
Аудио - вълнови форми, транскрипти, етикети на високоговорители.
-
Видео - кадри, времеви анотации, етикети за действия.
-
Графи - възли, ръбове, атрибути.
-
Времеви редове - сензори, финанси, телеметрия.
Чрез надзор
-
Етикетиран (златен, сребърен, автоматично етикетиран), слабо етикетиран , немаркиран , синтетичен . Купената от магазина смес за торта може да е прилична - стига да прочетете етикета на кутията.
Вътре в кутията: структура, разделяния и метаданни 📦
Надеждният набор от данни обикновено включва:
-
Схема - типизирани полета, мерни единици, разрешени стойности, обработка на null.
-
Разделяне - обучение, валидиране, тест. Запазете тестовите данни запечатани - третирайте ги като последното парче шоколад.
-
План за вземане на проби - как сте извлекли примери от популацията; избягвайте удобни извадки от един регион или устройство.
-
Допълнения - обръщания, изрязвания, шум, перифрази, маски. Добри са, когато са честни; вредни са, когато измислят модели, които никога не се случват в природата.
-
Версиониране - набор от данни v0.1, v0.2… с дневници на промените, описващи делти.
-
Лицензи и съгласие - права за ползване, преразпределение и процеси на изтриване. Националните регулатори за защита на данните (напр. ICO на Обединеното кралство) предоставят практични, законосъобразни контролни списъци за обработка [4].
Жизненият цикъл на набора от данни, стъпка по стъпка 🔁
-
Дефинирайте решението - какво ще реши моделът и какво се случва, ако то е грешно.
-
Характеристики и етикети на обхвата - измерими, наблюдаеми, етични за събиране.
-
Изходни данни - инструменти, лог файлове, проучвания, публични корпуси, партньори.
-
Съгласие и правни условия - известия за поверителност, откази, минимизиране на данните. Вижте указанията на регулатора за „защо“ и „как“ [4].
-
Събиране и съхранение - сигурно съхранение, достъп, базиран на роли, обработка на лични данни.
-
Етикет - вътрешни анотатори, краудсорсинг, експерти; управление на качеството със златни задачи, одити и показатели за споразумения.
-
Почистване и нормализиране - премахване на дубликати, обработка на липсващи данни, стандартизиране на мерни единици, коригиране на кодирането. Скучна, героична работа.
-
Разделяне и валидиране - предотвратяване на изтичане; стратифициране, където е уместно; предпочитане на разделяне, съобразено с времето, за времеви данни; и използване на кръстосана валидация обмислено за надеждни оценки [5].
-
Документ - информационен лист или карта с данни; предназначение, предупреждения, ограничения [1].
-
Мониторинг и актуализиране - откриване на отклонение, честота на обновяване, планове за залез. AI RMF на NIST оформя този непрекъснат цикъл на управление [3].
Бърз съвет, приложим в реалния свят: екипите често „печелят в демото“, но се спъват в производството, защото наборът им от данни тихо се променя - нови продуктови линии, преименувано поле или променена политика. Един прост списък с промените + периодично повторно анотиране предотвратява по-голямата част от тази болка.
Качество на данните и оценка - не е толкова скучно, колкото звучи 🧪
Качеството е многоизмерно:
-
Точност - правилни ли са етикетите? Използвайте показатели за съгласуваност и периодично оценяване.
-
Пълнота - покрийте областите и курсовете, от които наистина се нуждаете.
-
Последователност - избягвайте противоречиви етикети за сходни входни данни.
-
Навременност - остарелите данни вкаменяват предположенията.
-
Справедливост и пристрастност - обхващане на демографски данни, езици, устройства, среди; започнете с описателни одити, след това стрес тестове. Практиките, ориентирани към документацията (информационни листове, моделни карти), правят тези проверки видими [1], а рамките за управление ги подчертават като контрол на риска [3].
За оценка на модела използвайте правилни разделяния и проследявайте както средните показатели, така и показателите на най-лошата група. Една лъскава средна стойност може да скрие кратер. Основите на кръстосаната валидация са добре разгледани в стандартната документация за инструменти за машинно обучение [5].
Етика, поверителност и лицензиране - предпазните мерки 🛡️
Етичните данни не са вибрация, а процес:
-
Съгласие и ограничение на целта - бъдете ясни относно употребите и правните основания [4].
-
Обработка на лични данни - минимизиране, псевдонимизиране или анонимизиране според случая; обмислете използването на технологии за подобряване на поверителността, когато рисковете са високи.
-
Признание и лицензи - спазвайте ограниченията за споделяне по споделено и търговско използване.
-
Пристрастия и вреда - проверка за фалшиви корелации („дневна светлина = безопасно“ ще бъде много объркано през нощта).
-
Обезщетение - знайте как да премахвате данни при поискване и как да отмените модели, обучени върху тях (документирайте това във вашия информационен лист) [1].
Колко голямо е достатъчно голямо? Оразмеряване и съотношение сигнал/шум 📏
Емпирично правило: повече примери обикновено помагат, ако са уместни и не са почти дубликати. Но понякога е по-добре с по-малко, по-чисти и по-добре обозначени примери, отколкото с планини от разхвърляни.
Внимавайте за:
-
Криви на обучение - начертайте графика на производителността спрямо размера на извадката, за да видите дали сте обвързани с данни или с модел.
-
Покритие с дълга опашка - редките, но критични класове често се нуждаят от целенасочено събиране, а не просто от по-голям обем.
-
Обозначете шума - измерете, след това намалете; малко е поносимо, приливна вълна не е.
-
Изместване на разпределението - данните за обучение от един регион или канал може да не се обобщават за друг; валидирайте върху тестови данни, подобни на целеви [5].
Когато се съмнявате, проведете малки пилотни проекти и ги разширете. Все едно е с подправките - добавете, опитайте, коригирайте, повторете.
Къде да намерите и управлявате набори от данни 🗂️
Популярни ресурси и инструменти (няма нужда да запомняте URL адреси в момента):
-
Набори от данни за прегръщащи лица - програмно зареждане, обработка, споделяне.
-
Търсене в набор от данни на Google - мета-търсене в мрежата.
-
UCI ML Repository - подбрани класики за базови линии и обучение.
-
OpenML - задачи + набори от данни + изпълнения с произход.
-
AWS Open Data / Google Cloud Public Datasets - хоствани, мащабни корпуси.
Професионален съвет: не просто изтегляйте. Прочетете лиценза и информационния лист , след което документирайте собственото си копие с номера на версиите и произхода [1].
Етикетиране и анотиране - където истината се договаря ✍️
Анотацията е мястото, където вашето теоретично ръководство за етикети се бори с реалността:
-
Дизайн на задачата - напишете ясни инструкции с примери и контрапримери.
-
Обучение за анотатори - начални отговори със златни елементи, провеждане на калибровъчни рундове.
-
Контрол на качеството - използвайте показатели за споразумение, механизми за консенсус и периодични одити.
-
Инструменти - изберете инструменти, които налагат валидиране на схеми и опашки за преглед; дори електронните таблици могат да работят с правила и проверки.
-
Обратна връзка - записвайте бележки на анотатора и моделирайте грешки, за да усъвършенствате ръководството.
Ако се чувстваш като да редактираш речник с трима приятели, които не са съгласни относно запетаите... това е нормално. 🙃
Документиране на данни - превръщане на имплицитното знание в експлицитно 📒
Един олекотен информационен лист или карта с данни трябва да обхваща:
-
Кой го е събрал, как и защо.
-
Предназначени употреби и употреби извън обхвата.
-
Известни пропуски, отклонения и режими на отказ.
-
Протокол за етикетиране, стъпки за осигуряване на качеството и статистика за споразумения.
-
Лиценз, съгласие, контакт за проблеми, процес на премахване.
Шаблони и примери: Информационните листове за набори от данни и картите с модели са широко използвани отправни точки [1].
Пишете го, докато конструирате, а не след това. Паметта е нестабилен носител на информация.
Сравнителна таблица - места за намиране или хостване на набори от данни за изкуствен интелект 📊
Да, това е малко субективно. И формулировката е леко неравномерна нарочно. Няма проблем.
| Инструмент / Хранилище | Аудитория | Цена | Защо работи на практика |
|---|---|---|---|
| Набори от данни за прегръщащи лица | Изследователи, инженери | Безплатно ниво | Бързо зареждане, стрийминг, скриптове от общността; отлична документация; версирани набори от данни |
| Търсене в набори от данни в Google | Всеки | Безплатно | Широка повърхност; чудесно за откриване; понякога обаче непоследователни метаданни |
| UCI ML хранилище | Студенти, преподаватели | Безплатно | Подбрани класики; малки, но подредени; подходящи за базови разработки и преподаване |
| OpenML | Репродуктивни изследователи | Безплатно | Задачи + набори от данни + изпълнения заедно; хубави следи от произход |
| Регистър на отворени данни на AWS | Инженери на данни | Предимно безплатно | Хостинг с петабайтов мащаб; достъп до облачни услуги; разходи за наблюдение на изхода |
| Набори от данни на Kaggle | Практикуващите | Безплатно | Лесно споделяне, скриптове, състезания; сигналите от общността помагат за филтриране на шума |
| Публични набори от данни на Google Cloud | Анализатори, екипи | Безплатно + облак | Хостинг близо до изчислителни среди; интеграция с BigQuery; внимателно с фактурирането |
| Академични портали, лаборатории | Експерти по ниши | Варира | Високоспециализирани; понякога недостатъчно документирани - все пак си струва да се потърси |
(Ако една клетка изглежда „бъбрива“, това е умишлено.)
Изграждане на първия ви - практичен стартов комплект 🛠️
Искате да преминете от „какво е набор от данни с изкуствен интелект“ към „аз създадох такъв, работи“. Опитайте този минимален път:
-
Запишете решението и метриката - например, намалете погрешните маршрути на входящата поддръжка чрез предвиждане на правилния отбор. Метрика: макро-F1.
-
Избройте 5 положителни и 5 отрицателни примера - примерни истински билети; не фалшифицирайте.
-
Изгответе ръководство за етикетиране - една страница; ясни правила за включване/изключване.
-
Съберете малка, реална извадка - няколкостотин билета в различни категории; премахнете ненужната лична информация.
-
Разделяне с проверки за течове - съхранявайте всички съобщения от един и същ клиент в едно разделяне; използвайте кръстосана валидация за оценка на дисперсията [5].
-
Анотиране с QA - двама анотатори върху подмножество; разрешаване на разногласия; актуализиране на ръководството.
-
Обучете проста базова линия - първо логистика (напр. линейни модели или компактни трансформатори). Целта е да тествате данните, а не да печелите медали.
-
Прегледайте грешките - къде се проваля и защо; актуализирайте набора от данни, не само модела.
-
Документ - малък информационен лист: източник, линк към ръководство за етикети, разделяния, известни граници, лиценз [1].
-
Обновяване на плана - нови категории, нов жаргон, нови домейни; планирайте малки, чести актуализации [3].
Ще научите повече от този цикъл, отколкото от хиляда бързи дубъла. Също така, пазете резервни копия. Моля.
Често срещани клопки, които се промъкват в екипите 🪤
-
Изтичане на данни - отговорът се промъква във функциите (напр. използване на полета след разрешаване за прогнозиране на резултати). Усеща се като измама, защото е такава.
-
Плитко разнообразие - една география или устройство се маскира като глобално. Тестовете ще разкрият обрата на сюжета.
-
Дрейф на етикетите - критериите се променят с времето, но ръководството за етикети не. Документирайте и версионирайте вашата онтология.
-
Недостатъчно дефинирани цели - ако не можете да дефинирате лоша прогноза, вашите данни също няма да могат.
-
Разхвърляни лицензи - извличането на информация сега, извинението по-късно не е стратегия.
-
Прекомерно допълване - синтетични данни, които преподават нереалистични артефакти, като например обучението на готвач върху пластмасови плодове.
Бързи ЧЗВ относно самата фраза ❓
-
„Какво е набор от данни за изкуствен интелект?“ просто въпрос на дефиниция ли е? Най-вече, но е и сигнал, че ви е грижа за скучните части, които правят моделите надеждни.
-
Винаги ли са ми необходими етикети? Не. Неконтролираните, самоконтролираните и RL настройките често пропускат изрични етикети, но курирането все още е важно.
-
Мога ли да използвам публични данни за каквото и да е? Не. Спазвайте лицензите, условията на платформата и задълженията за поверителност [4].
-
По-голям или по-добър? И двете, в идеалния случай. Ако трябва да избирате, първо изберете по-добрия.
Заключителни бележки - Какво можете да направите екранна снимка 📌
Ако някой ви попита какво е набор от данни с изкуствен интелект , кажете: това е курирана, документирана колекция от примери, които обучават и тестват даден модел, обгърната от управление, така че хората да могат да се доверят на резултатите. Най-добрите набори от данни са представителни, добре етикетирани, правно чисти и непрекъснато поддържани. Останалото са детайли - важни детайли - относно структурата, разделянията и всички онези малки предпазни мерки, които не позволяват на моделите да се разпръснат в трафика. Понякога процесът е като градинарство с електронни таблици; понякога като събиране на пиксели. Така или иначе, инвестирайте в данните и вашите модели ще се държат по-малко странно. 🌱🤖
Референции
[1] Информационни листове за набори от данни - Gebru et al., arXiv. Връзка
[2] Моделни карти за отчитане на модели - Mitchell et al., arXiv. Връзка
[3] Рамка за управление на риска, свързан с изкуствения интелект на NIST (AI RMF 1.0) . Връзка
[4] Ръководство и ресурси за GDPR в Обединеното кралство - Служба на комисаря по информацията (ICO). Връзка
[5] Кръстосана валидация: оценка на производителността на оценителя - Ръководство за потребителя на scikit-learn. Връзка