Какво е невронна мрежа в изкуствения интелект?

Невронните мрежи звучат мистериозно, докато не престанат да бъдат. Ако някога сте се чудили какво е невронна мрежа в изкуствения интелект? и дали е просто математика с изискана шапка, значи сте на правилното място. Ще се придържаме към практичността, ще добавим малки отклонения и да - няколко емоджита. Ще си тръгнете, знаейки какво представляват тези системи, защо работят, къде се провалят и как да говорите за тях, без да се колебаете.

Статии, които може да ви харесат след тази:

🔗 Какво е пристрастие към изкуствения интелект
Разбиране на пристрастията в системите с изкуствен интелект и стратегии за осигуряване на справедливост.

🔗 Какво е предсказуем изкуствен интелект
Как предсказуемият изкуствен интелект използва модели, за да прогнозира бъдещи резултати.

🔗 Какво е треньор по изкуствен интелект
Проучване на ролята и отговорностите на професионалистите, които обучават изкуствен интелект.

🔗 Какво е компютърно зрение в изкуствения интелект
Как изкуственият интелект интерпретира и анализира визуални данни чрез компютърно зрение.

Какво е невронна мрежа в изкуствения интелект? Отговорът за 10 секунди ⏱️

Невронната мрежа е стек от прости изчислителни единици, наречени неврони, които предават числа напред, коригират силата на връзките си по време на обучение и постепенно изучават модели в данните. Когато чуете „ дълбоко обучение“ , това обикновено означава невронна мрежа с много подредени слоеве, която автоматично учи функции, вместо да ги кодирате на ръка. С други думи: много малки математически елементи, умело подредени, обучени върху данни, докато станат полезни [1].

Какво прави невронната мрежа полезна? ✅

Представителна способност : С правилната архитектура и размер, мрежите могат да апроксимират изключително сложни функции (вижте Универсалната теорема за апроксимация) [4].
Цялостно обучение : Вместо ръчно проектиране на характеристики, моделът ги открива [1].
Обобщение : Добре регулираната мрежа не просто запомнява - тя работи с нови, невиждани данни [1].
Мащабируемост : По-големите набори от данни плюс по-големите модели често подобряват резултатите... до практически граници, като например изчислителни възможности и качество на данните [1].
Преносимост : Характеристики, усвоени в една задача, могат да помогнат на друга (трансферно обучение и фина настройка) [1].

Малка полева бележка (примерен сценарий): Малък екип за класификация на продукти заменя ръчно изградени функции с компактна CNN, добавя прости допълнения (объркване/изрязване) и наблюдава как грешките при валидиране намаляват - не защото мрежата е „магия“, а защото е научила повече полезни функции директно от пикселите.

„Какво е невронна мрежа в изкуствения интелект?“ на разбираем английски, с неубедителна метафора 🍞

Представете си линия за пекарна. Съставките влизат, работниците променят рецептата, дегустаторите се оплакват и екипът отново актуализира рецептата. В мрежа входните данни преминават през слоеве, функцията за загуба градира изхода, а градиентите променят теглата, за да се представят по-добре следващия път. Не е перфектно като метафора - хлябът не е диференцируем - но се задържа [1].

Анатомията на невронната мрежа 🧩

Неврони : Малки калкулатори, прилагащи претеглена сума и активираща функция.
Тегла и отклонения : Регулируеми копчета, които определят как сигналите се комбинират.
Слоеве : Входният слой получава данни, скритите слоеве ги трансформират, а изходният слой прави прогнозата.
Активационни функции : Нелинейни обрати като ReLU, сигмоид, tanh и softmax правят обучението гъвкаво.
Функция на загубата : Оценка за това колко грешна е прогнозата (кръстосана ентропия за класификация, MSE за регресия).
Оптимизатор : Алгоритми като SGD или Adam използват градиенти за актуализиране на теглата.
Регуларизация : Техники като отпадане или намаляване на теглото, за да се предотврати пренареждането на модела.

Ако искате официалното описание (но все пак четливо), отвореният учебник „ Дълбоко обучение“ обхваща пълния набор от теми: основи на математиката, оптимизация и обобщение [1].

Функции за активиране, накратко, но полезно ⚡

ReLU : Нула за отрицателни стойности, линейна за положителни. Просто, бързо, ефективно.
Сигмоид : Смазва стойности между 0 и 1 - полезно, но може да доведе до насищане.
Тан : Като сигмоид, но симетричен около нулата.
Softmax : Превръща суровите резултати във вероятности в различните класове.

Не е нужно да запомняте всяка форма на крива - достатъчно е да знаете компромисите и често срещаните настройки по подразбиране [1, 2].

Как всъщност се случва ученето: с обратна опора, но не и страшно 🔁

Предаване напред : Данните потоци се предават слой по слой, за да се получи прогноза.
Изчисляване на загубата : Сравняване на прогнозата с истината.
Обратно разпространение : Изчислете градиентите на загубата спрямо всяко тегло, използвайки верижното правило.
Актуализация : Оптимизаторът променя леко теглата.
Повторение : Много епохи. Моделът постепенно се учи.

За практическа интуиция с визуализации и обяснения, свързани с кода, вижте класическите бележки по CS231n за обратното пропиране и оптимизацията [2].

Основните семейства невронни мрежи, накратко 🏡

Мрежи с предварителна връзка (MLP) : Най-простият вид. Данните се движат само напред.
Конволюционни невронни мрежи (CNN) : Чудесни за изображения благодарение на пространствени филтри, които откриват ръбове, текстури, форми [2].
Рекурентни невронни мрежи (RNN) и варианти : Създадени за последователности като текст или времеви серии, като се поддържа чувство за ред [1].
Трансформърс : Използвайте внимание, за да моделирате взаимоотношенията между позициите в поредица едновременно; доминиращи в езика и извън него [3].
Графови невронни мрежи (ГНМ) : Работят с възли и ръбове на граф - полезни за молекули, социални мрежи, препоръки [1].
Автоенкодери и VAE : Научете компресирани представяния и генерирайте вариации [1].
Генеративни модели : От GAN до дифузионни модели, използвани за изображения, аудио, дори код [1].

Бележките на CS231n са особено лесни за използване при CNN, докато статията на Transformer е основният източник за модели, базирани на внимание [2, 3].

Сравнителна таблица: често срещани видове невронни мрежи, за кого са предназначени, ценови вибрации и защо работят 📊

Инструмент / Тип	Аудитория	Ценово	Защо работи
Предварителна обратна връзка (MLP)	Начинаещи, анализатори	Ниско-средно	Прости, гъвкави, прилични базови линии
СиЕнЕн	Екипи за визия	Среден	Локални модели + споделяне на параметри
РНН / LSTM / ГРУ	Последователност хора	Среден	Временна памет... улавя реда
Трансформатор	НЛП, мултимодален	Средно-високо	Вниманието се фокусира върху съответните взаимоотношения
ГНН	Учени, recsys	Среден	Предаването на съобщения през графики разкрива структура
Автоенкодер / VAE	Изследователи	Ниско-средно	Изучава компресирани представяния
GAN / Дифузия	Творчески лаборатории	Средно-високо	Състезателна или итеративна магия за премахване на шум

Бележки: ценообразуването е свързано с изчислителна мощност и време; вашият пробег варира. Един или два мобилни телефона са умишлено разговорливи.

„Какво е невронна мрежа в изкуствения интелект?“ срещу класически алгоритми за машинно обучение ⚖️

Инженерство на характеристиките : Класическото машинно обучение често разчита на ръчно зададени характеристики. Невронните мрежи учат характеристиките автоматично - голяма победа за сложни данни [1].
Глад за данни : Мрежите често разполагат с повече данни; малкият обем данни може да е в полза на по-прости модели [1].
Изчисления : Мрежите обичат ускорители като графични процесори [1].
Таван на производителността : За неструктурирани данни (изображения, аудио, текст), дълбоките мрежи са склонни да доминират [1, 2].

Работният процес на обучение, който действително работи на практика 🛠️

Дефинирайте целта : Класификация, регресия, класиране, генериране - изберете загуба, която съответства.
Обработка на данни : Разделяне на обучение/валидиране/тест. Нормализиране на характеристиките. Балансиране на класовете. За изображения, помислете за допълване като обръщания, изрязване, малък шум.
Избор на архитектура : Започнете просто. Добавяйте капацитет само когато е необходимо.
Обучителен цикъл : Пакетиране на данните. Предно преминаване. Изчисляване на загубата. Обратно прехвърляне. Актуализиране. Записване на показатели.
Регулиране : Отпадане, намаляване на теглото, преждевременно спиране.
Оценка : Използвайте валидационния набор за хиперпараметри. Задръжте тестов набор за окончателна проверка.
Внимателно корабоплавайте : Следете дрейфа, проверявайте за отклонения, планирайте отстъпи.

За цялостни, ориентирани към кода уроци със солидна теория, отвореният учебник и бележките по CS231n са надеждни опорни точки [1, 2].

Прекалено напасване, генерализация и други гадости 👀

Преобучение : Моделът запомня особеностите на обучението. Коригирайте с повече данни, по-силна регуларизация или по-прости архитектури.
Недостатъчно приспособяване : Моделът е твърде опростен или тренировките са твърде плахи. Увеличете капацитета или тренирайте по-дълго.
Изтичане на данни : Информацията от тестовия набор се промъква в обучението. Проверете трикратно разделянията си.
Лошо калибриране : Модел, който е уверен, но грешен, е опасен. Помислете за калибриране или различно претегляне на загубите.
Промяна в разпределението : Данните от реалния свят се движат. Наблюдавайте и се адаптирайте.

За теорията, стояща зад обобщението и регуларизацията, вижте стандартните източници [1, 2].

Безопасност, интерпретируемост и отговорно внедряване 🧭

Невронните мрежи могат да вземат решения с висок залог. Не е достатъчно те да се представят добре в класация. Необходими са стъпки за управление, измерване и смекчаване през целия жизнен цикъл. Рамката за управление на риска с изкуствен интелект на NIST очертава практически функции - УПРАВЛЕНИЕ, КАРТИРАНЕ, ИЗМЕРВАНЕ, УПРАВЛЕНИЕ - за да помогне на екипите да интегрират управлението на риска в проектирането и внедряването [5].

Няколко бързи насоки:

Проверки за пристрастност : Оценявайте по демографски сегменти, където е уместно и законосъобразно.
Интерпретируемост : Използвайте техники като подчертаване или определяне на характеристики. Те са несъвършени, но полезни.
Мониторинг : Задайте предупреждения за внезапни спадове на показателите или отклонения в данните.
Човешки надзор : Информирайте хората за решения с голямо значение. Без героизъм, само хигиена.

Често задавани въпроси, които тайно си задавал 🙋

Дали невронната мрежа е по същество мозък?

Вдъхновено от мозъка, да - но опростено. Невроните в мрежите са математически функции; биологичните неврони са живи клетки със сложна динамика. Подобни вибрации, много различна физика [1].

Колко слоя са ми необходими?

Започнете с малко. Ако не сте достатъчно настроени, добавете ширина или дълбочина. Ако сте прекалено настроени, регулирайте или намалете капацитета. Няма магическо число; има само криви на валидиране и търпение [1].

Винаги ли ми е необходим графичен процесор (GPU)?

Не винаги. Малките модели върху скромни данни могат да се обучават на процесори, но за изображения, големи текстови модели или големи набори от данни, ускорителите спестяват много време [1].

Защо хората казват, че вниманието е мощно?

Защото вниманието позволява на моделите да се фокусират върху най-подходящите части от входните данни, без да се движат строго по определен ред. То улавя глобалните взаимоотношения, което е от голямо значение за езиковите и мултимодалните задачи [3].

Различно ли е „Какво е невронна мрежа в изкуствения интелект?“ от „Какво е дълбоко обучение“?

Дълбокото обучение е по-широкият подход, който използва дълбоки невронни мрежи. Така че да попиташ „Какво е невронна мрежа в изкуствения интелект?“ е все едно да попиташ за главния герой; дълбокото обучение е целият филм [1].

Практични, леко категорични съвети 💡

Предпочитайте прости базови линии . Дори малък многослоен персептрон може да ви каже дали данните могат да се научат.
Поддържайте възпроизводимостта на вашия канал за данни . Ако не можете да го стартирате отново, не можете да му се доверите.
Скоростта на учене е по-важна, отколкото си мислите. Опитайте график. Загрявката може да помогне.
компромиси с размера на партидите . По-големите партиди стабилизират градиентите, но може да имат различно обобщение.
Когато сте объркани, начертайте криви на загуба и норми за тегло . Ще се изненадате колко често отговорът е в графиките.
Документирайте предположенията. Бъдещето ви забравя нещата - бързо [1, 2].

Дълбоко проучване: ролята на данните или защо „боклукът на входа“ все още означава „боклук навън“ 🗑️➡️✨

Невронните мрежи не поправят магически дефектни данни. Изкривените етикети, грешките в анотациите или тясната извадка ще се отразят на модела. Курирайте, одитирайте и допълвайте. И ако не сте сигурни дали имате нужда от повече данни или от по-добър модел, отговорът често е досадно прост: и двете - но започнете с качеството на данните [1].

„Какво е невронна мрежа в изкуствения интелект?“ - кратки дефиниции, които можете да използвате повторно 🧾

Невронната мрежа е многослоен функционален апроксиматор, който учи сложни модели чрез настройване на теглата с помощта на градиентни сигнали [1, 2].
Това е система, която трансформира входните данни в изходни чрез последователни нелинейни стъпки, обучена да минимизира загубата [1].
Това е гъвкав, изискващ много данни подход за моделиране, който процъфтява с неструктурирани входни данни като изображения, текст и аудио [1, 2, 3].

Твърде дълго, не прочетох и заключителни бележки 🎯

Ако някой ви попита „Какво е невронна мрежа в изкуствения интелект?“ , ето краткия отговор: невронната мрежа е стек от прости единици, които трансформират данни стъпка по стъпка, като се учат на трансформацията чрез минимизиране на загубата и следване на градиенти. Те са мощни, защото се мащабират, автоматично изучават характеристики и могат да представляват много сложни функции [1, 4]. Те са рискови, ако пренебрегнете качеството на данните, управлението или мониторинга [5]. И не са магия. Просто математика, изчисления и добро инженерство - с щипка вкус.

Допълнително четиво, внимателно подбрано (допълнителни материали без цитиране)

Бележки за Stanford CS231n - достъпни и практични: https://cs231n.github.io/
DeepLearningBook.org - канонична препратка: https://www.deeplearningbook.org/
Рамка за управление на риска от изкуствен интелект на NIST - насоки за отговорен изкуствен интелект: https://www.nist.gov/itl/ai-risk-management-framework
„Вниманието е всичко, от което се нуждаете“ - статията на Transformer: https://arxiv.org/abs/1706.03762

Референции

[1] Гудфелоу, И., Бенджио, Й. и Курвил, А. Дълбоко обучение . MIT Press. Безплатна онлайн версия: прочетете повече

[2] Станфорд CS231n. Конволюционни невронни мрежи за визуално разпознаване (бележки от курса): прочетете повече

[3] Васвани, А., Шазир, Н., Пармар, Н. и др. (2017). Вниманието е всичко, от което се нуждаете . NeurIPS. arXiv: прочетете повече

[4] Цибенко, Г. (1989). Апроксимация чрез суперпозиции на сигмоидална функция . Математика на управлението, сигнали и системи , 2, 303–314. Springer: прочетете повече

[5] NIST. Рамка за управление на риска, свързан с изкуствения интелект (AI RMF) : прочетете повече

Намерете най-новия изкуствен интелект в официалния магазин за асистенти с изкуствен интелект

За нас

Обратно към блога

Държава/регион