Някога седели ли сте там и се чешете по главата, сякаш... откъде всъщност идват тези неща ? Искам да кажа, изкуственият интелект не рови из прашните библиотечни купчини, нито гледа тайно кратки видеоклипове в YouTube. И все пак някак си той измисля отговори на всичко - от трикове за лазаня до физика на черните дупки - сякаш има някакъв бездънен шкаф за документи вътре. Реалността е по-странна и може би по-интригуваща, отколкото бихте предположили. Нека я разгледаме малко (и да, може би да развенчаем няколко мита по пътя).
Магьосничество ли е? 🌐
Не е магия, макар че понякога се усеща така. Това, което се случва „под капака“, е основно предсказване на модели . Моделите с големи езици (LLM) не съхраняват факти по начина, по който мозъкът ви се държи за рецептата за бисквитки на баба ви; вместо това те са обучени да познаят следващата дума (лексема) въз основа на това, което е било преди това [2]. На практика това означава, че те се придържат към връзките: кои думи се съчетават, как обикновено се оформят изреченията, как се изграждат цели идеи като скеле. Ето защо резултатът звучи правилно, въпреки че – напълно честно казано – това е статистическа имитация, а не разбиране [4].
И така, какво всъщност прави информацията, генерирана от изкуствен интелект, полезна ? Няколко неща:
-
Разнообразие на данните - извличане от безброй източници, а не от един тесен поток.
-
Актуализации - без цикли на обновяване, бързо остарява.
-
Филтриране - в идеалния случай улавяне на боклуци, преди да проникнат (макар че, нека бъдем реалисти, тази мрежа има дупки).
-
Кръстосана проверка - разчитане на авторитетни източници (като НАСА, СЗО, големи университети), което е задължително в повечето наръчници за управление на ИИ [3].
Все пак, понякога си измисля – уверено. Тези така наречени халюцинации ? По същество изпипани глупости, изречени с сериозно изражение [2][3].
Статии, които може да ви харесат след тази:
🔗 Може ли изкуственият интелект да предсказва числата от лотарията
Изследване на митове и факти за лотарийните прогнози с изкуствен интелект.
🔗 Какво означава да се възприеме холистичен подход към изкуствения интелект
Разбиране на ИИ с балансирани перспективи относно етиката и въздействието.
🔗 Какво казва Библията за изкуствения интелект
Изследване на библейските перспективи за технологиите и сътворението на човека.
Бързо сравнение: Откъде черпи изкуственият интелект 📊
Не всеки източник е еднакъв, но всеки играе своята роля. Ето един общ преглед.
| Тип източник | Кой го използва (AI) | Цена/Стойност | Защо работи (или не...) |
|---|---|---|---|
| Книги и статии | Големи езикови модели | Безценен (почти) | Плътните, структурирани знания просто остаряват бързо. |
| Уебсайтове и блогове | Почти всички изкуствени интелекти | Безплатно (с шум) | Диво разнообразие; смесица от блясък и абсолютен боклук. |
| Академични статии | Изкуствени интелекти, изискващи много изследвания | Понякога е платен достъп | Строгост + достоверност, но облечени в тежък жаргон. |
| Потребителски данни | Персонализирани изкуствени интелекти | Силно чувствителен ⚠️ | Остроумно шиене, но изобилие от главоболия, свързани с поверителността. |
| Уеб в реално време | ИИ, свързани с търсене | Безплатно (ако е онлайн) | Поддържа информацията актуална; недостатък е рискът от разпространение на слухове. |
Вселената от данни за обучение 🌌
Това е фазата на „учене в детството“. Представете си, че давате на дете милиони книжки с приказки, изрезки от новини и „заешки дупки“ от Уикипедия наведнъж. Ето как изглежда предварителното обучение. В реалния свят доставчиците събират публично достъпни данни, лицензирани източници и генериран от обучители текст [2].
Наслоени отгоре: подбрани човешки примери - добри отговори, лоши отговори, подтиквания в правилната посока - преди дори да започне подсилването [1].
Условие за прозрачност: компаниите не разкриват всеки детайл. Някои предпазни мерки са секретност (интелектуална собственост, опасения за безопасност), така че получавате само частичен поглед върху действителната ситуация [2].
Търсене в реално време: Допълнителният топинг 🍒
Някои модели вече могат да надникнат извън обучителния си „балон“. Това е генериране с добавено търсене (RAG) – основно извличане на части от активен индекс или хранилище за документи, след което вплитането им в отговора [5]. Идеално за бързо променящи се неща като заглавия на новини или цени на акции.
Проблемът? Интернетът е едновременно гениален и евтин. Ако филтрите или проверките за произход са слаби, рискувате да се промъкнат обратно ненужни данни – точно за това предупреждават рамките за управление на риска [3].
Често срещано решение: компаниите свързват моделите със собствените си вътрешни бази данни, така че отговорите цитират текуща HR политика или актуализирана продуктова документация, вместо да се правят ексцентрични изказвания. Помислете: по-малко „о-о“ моменти, повече надеждни отговори.
Фина настройка: Стъпка за полиране на ИИ 🧪
Суровите, предварително обучени модели са тромави. Затова те се настройват фино :
-
Да ги научим да бъдат полезни, безобидни, честни (чрез обучение с подсилване от човешка обратна връзка, RLHF) [1].
-
Шлайфане на опасни или токсични ръбове (подравняване) [1].
-
Приспособяване към тона – независимо дали е приятелски, официален или закачливо саркастичен.
Не става въпрос толкова за полиране на диамант, колкото за предизвикване на статистическа лавина, за да се държиш по-скоро като събеседник.
Неравностите и провалите 🚧
Нека не се преструваме, че е безупречно:
-
Халюцинации - ясни отговори, които са откровено грешни [2][3].
-
Пристрастие - то отразява модели, вградени в данните; дори може да ги усили, ако не е контролирано [3][4].
-
Няма опит от първа ръка - може да говори за рецепти за супа, но никога не е опитвала такава [4].
-
Прекалено самоуверен - прозата тече сякаш знае, дори когато не е така. Рамките за управление на риска наблягат на маркирането на допускания [3].
Защо се чувстваш сякаш знаеш 🧠
То няма вярвания, няма памет в човешкия смисъл и със сигурност няма „аз“. И все пак, тъй като нарежда изреченията гладко, мозъкът ви го чете, сякаш разбира . Това, което се случва, е просто мащабно предсказване на следващия символ : обработка на трилиони вероятности за части от секундата [2].
„Интелигентният“ ефект е свързан с възникващо поведение – изследователите го наричат, леко шеговито, ефект на „стохастичния папагал“ [4].
Аналогия, подходяща за деца 🎨
Представете си папагал, който е прочел всяка книга в библиотеката. Той не разбира историите, но може да преработи думите в нещо, което изглежда мъдро. Понякога е точно; понякога е глупост - но с достатъчно усет не винаги можете да различите.
Заключение: Откъде идва информацията за изкуствения интелект 📌
Казано по-просто:
-
Масивни данни за обучение (публични + лицензирани + генерирани от обучители) [2].
-
Фина настройка с човешка обратна връзка за оформяне на тон/поведение [1].
-
Системи за извличане на данни , когато са свързани към потоци от данни в реално време [5].
Изкуственият интелект не „знае“ нещата – той предсказва текст . Това е едновременно неговата суперсила и ахилесовата му пета. В крайна сметка? Винаги проверявайте важните неща спрямо надежден източник [3].
Референции
-
Ouyang, L. et al. (2022). Обучение на езикови модели за следване на инструкции с човешка обратна връзка (InstructGPT) . arXiv .
-
OpenAI (2023). Технически доклад GPT-4 - смесица от лицензирани, публични и създадени от човека данни; цел и ограничения за прогнозиране на следващия токен. arXiv .
-
NIST (2023). Рамка за управление на риска, свързан с изкуствения интелект (AI RMF 1.0) - произход, надеждност и контрол на риска. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Върху опасностите от стохастичните папагали: Могат ли езиковите модели да бъдат твърде големи? PDF .
-
Lewis, P. et al. (2020). Генериране с добавено търсене за интензивно НЛП . arXiv .