За словами Ілона Маска, компанії, що займаються розробкою штучного інтелекту, не мають достатньо даних для навчання своїх моделей і «вичерпали» всю суму людських знань.
Найбагатша людина світу припустив, що технологічним компаніям доведеться звернутися до «синтетичних» даних – або матеріалу, створеного моделями штучного інтелекту – для побудови і доопрацювання нових систем, і цей процес вже відбувається завдяки технологіям, що швидко розвиваються, пише the Guardian.
«Сукупна сума людських знань була вичерпана в навчанні ШІ. Це сталося в основному минулого року», – сказав Маск, який запустив свій власний бізнес у сфері ШІ, xAI, у 2023 році.
Такі моделі ШІ, як модель GPT-4o, що працює на базі чат-бота ChatGPT, «тренуються» на величезному масиві даних, взятих з інтернету, де вони фактично вчаться виявляти закономірності в цій інформації, що дозволяє їм передбачати, наприклад, наступне слово в реченні.
Виступаючи в інтерв’ю, яке транслювалося в прямому ефірі на його соціальній платформі X, Маск сказав, що «єдиний спосіб» вирішити проблему нестачі вихідного матеріалу для навчання нових моделей – це перейти на синтетичні дані, створені ШІ.
Посилаючись на вичерпність сховищ даних, він сказав: «Єдиний спосіб доповнити їх – це синтетичні дані, де … він буде писати есе або придумувати тези, а потім сам себе оцінювати і … проходити через цей процес самонавчання».
Компанія Meta, власник Facebook та Instagram, використовувала синтетичні дані для доопрацювання своєї найбільшої AI-моделі Llama, а Microsoft також використовувала штучний інтелект для своєї моделі Phi-4. Google і OpenAI, компанія, що стоїть за ChatGPT, також використовували синтетичні дані у своїй роботі зі штучним інтелектом.
Однак Маск також попередив, що звичка АІ-моделей генерувати «галюцинації» – термін для позначення неточних або безглуздих результатів – становить небезпеку для процесу роботи з синтетичними даними.
В інтерв’ю, яке транслювалося в прямому ефірі з Марком Пенном, головою рекламної групи Stagwell, він сказав, що галюцинації зробили процес використання штучного матеріалу «складним», тому що «звідки ви знаєте, чи це … галюцинація відповіді, чи це справжня відповідь».
Ендрю Дункан, директор відділу фундаментальних досліджень ШІ британського Інституту Алана Тюрінга, сказав, що коментар Маска збігається з нещодавньою науковою статтею, в якій стверджується, що загальнодоступні дані для моделей ШІ можуть вичерпатися вже у 2026 році. Він додав, що надмірна залежність від синтетичних даних може призвести до «колапсу моделі» – терміну, що означає погіршення якості результатів роботи моделей.
«Коли ви починаєте годувати модель синтетичними даними, ви починаєте отримувати все меншу віддачу», – сказав він, з ризиком того, що результати будуть упередженими і позбавленими творчого підходу.
Дункан додав, що зростання кількості контенту, створеного штучним інтелектом в Інтернеті, також може призвести до того, що цей матеріал буде поглинений навчальними наборами даних для штучного інтелекту.
Високоякісні дані та контроль над ними – одне з правових полів битви в бумі штучного інтелекту. Торік OpenAI визнала, що створення таких інструментів, як ChatGPT, було б неможливим без доступу до захищених авторським правом матеріалів, а креативні індустрії та видавці вимагають компенсації за використання їхньої продукції в процесі навчання моделей.
Нагадаємо, Уряд дозволив використовувати штучний інтелект у “Дії”