Штучний інтелект навчають на “сімейних” роликах YouTube: дослідження вчених Масачусетського університету

27/06/2024

Використання архіву YouTube для навчання мовних моделей штучного інтелекту створює потенційну загрозу конфіденційності особистих відеозаписів, стверджує старший науковий співробітник Ініціативи з цифрової громадської інфраструктури Массачусетського університету в Амгерсті, Райан МакГрейді.

Революція штучного інтелекту потребує даних. OpenAI та Google почали використовувати відеоролики з YouTube для навчання своїх текстових моделей штучного інтелекту. Але що насправді включає в себе архів YouTube?

Команда дослідників цифрових медіа з Массачусетського університету в Амгерсті зібрала та проаналізувала випадкові зразки відеороликів з YouTube для кращого розуміння цього архіву. Вчені опублікували 85-сторінковий документ про це дослідження та створили веб-сайт TubeStats для фахівців та журналістів, які потребують базової інформації про YouTube.

Тепер можна розглянути деякі з найбільш вражаючих результатів, щоб зрозуміти, як ці маловідомі відео можуть впливати на потужні системи штучного інтелекту. Вчені виявили, що багато відеороликів на YouTube призначені для особистого використання або для невеликих груп людей, і значна частина з них була створена дітьми молодше 13 років.

Вершина айсбергу YouTube

Дослідження полягає в тому, що досвід більшості користувачів контролюється алгоритмами: до 70% відео, які переглядають користувачі, рекомендуються алгоритмами сайту. Рекомендації, як правило, стосуються популярного контенту, такого як ролики відомих особистостей, новинні огляди, пояснювальні відео, відеоблоги про подорожі та огляди ігор. В той же час контент, який не потрапляє у рекомендації, залишається маловідомим.

Деякий контент на YouTube імітує популярних авторів або вписується у стандартні жанри, але більшість відео мають особистий характер: сімейні свята, відео під музику, домашні завдання, фрагменти ігор без контексту та дитячі танці. Невідома сторона YouTube, на більшій частині з 14,8 мільярдів відеороликів, завантажених на платформу, погано досліджена.

Дослідники виявили, що багато відео на YouTube ніколи не були призначені для широкого поширення. Вони задокументували тисячі коротких особистих відеороликів з низькою кількістю переглядів, але високою активністю (лайки і коментарі), що свідчить про малу, але дуже зацікавлену аудиторію. Очевидно, що такі відео створювалися для обмеженого кола друзів і родини. Це соціальне використання YouTube контрастує з відео, які намагаються максимізувати свою аудиторію, пропонуючи альтернативний погляд на використання платформи як відео-орієнтованої соціальної мережі для малих груп.

Інші відео були призначені для іншої обмеженої, статичної аудиторії: записи віртуальних уроків під час пандемії, засідання шкільних рад і робочі зустрічі. Хоча це не те, що зазвичай вважається соціальним використанням, вони також показують, що їхні автори мають інші очікування щодо аудиторії, порівняно з авторами контенту, який потрапляє у рекомендації користувачів.

Паливо штучного інтелекту

Вчені уважно вивчили розслідування The New York Times про те, як OpenAI та Google звертаються до YouTube у пошуках нових джерел даних для навчання своїх великих мовних моделей. Архів стенограм YouTube є унікальним набором даних для текстових моделей.

Також існують припущення, частково викликані ухильними відповідями технічного директора OpenAI Міры Мураті, що самі відеоролики можуть бути використані для навчання моделей штучного перетворення тексту в відео, таких як Sora від OpenAI.

Стаття в New York Times викликала обурення стосовно умов використання YouTube та авторських прав, які стають центральними у дебатах про штучний інтелект. Проте є й інші проблеми: звідки можна знати, що насправді міститься в архіві з більш ніж 14 мільярдів завантажених відеороликів? Це не зовсім зрозуміло, і, можливо, Google навіть не має повного уявлення про це.

Малі дані, великий вплив

Цікаво припустити, що OpenAI використовує популярні відеоролики або телевізійні програми, завантажені на платформу, для навчання своїх моделей. Проте попередні дослідження показують, що найпопулярніший контент не завжди має найбільший вплив на навчання штучних інтелектуальних моделей. Проста розмова між трьома друзями може мати набагато більшу лінгвістичну цінність для навчання мовної моделі чат-бота, ніж музичне відео з мільйонами переглядів.

На жаль, компанії, що займаються штучним інтелектом, не роблять прозорими свої навчальні дані. Вони не вказують, які дані включені в навчання штучних інтелектуальних систем. Дослідники часто можуть виявляти проблеми з даними на основі систематичних помилок у результатах цих систем. Наприклад, у звіті Human Rights Watch від 10 червня 2024 року показано, що популярний набір даних для навчання містить багато фотографій впізнаваних дітей.

Турбота про використання користувацького контенту для навчання штучних інтелектуальних моделей часто пов'язана з питаннями інтелектуальної власності. Проте також існують проблеми з конфіденційністю. YouTube є великим архівом, який неможливо повністю переглянути.

З огляду на останні ініціативи щодо регулювання штучного інтелекту та пропозиції про всеосяжне законодавство про конфіденційність, існує надія на посилення захисту даних користувачів.