или торговали на улице лепешками-чапати. Поскольку цепочка процессов по разработке ИИ разбита на маленькие фрагменты, многие сотрудники
Sama плохо представляют себе, какую коммерческую ценность имеет итоговый продукт, который они помогают создавать (или не представляют этого вовсе). Но они понимают, что участвуют в обучении программ для наиболее продвинутых технологических приложений в сферах навигации, социальных сетей, электронной коммерции и дополненной реальности.
Компания OpenAI, создавшая ChatGPT, привлекала сотрудников Sama для категоризации и разметки десятков тысяч текстовых фрагментов проблемного и натуралистичного содержания, включая описания сексуальной эксплуатации несовершеннолетних, убийств, самоубийств и инцеста. Проведенная работа помогает ChatGPT распознавать, блокировать и фильтровать соответствующий контент.
Работая в группах, в каждую из которых входит около двадцати человек, агенты целый день аннотируют данные, делая лишь два перерыва по строгому графику, чтобы поесть и попить. Им также разрешается ходить в туалет, но в остальное время они должны сидеть за компьютером. Руководители групп более свободны: они передвигаются от стола к столу и наблюдают за работой подчиненных. На конце каждого ряда рабочих мест сидит контролер, который выборочно проверяет качество работы сотрудников.
Когда приходит время обеденного перерыва, агенты с шумом спускаются вниз, в столовую, не обращая внимания на знаки «Соблюдайте тишину!», и выстраиваются в очередь за едой. Сегодня на обед тушеная говядина с приправленным кориандром рисом, шинкованной капустой в соевом соусе и мукимо – кенийским картофельным пюре с овощами. На бумажных тарелках разложены кусочки арбуза. Все едят вместе.
Я взяла себе еду и выбрала длинный стол, за которым оживленно беседовали разные сотрудники, включая агентов, руководителей групп и линейных менеджеров. Менеджер Лилиоса, которой около сорока, оценивает влияние компании на жизнь агентов. Она завела речь о колониализме, британской королевской семье и выборах в Кении. На досуге она пишет хип-хоп-мюзикл о кенийском борце за свободу, который восстал против британцев. «Политика – наша культура. И она имеет родоплеменной характер: каждое племя хочет, чтобы именно его представители оказались у руля, – сказала она. – Но молодежь это не заботит – они просто хотят иметь доступ в интернет, работу и деньги».
После обеда столовая быстро опустела. Я тоже вернулась на этаж, где происходит разметка данных. Один юноша просматривал десятки фотографий зданий со всего мира, оценивая, старинные на них постройки или современные. Он также проходился по нескольким пунктам, описывая каждое изображение: его настроение, насыщенность, резкость и тон. Щелк, щелк, щелк. У него на экране я увидела изображение древнего японского буддистского храма в Токио, стоящего за телеграфной вышкой. Он решил, что на картинке есть и старина, и современность, и выбрал соответствующий вариант.
Как я узнала позже, каждый щелчок помогает обучать алгоритмы, которые классифицируют изображения для платформы Material Bank, где можно искать и заказывать образцы архитектурных и дизайнерских материалов. Цель состоит в том, чтобы создать объективный инструмент для поиска наиболее релевантной информации. В итоге, когда вам понадобится найти конкретный строительный материал или архитектурный стиль, алгоритм будет выдавать вам идеальную подборку полезных примеров.
Как сотрудник понимает, что правильно разметил данные? «Иногда это бывает нелегко, – говорит он. – Тогда приходится полагаться на чутье».
Призрак в машине
В стремлении к созданию разумных машин со сверхчеловеческими способностями нет ничего нового. В одной еврейской легенде, возникшей в начале XX века, рассказывается о Големе – бездушном гуманоиде, в которого пражский раввин Лёв вдохнул жизнь, чтобы защитить местных евреев от антисемитских гонений.
Легко предугадать, что случилось дальше: Голем вышел из-под контроля, и его создателю пришлось уничтожить собственное детище. Эта история перекликается с «Франкенштейном» Мэри Шелли, одним из первых современных романов в жанре научной фантастики, а также с последними новостями об ИИ, в которых все чаще высказываются опасения, связанные с тем, что однажды ИИ может стать неуправляемым.
Существующий сегодня ИИ – скорее не автономная, а вспомогательная технология. Примерно с 2009 года технологический бум подпитывается огромными объемами данных, которые генерируются при нашем интенсивном использовании подключенных к сети устройств и интернета, а также растущей мощностью кремниевых микросхем. В частности, это привело к активному развитию подтипа ИИ, называемого машинным обучением, и в свою очередь его разновидности, глубокого обучения – широких классов методов, с помощью которых компьютерные программы учатся находить статистические взаимосвязи в огромных наборах данных, будь то слова, числа, изображения или строки кода.
Один из способов обучать ИИ-модели выявлять закономерности состоит в том, чтобы показывать им миллионы размеченных примеров. Для этого людям необходимо тщательно аннотировать все используемые данные, чтобы компьютеры могли их проанализировать. Без этого алгоритмы, лежащие в основе беспилотных автомобилей и систем распознавания лиц, останутся слепыми. Они не увидят закономерностей в данных.
Сегодня созданные подобным образом алгоритмы помогают людям принимать решения – или принимают их самостоятельно – в таких сферах, как медицина, уголовное право, общественное благосостояние, ипотечное и потребительское кредитование. Новейший тип ИИ-программ – порождающий ИИ – создает слова, картинки и код. Это превращает ИИ-системы в творческих ассистентов, которые помогают учителям, финансистам, адвокатам, художникам и программистам, становясь их соавторами.
Разрабатывая ИИ, ведущие компании Кремниевой долины конкурируют за лучших специалистов в области компьютерных технологий и платят сотни тысяч долларов молодым кандидатам наук. Но чтобы обучать свои системы и внедрять их в эксплуатацию с помощью реальных данных, эти же корпорации обращаются к таким компаниям, как Sama, где работают целые армии низкооплачиваемых сотрудников, которые обладают базовой цифровой грамотностью, но не имеют стабильной занятости.
Sama не единственная подобная компания в мире. В этой растущей отрасли, капитализация которой к 2030 году, как ожидается, достигнет 17 трлн долларов, работают такие стартапы, как Scale AI, Appen, Hive Micro, iMerit и Mighty AI (которым теперь владеет Uber), а также более традиционные ИТ-компании, включая Accenture и Wipro{10}.
В силу огромного объема данных, которые необходимо разметить ИИ-компаниям, большинство стартапов привлекают рабочую силу из стран, где труд стоит дешево. В результате сотни работников вроде Иэна и Бенджи сортируют и интерпретируют данные, которые затем используются для обучения ИИ-систем.
Вынужденные покинуть свою страну сирийские врачи тренируют медицинские программы, которые помогают диагностировать рак простаты в Британии. Выпускники венесуэльских колледжей, которые не могут найти работу из-за охватившей страну рецессии, сортируют модные товары для интернет-магазинов{11}. Обездоленные женщины из бедного мусульманского района Метиабруз в Калькутте размечают голосовые сообщения для умной колонки Amazon Echo{12}. Своей работой они раскрывают и без того довольно очевидный секрет так называемых систем искусственного интеллекта – технологии не «учатся» самостоятельно, а нуждаются в миллионах людей, которые их на самом деле обучают. Специалисты по обработке данных – бесценные человеческие звенья во всемирной цепочке процессов