Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова

Name: Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса
Author: Светлана Бова

На нашем литературном портале можно бесплатно читать книгу Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова, Светлана Бова . Жанр: Экономика. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале litmir.org.

Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова

Жанр: Книги / Книги о бизнесе / Экономика

Название: Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса

Автор: Светлана Бова

Дата добавления: 30 июнь 2026

Количество просмотров: 3

Читать онлайн

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса читать книгу онлайн

Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - читать бесплатно онлайн , автор Светлана Бова

В 1999 году аппарат NASA за 125 миллионов долларов сгорел в атмосфере Марса из-за того, что две команды использовали разные метрики. Ваша компания ежедневно рискует не меньше. Если отчеты не сходятся, бизнес и ИТ говорят на разных языках, а внедрение модного ИИ превращается в сжигание бюджетов, данные становятся токсичным активом, который приводит к системным ошибкам.
Светлана Бова, Алексей Луковников и Наталья Стрекаль — руководители по данным (CDO) с совокупным опытом более 50 лет в ВТБ, «Сбере», Банке России и консалтинге. В этой книге они делятся реальной практикой управления корпоративной информацией без отрыва от бизнеса.
Прочитайте это руководство, чтобы узнать, как вы теряете деньги из-за хаоса в данных и как это исправить.

ВПЕРЕД

Перейти на страницу:

записанных в реальной жизни. Можно сгенерировать записи видеокамер и натренировать ИИ-алгоритмы на них.

Но не все синтетические данные одинаково полезны. Если применять их бесконтрольно, происходит коллапс модели, она может выродиться и сильно потерять в качестве[85]. Поэтому ученые пытаются разработать правила использования синтетических данных на практике. И все с той же целью: идти вперед в гонке вооружений XXI века.

Еще есть вариант переобучить модель не на всех подряд данных в интернете, а только на достоверных. Ведь не все, что написано на форумах, правда. Конечно, тут нужно постараться. И необходимо время, а «гонку вооружений» пока никто не поставил на паузу. Но это действительно может быть решением, особенно для догоняющих ИИ-держав.

И здесь — вуаля — можно полагаться на методы управления данными, в которых мы с вами разбирались на протяжении всей книги.

Функция управления данными, которая еще недавно прозябала на задворках ИТ-департаментов, рядом с архивом и техподдержкой, вдруг выходит из тени и переезжает из душного подвала с серверами в светлые залы заседаний. Ведь именно здесь, на уровне управления данными, решается, смогут ли государственные и корпоративные массивы данных стать тем самым качественным фундаментом для ИИ-лидерства и принести России до 11 трлн руб. нового ВВП[86] к 2030 году или так и останутся грудой битов, которая только пылится и требует денег на свое хранение.

Не важно, строите ли вы основу основ для всей страны — фундаментальную LLM — или собираетесь применять ее на своих датасетах (наборах данных). Данные для ИИ — в любом случае ядро мира будущего, в котором ИИ играет значимую роль[87].

«Но какое отношение это имеет ко мне?» — спросите вы. Если вы не автор-разработчик больших языковых моделей, а, например, руководитель бизнеса, который смотрит на всю эту историю со стороны, у вас наверняка возникает закономерный вопрос: «А мне-то что со всем этим делать?»

Вопросов на самом деле несколько, и все они конкретные и болезненные.

Как не упустить выгоду от применения лучших LLM в мире? Тех, что создают OpenAI, Google, Anthropic, — они ведь реально умные, удобные, многофункциональные. Конкуренты уже встраивают их в свои продукты, экономят на поддержке, ускоряют разработку. Что же вам просто сидеть и смотреть?

И тут же второй вопрос: как сохранить данные о своем бизнесе? Ведь когда вы загружаете коммерческое предложение или договор в бесплатный ChatGPT, вы на самом деле отправляете эти данные на серверы в другую страну. Где они хранятся, как используются, не пойдут ли на дообучение модели, а потом не всплывут ли где-нибудь еще? Или вообще будут раскрыты по требованиям иностранного суда? Никто не даст вам стопроцентной гарантии.

Может, вообще забыть про иностранные модели и сразу ориентироваться на отечественные? Но здесь возникает третий вопрос: достаточно ли текущего уровня качества национальных LLM для наших потребностей? Они хорошо справляются с простыми задачами, но для сложных сценариев, глубокой аналитики, работы с узкими темами — не проигрывают ли западным аналогам? И если проигрывают, то насколько это критично?

Честный ответ: однозначного решения здесь нет. И любой, кто обещает вам простое «делайте так», скорее всего, лукавит или не до конца понимает проблему.

Поговорим об этом в материале про этику и риски. А пока осознаем, что делать со всей этой информацией бизнесу.

ЧТО ДЕЛАТЬ CDO

1. Будьте в курсе текущего положения страны и ее национальных LLM-моделей в гонке вооружений ИИ. Заведите радар технологий. Это поможет вам принимать бизнес-решения осознанно, а не плыть по течению. Даже если это будут решения о том, чтобы оставить все как есть.

2. Займитесь повышением качества данных при создании национальных LLM, если вы имеете к ним отношение. Или качеством данных и их описания в дата-каталогах, если вы собираетесь применять эти модели на практике в вашем бизнесе.

3. Надейтесь на лучшее. Ведь в теме ИИ многое зависит не от вас, а от темпов развития фундаментальной науки. Если, конечно, вы не имеете к ней непосредственного отношения.

Этика данных и риски: когда количественный рост упирается в стену

Итак, как мы сказали выше, до недавнего времени развитие больших языковых моделей шло по накатанной: больше данных, больше параметров, больше вычислительных мощностей — и модель умнеет прямо на глазах. Это работало как часы. Инженеры Google, OpenAI и других лабораторий скармливали алгоритмам терабайты текстов из интернета, книг, научных статей, и модель впитывала все, как губка. Казалось, этот процесс может продолжаться бесконечно.

Но сегодня мы упираемся в стену. Данные заканчиваются.

Не в том смысле, что в мире перестали писать тексты. А в том, что качественные, размеченные, пригодные для обучения массивы — особенно на редких языках или в узких доменах — стали дефицитом. Количество уже не переходит в качество автоматически. Моделям нужны не просто горы данных, а информация структурированная, проверенная, репрезентативная. И, что немаловажно, легально полученная.

Кай-фу Ли, один из самых авторитетных экспертов в области ИИ, описывает эволюцию ИИ через четыре волны, которые уже накрывают или скоро накроют мир.

Первая волна — ИИ интернета. Это алгоритмы рекомендаций в соцсетях, поисковики, таргетированная реклама. Здесь данные — наши клики, лайки, просмотры. Эта волна уже полностью вошла в нашу жизнь.

Вторая волна — ИИ бизнеса. Мы находимся в ней прямо сейчас. Это когда компании начинают использовать ИИ не только для рекомендаций, но и для управления запасами, оптимизации логистики, прогнозирования спроса, автоматизации рутинных процессов. Именно здесь данные становятся не просто «цифровым следом», а реальным активом бизнеса, влияющим на операционную эффективность.

Третья волна — ИИ восприятия. Машины начинают понимать не только текст, но и изображения, звуки, видео на уровне, близком к человеческому. Это уже происходит: системы распознавания лиц, голосовые помощники, диагностика по снимкам. Но расцвет третьей волны ИИ еще не наступил.

Четвертая волна — ИИ автономности. Роботы, беспилотные автомобили, дроны, которые принимают решения без участия человека. Здесь данные нужны уже не только для обучения, но и для работы в реальном времени, в реальном мире.

Каждая следующая волна требует все больше данных, причем все более качественных. И каждая следующая волна острее ставит вопрос: а откуда, собственно, эти данные брать?

ЛЕГАЛЬНОСТЬ КАК НОВОЕ УЗКОЕ ГОРЛЫШКО

OpenAI и другие компании-лидеры долгое время действовали по принципу «сначала захватить рынок, а с юристами разберемся потом». Они собирали данные отовсюду: из открытых интернет-архивов, книг, статей, форумов, часто не слишком задумываясь о том, кто автор этих текстов и на каких условиях они опубликованы[88].

И вот теперь разбирательства начались.

Японские