117просмотров
100.0%от подписчиков
18 февраля 2026 г.
stats📷 ФотоScore: 129
Уже 90 / 95 / 99 / 99.9 % всего контента написано ИИ.
ИИ берет написанный собой текст для самообучения.
Тема ИИ на хайпе уже несколько лет и как любая хайповая тема является объектом домыслов, мифов, заблуждений и подмены понятий. Взять, например, самое распространенное заблуждение: под ИИ стали понимать исключительно LLM и генераторы картинок. Хотя "классический" символьный ИИ существует с тех пор, как существуют ЭВМ, и никуда не денется еще долгие годы.
Символьный ИИ - это такой алгоритм, который основывается на правилах, прописанных человеком. Не будет слишком грубым допущением называть ИИ вообще любой программный алгоритм. Например, вычисление корня из числа или поведение "врагов" в компьютерных играх.
Новая серия постов будет посвящена самым распространенным мифам об ИИ, в которых я постараюсь объяснить сложное простым языком. У меня уже подготовлен список кричащих новостных статей о том, какой ИИ коварный, глупый и бесполезный. Первые на очереди мифы о доминировании в интернете информации, созданной ИИ, и об использовании этого материала для дальнейшего самообучения. Разберемся, что с этим не так. Первый вопрос, который авторы обычно сами себе не задают: что вообще считать "контентом, созданным ИИ"? Есть огромная разница между "Напиши статью на [тему] с ярким кликбейтным заголовком и провокационной подачей" и "Вот мой черновик, проверь грамматику, пунктуацию и синтаксис". Во втором случае автор все еще человек, просто использующий современный инструмент. Это как называть "ИИ-текстом" все, что было написано в Word - там ведь есть проверка правописания. А текст на бумаге написан не человеком, а ручкой (он, в общем-то, и написан ручкой, но вы меня поняли). Второй важный момент: откуда вообще берутся эти проценты? как их считали? Чтобы точно заявить, что 90% или тем более 99% текстов пишут нейросети, нужно проанализировать неплохой такой объем данных. Даже если взять выборку вроде Common Crawl (это такой гигантский архив интернетов), остается вопрос: по каким признакам отличать текст ИИ? Более того - большая часть текста имеет технический характер и не несет в себе явно полезной информации. Например, кэш, логи, разметка и т.п.
Кстати, отступление в сторону. Если покопаться в памяти, то лет пять назад, задолго до всяких GPT и, выдача по любому техническому запросу уже была забита однотипными, бесполезными статьями, повторяющимися от сайта к сайту. Тогда-то кто писал? Люди. Проблема "чтива" существует столько же, сколько существует интернет.
И наконец, самое интересное - про самообучение. Обучение большой модели - это сложный инженерный процесс. Специалисты собирают датасеты, причем используют не только "интернет", но и книги, научные статьи, исторические документы, программный код. Да, в этих датасетах действительно много веб-данных, но при подготовке датасета стоит задача отфильтровать его, очистить от дубликатов и явного мусора. Модель не бродит по сайтам "сама" - она ест только то, что ей дали инженеры, и именно так, как они посчитают нужным. Нейросеть - это не самостоятельный субъект, который сидит на реддите и впитывает мудрость оттуда. Если взаимодействие с LLM доступно через интернет, это не значит, что он "прописался" там самостоятельно. Мифы про ИИ возникают из-за того, что мы не всегда до конца понимаем технологию. Нам проще представить Скайнет, который строит козни и плетет интриги, чем разобраться в сложных деталях датасетов, RAG и MCP. Но дьявол, как обычно, как раз в этих деталях. #llm #мифы #хайп #ИИ