Футурологи и визионеры предрекают скорый скачок цивилизации в эру AGI – яркий, как взрыв сверхновой, может быть, болезненный и без анестезии.

Облик цифрового мира меняется молниеносно, буквально каждую неделю.

«Агенты» Deep Research за 5-30 минут, обрабатывая за это время тысячи источников, научились компилировать информацию на чрезвычайно сложные темы. Вместо найма людей-экспертов для исследования рынка, которое обходится от $500 до $5000, корпорации и частные лица смогут получать точные ответы, отправляя LLM всего пару запросов.

Судя по бенчмарку Huanity's Last Exam, Deep Research выдает поразительно точные прогнозы. По самым поверхностным расчетам, «агенты» обеспечат бенефициарам внедрения ИИ экономию миллиардов долларов.

Во многих тестах новая LLM GPT-o3 превосходит многих (но еще не всех) экспертов-людей. Кроме того, она совершает прорыв в ключевом тесте на абстрактное мышление, который многие эксперты до недавнего времени считали абсолютно недостижимым для машин.

Альтман обещает, что только один его продукт – Deep Research –  способен автоматизировать единицы процентов ВВП крупных государств.

Цукерберг пишет, что Meta (запрещена в РФ — прим. IT) закончили претрейн Llama4 mini, и что полномасштабная Llama4 станет omni-моделью (как GPT-4o) и будет обладать теми же свойствами «агентов», что и Сlaude Sonnet.

 

 

Как же понять, почему в многоступенчатых расчетах искусственный интеллект, который, как уверяют премиум-эксперты, не ошибается, довольно смешно пробуксовывает в ответах на простые вопросы?

Почему большие языковые модели пасуют перед несложными задачами?

Сформируем на https://llmarena.ru/ такой промпт:

«можно ли наполнить водой пустой металлический сосуд, в котором нет дна и полностью запаяна верхняя его часть».

Короткий ответ — невозможно — у  YandexGPT 4 Pro.

Ответ Сlaude-3-5-Sonnet — невозможно — по результату довольно идиотский, так как логика рассуждений, по которым LLM приходит к ложному выводу, избыточна  и пространна.

 GPT-4-turbo-2024-04-09 порадовала: да, можно, только методы, что предлагает эта славная нейронка, здорово удручают: капиллярный эффект, конденсация, погружение в воду.

DeepSeek R1 думала дольше всех, но ее вердикт был столь  же однозначен: «невозможно, и вот по каким причинам...». И так — все.

Просто перевернуть сосуд  модели LLM не догадались.

Кто здесь кого на…м-м вводит в заблуждение?

Rate this item
(0 votes)
Read 295 times
Tagged under

О нас

Журнал IT News+ Чувашия — старейшее печатное издание посвященное высоким технологиям, выходящие более 10 лет на территории Поволжья.

Наши читатели — образованные платёжеспособные люди в возрасте от 30 до 45 лет. Руководители компаний или люди занимающие высокие посты, которые следят за новинками в мире высоких технологий как в нашем городе, так и в мире. Проживающие по большей части в Чебоксарах, Москве, Санкт-Петербурге, Новочебоксарске.

Рекламные материалы отмечены знаком "Р".

 
Top
We use cookies to improve our website. By continuing to use this website, you are giving consent to cookies being used. More details…