/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №160

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №160 /llama/ Аноним 22/08/25 Птн 15:57:35 № 1329142 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 481Кб, 1520x2266

17552135584000.mp4 6643Кб, 1280x720, 00:00:05

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1326416 (OP)
>>1323697 (OP)

Аноним 22/08/25 Птн 16:02:46 № 1329146 2

The base of THREADE

Твой персонаж не сможет сказать нет, если он не умеет разговаривать .

Аноним 22/08/25 Птн 16:10:33 № 1329150 3

>>1329146
А ещё кстати, хотя некоторые модели имеют сильный байас в сторону юзера, его можно почти полностью элиминировать в рп когда в рп НЕТ юзера - постов содержащих "я, мне, мой, моё (итд)" вне диалогов, а есть просто ряд персонажей.

И конечно при условии что модели не запрещается писать за кого-то из них.

Аноним 22/08/25 Птн 16:11:56 № 1329151 4

>>1329146
> Ты глухонемая хорни кошкодевочка которая может только мычать

Аноним 22/08/25 Птн 16:12:55 № 1329152 5

>>1329150
Мне еще нравится наитупейший хинт :
Если прописать в карточке, что персонаж знает все языки мира, то хоть на китайский переходи, не будет этого : и тут персонаж услышал незнакомые слова.

Аноним 22/08/25 Птн 16:15:33 № 1329154 6

>>1329150
> А ещё кстати, хотя некоторые модели имеют сильный байас в сторону юзера, его можно почти полностью элиминировать в рп когда в рп НЕТ юзера - постов содержащих "я, мне, мой, моё (итд)" вне диалогов, а есть просто ряд персонажей.
К сожалению, это не так. Всегда пишу от третьего лица, не помогает. Возможно, проблема смягчается, но точно не решается "почти полностью".

Аноним 22/08/25 Птн 16:21:05 № 1329160 7

>>1329154
Видимо зависит от самих промтов и контекста.

А, ну возможно ещё тема в том что я пишу завершёнными сегментами.

Аноним 22/08/25 Птн 16:22:49 № 1329164 8

Руки чесались купить 4-ю видеокарту, но потом я вспомнил, что вставлять ее некуда.

Аноним 22/08/25 Птн 16:33:12 № 1329176 9

>>1329146
Я на этот случай держу армированный скотч.
>>1329164
Меняй плату на плату с бифукацией. Уже есть варианты на AM5 с 4 подключениями к процу (и ещё парочка чипсетных).

Аноним 22/08/25 Птн 16:36:28 № 1329179 10

>>1329176
Да я про корпус. Бифуркация и так есть, я же вставил три карточки.

Аноним 22/08/25 Птн 16:39:36 № 1329183 11

>>1329179
> я же вставил три карточки.
Это не говорит что есть бифуркация. На матери в основной пеке 4 псины и 3 нвме

Аноним 22/08/25 Птн 16:44:00 № 1329185 12

>>1329183
У меня х8/4/4 + х4, но ссюка места нет... Разве что сверху на корпус класть карточку, но это всрато.

Аноним 22/08/25 Птн 16:52:36 № 1329188 13

>>1329176
>Уже есть варианты на AM5
Списочек известных материнок АМ5 для четырех видимокарт озвучьте пжалста.

Аноним 22/08/25 Птн 16:57:55 № 1329192 14

>>1329185
Пора принять взрослое решение и купить стойку.

Аноним 22/08/25 Птн 17:06:31 № 1329201 15

>>1329188
Вот тут ищи, смотри с бифукацией и слотами M2, потом гугли раскладку, в общем, дальше сам
https://docs.google.com/spreadsheets/d/1NQHkDEcgDPm34Mns3C93K6SJoBnua-x9O-y_6hv8sPs/edit?gid=2064683589#gid=2064683589
Как пример Asus ProArt X870E-Creator WiFi, зелёными цифрами обозначил процессорные слоты. Там ещё парочка чипсетных, но это уже слишком далеко.

Аноним 22/08/25 Птн 17:07:45 № 1329203 16

>>1329201
Такая же табличка для АМ4 говорит, что на моей мамке бифуркации нет. Ебало мое представь теперь.

Аноним 22/08/25 Птн 17:08:09 № 1329205 17

>>1329201
>>1329203
> что на моей мамке бифуркации нет.
(а она есть)

Аноним 22/08/25 Птн 17:10:56 № 1329209 18

>>1329141 →
>Дефолтное поведение интула на двух плашках, почитай про новшества DDR5.
Ну вот у меня 2 плашки, пишет dual channel. Что еще спизданешь про новшества DDR5, долбоеб?

Аноним 22/08/25 Птн 17:27:25 № 1329221 19

изображение.png 82Кб, 1562x333

>>1329203
Реквести изменения. Я не писал, что табличка истинна в последней инстанции. Но для первичного поиска это лучше, чем искать обзоры для каждой платы по отдельности.
>>1329209
Почитай про двуранги и одноранги и перестань позориться.
И что за парад калек на 5600? Вы блядь ебанутые, или купили память на её выходе?

Аноним 22/08/25 Птн 17:29:35 № 1329226 20

>>1329209
У тебя версия новее. Тот чел использует старую версию, не факт, что она корректно обрабатывает особенности DDR5.

Аноним 22/08/25 Птн 17:42:41 № 1329241 21

Написал враппер для huggingface-cli (у которого инвалидный интерфейс, не умеющий ни папку скачать, ни хеши почекать). Теперь просто копируешь ссылочку на квант, передаешь в скрипт и все само качается, проверяя хеши. Хорошо-то как.

Аноним 22/08/25 Птн 17:44:31 № 1329243 22

>>1329241
А испек сырники. Хорошие сырники на твороге. Пиздатые.
Кушаю сижу. Наверное какой ни будь анон сейчас еще чай пьет с французскими булочками.

Намек понятен ?

Аноним 22/08/25 Птн 17:48:43 № 1329251 23

>>1329243
Булок не, зато чая бадюль на 8 литров. Алсо почти поставил кубы на виртуалку (остался 1 шаг из инструкции), держу в курсе

Аноним 22/08/25 Птн 17:58:03 № 1329267 24

>>1329241
Жора же умеет сам

Аноним 22/08/25 Птн 18:10:47 № 1329273 25

>>1329160
А какой у тебя промпт? Что ты подразумеваешь под завершенными сегментами?

Интересно, в какой модели тебе удалось победить байас. Потому что в моем понимании это невозможно. Так же фантастично, как победить слоп, например.

Аноним 22/08/25 Птн 18:35:55 № 1329287 26

Я не доволен! =(
Одна планка заводится нормально.
Вторая планка не хочет заводиться ни соло, ни в паре!
Я 45к отдал за то, чтобы у меня одна планка не пахала или чо але.
ДНС.
Вези новый комплект, чтобы завтра утром был!

Аноним 22/08/25 Птн 18:36:43 № 1329289 27

>>1329273
>А какой у тебя промпт?
сторителлер переписанный под соавтора

>>1329273
>Что ты подразумеваешь под завершенными сегментами?
Ну, то есть модели надо продолжить историю, а не предложение / отвечать на действия юзверя.

Аноним 22/08/25 Птн 18:39:57 № 1329293 28

Странно но у меня не лезет 106гб квант в мои 96рам +24 врам
Получается надо было 128 рам брать?

Аноним 22/08/25 Птн 18:41:51 № 1329295 29

>>1329293
попробуй с опцией которая запрещает зеркалирование в рам

Аноним 22/08/25 Птн 18:47:54 № 1329300 30

>>1329289
У меня так же - инструкция продолжать нарратив, а не реагировать на действия юзера (персоны). Проблема в том, что байас не заключается в особенном отношении к юзеру. Удалив юзера из уравнения, байас модели никак не меняется. Тестировал и на гм промптах, и CYOA (текстовых приключениях), и рп с формулировкой выше. И даже в режиме продолжения истории, без дополнительных инструкций и сущностей. Модели даже в таком случае буду гнуть свою линию. Потому что байас - результат тех данных и особенностей, что вкладывались в ллмку на этапе тренировки.

Как-то из любопытства пытался начало одного и того же сценария скормить разным ллмкам с единственной инструкцией - продолжить историю, учитывая описание карточки. Персонаж - древний вампир, что тысячелетиями кушал людей. Гемма все свела к тому, что персонаж все это время испытывал душевные терзания на этот счёт и не смог скушать очередного бедолагу; Мистраль показывал что персонаж пытался сопротивляться, но не смог, и голод затмил ему разум; Коммандер во всех подробностях описал сцену пожирания крестьянина и безумную улыбку персонажа; Квены/Квк сравнили охотников и ополчение, что охотились на персонажа. Конечно, свайпил много раз, но суть все та же. Это интересно, советую попробовать.

Аноним 22/08/25 Птн 18:49:06 № 1329302 31

>>1329243
Молодец, но твой высер к этому треду не имеет отношения, так что без намеков сходи-ка нахуй

Аноним 22/08/25 Птн 18:49:22 № 1329303 32

>>1329293
Попробуй значительно больше файл подкачки поставить если ты на винде, модель распердится после запуска и нормально будет. MMAP не используй. Mlock попробуй попереключать, может запустится.

Аноним 22/08/25 Птн 18:53:44 № 1329305 33

>>1329141 →
>Дефолтное поведение интула на двух плашках
Вот только у меня 4 плашки. Я же писал.

>>1329226
>>1329221
Зачем это делать, зачем, какой смысл, господа амдблядки? Он пишет quad channel потому что у меня 4 плашки, у анона две - у него dual channel. Все просто как простая гайка.

Аноним 22/08/25 Птн 18:54:17 № 1329306 34

>>1329303
> миксовать ддр5 с файлом подкачки
Пиздец. Нахуй я обновлялся тогда

Аноним 22/08/25 Птн 18:54:19 № 1329307 35

>>1329293
--no-mmap — чтобы НЕ грузилась в оперативу та часть, которая в видео.
УБИРАЕШЬ --mlock, чтобы не держалась вся модель в оперативе железно.
Для винды так.

Аноним 22/08/25 Птн 18:55:13 № 1329309 36

>>1329306
А у меня одна не завелась плашка, ебать теперь ждать этого днса неделю, пока он на замену привезет. =( Вот тебе и 128, хули.
Не одно, так другое.

Аноним 22/08/25 Птн 18:55:51 № 1329310 37

>>1329293

Поменьше контекста поставь. И проверь - правильно ли слои раскидал. Если ты все на рам скинул - конечно он не влезет.

Аноним 22/08/25 Птн 18:57:42 № 1329311 38

>>1329307
А для чего вообще mmap/mlock сделано? Читал, но нихуя не понял в чем плюсы.

Аноним 22/08/25 Птн 19:24:41 № 1329329 39

>>1329311
Когда оперативе бьется в потолок, винда может выгрузить часть оперативы. Чтобы не выгружалась модель сделана mlock.
no-mmap в винде и линухе работает по-разному, кек, и очень ситуативно. =)
Но в общем, просто поиграйся с параметрами, должно разбиться: часть модели в видяху, остальная часть в оперативу.

Аноним 22/08/25 Птн 19:26:10 № 1329331 40

>>1329329
Все, что я вижу, когда включаю - это засирание лишней оперативки.

mlock выглядит интересно, я так понимаю это чтоб предотвратить проеб загруженной модели
mmap все еще непонятен

Аноним 22/08/25 Птн 19:42:32 № 1329340 41

>>1329287
Комплект из двух штук брал или две по одной. Если не комплект-то это норма.

Аноним 22/08/25 Птн 20:30:32 № 1329370 42

Есть идеи как заставить неиронку пиздеть про enthusiastic ongoing consent? Как эти дебилы вообще додумались притащить эту хуйню из бдсм, и потом утверждать что без консета нельзя даже фантазировать о комто. Заебали сжигать мое электричество на подобную хуйню.

Аноним 22/08/25 Птн 20:32:14 № 1329371 43

>>1329370
>Заставить пиздеть
Заставить перестать пиздеть

самофикс

Аноним 22/08/25 Птн 20:40:35 № 1329377 44

>>1329371
>Как эти дебилы вообще додумались притащить эту хуйню из бдсм
В БДСМ, даже бархатном, никто не занимается постоянным контролем и вопросами. Практика 3х да, это про предварительную договоренность и сигналы. Если ты во время развлекухи будешь отвлекаться на постоянные вопросы, то ты сломаешь атмосферу.
Не, ты должен следить за партнером, базару нет, но важно не разрушать интимную атмосферу саб/дом.

А по самому вопросу - ну напиши ты, что согласие партнера не требуется, или все по умолчанию согласны.

Аноним 22/08/25 Птн 20:59:20 № 1329397 45

Поделитесь сакральным знанием, какая модель лучше всего может в великий и могучий до 30B? Сейчас качаю большую гемму в третьем кванте, буду трогать, но может кроме нее еще что-то появилось за это время?

Аноним 22/08/25 Птн 21:01:25 № 1329401 46

>>1329397
>гемму в третьем кванте
А не лучше ли будет попробовать A3B квен с выгрузкой неактивных слоев на цпу? Я конечно не знаю, что там на третьем кванте геммы, но звучит не очень многообещающе.

Квен же вроде может в русек? Или я ебнулся...

Аноним 22/08/25 Птн 21:05:12 № 1329410 47

А как вообще реализована цензура ? Нейронка это же по сути математическая зависимость символов. Получается ценз идет уже после формирования текста. Или именно на сочетания токенов ?

Аноним 22/08/25 Птн 21:07:54 № 1329416 48

>>1329410
Индус сидит и мониторит

Аноним 22/08/25 Птн 21:12:44 № 1329420 49

>>1329401
>не лучше ли будет попробовать A3B квен
Честно скажу, пропустил всю движуху с выходом нового квена. Да и других моделей тоже. Даже не знаю что от него ждать. Помню только, что старый квен с русским вообще дружил очень плохо, да и на инглише иероглифы протекали время от времени.

>звучит не очень многообещающе
Вот сейчас как раз и проверять буду. Если будет совсем лоботомит, возьму четвертый квант.

>>1329410
>Нейронка это же по сути математическая зависимость символов.
Ну так цензура теми же зависимостями и закладывается. Не хочешь чтобы модель генерировала вредоносный или чувствительный контент - пихаешь в датасеты кучи рефьюзов в разных вариациях для разных ситуаций. Это если совсем просто объяснять.

Аноним 22/08/25 Птн 21:18:22 № 1329421 50

>>1329420
>пихаешь в датасеты кучи рефьюзов в разных вариациях для разных ситуаций
рефузы на уровне претрейна ща вроде только у гопоты и ещё какого-то говна, остальные алайнмент закладывают уже на этапе инстракта

>>1329397
>оделитесь сакральным знанием, какая модель лучше всего может в великий и могучий

Мистраль, Гемма, Мое-квен, Руадапт-квен, Янка.

Аноним 22/08/25 Птн 21:35:24 № 1329432 51

>>1329416
Да, так и есть. Однажды джейлбрейком пробился до этого индуса, посидели с ним, хорошо поговорили..

Аноним 22/08/25 Птн 21:37:39 № 1329434 52

>>1329416
Прочитал как Иисус.
Сидел, размышлял о том как я живу.

Аноним 22/08/25 Птн 21:38:27 № 1329436 53

>>1329420
>Помню только, что старый квен с русским вообще дружил очень плохо, да и на инглише иероглифы протекали время от времени.
Обновленный не протекает, и вообще неплох... но обожает писать стилем китайских новелл. С кучей образов, иносказаний, и поэзии. При этом, для РП слабоват, IMHO - модель явно пытается сбиваться с РП на полноценный рассказ (с рассказчиком и письмом за всех сразу). Чувствуется - не на РП натскивали. Вот просто писать рассказ с ним вместе - это пожалуйста.

Аноним 22/08/25 Птн 21:40:10 № 1329438 54

>>1329436
И какая же модель лучше чем qwen 235b для РП?

Аноним 22/08/25 Птн 21:41:07 № 1329440 55

>>1329438
Если я скажу что бегемот был не плох, ты же хуй без логов поверишь.

Аноним 22/08/25 Птн 21:47:01 № 1329442 56

>>1329440
Верно, мне будет сложно поверить что мистралеподелие было хорошо для РП. И параметров почти в 2 раза меньше чем у квена.

Но тут вкусовщина может быть конечно. Кому-то хочется чтобы модель прыгала на него в первом же сообщении с пустым контекстом.

Аноним 22/08/25 Птн 21:49:52 № 1329444 57

>>1329438
Речь была про 30-a3b.

Аноним 22/08/25 Птн 22:11:04 № 1329460 58

>>1329438
Никакая лол. И квен тоже говно.
Все современные ЛЛМ, даже пафосные корпы - это исключительно текстовые приключения с кучей но. Но никак не РП.
Когда научатся не проебывать даже базовые расчеты урона, тогда и поговорим.

Аноним 22/08/25 Птн 22:13:55 № 1329463 59

>>1329442
> Кому-то хочется чтобы модель прыгала на него в первом же сообщении с пустым контекстом.
Сразу видно домоседа. Бабы они такие. Рандомная блядина норовит скакнуть на хуец - это правда жизни.

Аноним 22/08/25 Птн 22:15:03 № 1329464 60

>>1329460
Кажется, ты не понимаешь что такое LLM и зачем они нужны. Урон, хп и прочее - можно легко не проебывать, просто для этого нужно соотв. RAG и/или агентов накрутить, а не вешать это на LLM.

Аноним 22/08/25 Птн 22:16:54 № 1329466 61

>>1329464
Урон, как матан лишь пример. Я могу накатать целую пасту, почему РП в текущем виде говно. Только боюсь вам это будет неинтересно, да и смысла в этом нет, так как вне ерп вы все прекрасно и сами видите.

Аноним 22/08/25 Птн 22:17:17 № 1329467 62

>Seed-OSS-36B-Instruct
Где ггуфы, блядь.

Аноним 22/08/25 Птн 22:17:43 № 1329470 63

>>1329467
Уже бегу делать, не ругайся.

Аноним 22/08/25 Птн 22:18:31 № 1329471 64

>>1329466
Ты лучше бы пошел и написал хороший промпт с системой дайс-роллов. Поди даже не знаешь, какие модели могут честно выдавать рандомные цифры, ролеплейщик тьфу.

Аноним 22/08/25 Птн 22:22:13 № 1329472 65

>>1329471
Еще раз, расчеты это просто пример. Дайсы может кидать даже мику в первом кванте.
О, я подобрал, что хочу сказать :
Нейронка делает безжизненную декорацию пустого мира.
> ролеплейщик тьфу.
Можешь не останавливаться, а сразу переходить на прямые оскорбления. Я не хочу ни в чем тебя переубеждать, если тебе норм, ну значит твои потребности нейронки закрывают.

Аноним 22/08/25 Птн 22:28:52 № 1329476 66

Аноны можете пояснить почему в треде так срут мистраль? Я не рофлю, я реально не понимаю. Она типа хуево справляется с рп или что?

Аноним 22/08/25 Птн 22:30:11 № 1329477 67

>>1329472
Я тебе выше написал, что LLM принципиально не закрывают и никогда не закроют многие потребности в РП. И не только в РП. И не должны.
Учись прикручивать к ним разные доп. сервисы, практически всё можно реализовать уже сейчас. Для неосиляторов языков программирования есть nocode платформы, на которых можно всё накрутить. Например n8n.

LДа что уж тут, даже в таверне уже можно многое накрутить.

мимошел

Аноним 22/08/25 Птн 22:33:26 № 1329479 68

>>1329476
Не обращай внимания. Мистраль очень хорошая модель, легко тюнится, многие с неё начинали. Просто некоторые при переходе на другие модели, которые больше, не могут не завалить пиздак и не написать что нибудь обидное про мистральку.
Ведь они открыли неведомую истину, оказывается модели в которых на несколько миллиардов параметров больше - умнее.

Аноним 22/08/25 Птн 22:33:55 № 1329480 69

>>1329476
Да не, неплохая модель. Просто тут сидят бояре и они уже знают плюс минус его поведение и он кажется слишком податливым и читаемым. Ну это я со своей колокольни. Модели у них неплохие, но надо добиваться разнообразия за счет промптов. Я думаю как вариант можно использовать рандомизацию за счёт бросков кубика и длинных карточек. Также с контекстом она плохо работает, относительно квена. qwq snowdrop мне кажется для рп все также наиболее годным.

Аноним 22/08/25 Птн 22:34:43 № 1329482 70

>>1329476
>Аноны можете пояснить почему в треде так срут мистраль?
Не обращай внимания. У них хронический понос - срут на все. По другому не могут.

Аноним 22/08/25 Птн 22:36:41 № 1329483 71

>>1329476
Выше я обосрал тюны мистраля, а не мистраль сам по себе. Мистраль-лардж охуенен, следующий после квена 235. Но он уже староват, достает шаблонными языковыми конструкциями, циклами, и так далее. Требует сильно больше усилий для такого же результата.

Еще, он существовал как бы одновременно с gpt-4, и был уже тогда сильно хуже. Тут, скорее, есть какие-то неоправданные ожидания.

Мистраль брали как базу для тюнов очень многие. И делали хуевые тюны. Любой тюн делает модель тупее в целом, а я лично люблю когда модель в целом более интеллектуальна, даже если хуже заточена под что-то конкретное.

Аноним 22/08/25 Птн 23:20:30 № 1329549 72

>>1329476
Всего понемногу. Отчасти потому, что многие здесь гоняют куда более серьезные модели, что в десятки раз больше 24b Мистраля. Они, естественно, дают опыт получше. Отчасти потому, что Мистраль слишком, так сказать, "народный" - альтернатив нет в пределах 12b (Гемма 12b, как я понял, не сыскала популярности), да и 24b тоже. Есть немало людей, что могут запустить 24b Мистраль, но не Гемму 27b в приличном кванте и скорости. Такая "народность" имеет обратную сторону медали - приелось. Многие видят мистрализмы (каждой модели без исключений присущи определенные паттерны) и попросту устали от его слога. В-третьих, Мистраль проще всего тюнить, потому большинство рп/кум тюнов сделаны именно на нем, и они крайне сомнительного качества. Мозгов меньше, чем у оригинальной модели, как минимум. Как максимум - персонажи ведут себя неестественно, инструкций модель хуже слушается. Короче, Мистраль... он как Кобольд. Кто понял - тот понял. Простите.

Аноним 22/08/25 Птн 23:24:22 № 1329554 73

Кстати, вы не заметили, что тюнов в последнее время вообще практически никаких не выходит? Буквально пол года назад их было до жопы, каждый день чуть ли не по десятку в день выходило. Да, качество было соответствующим, но сейчас нет даже этого.

Неужели всех кто хоть немного разбирался в этом деле прикарманили копораты? Или тренировать современные модели просто не имеет смысла из-за того что они все ужаренные и только тупеют, когда пытаешься им немного параметры подкрутить? Только не пиздите, что теперь мы живем в обществе, где локалки из коробки могут в эротические ролевые и прочее. Раньше тюнили даже жирных 70-120B уебанов, которые с этой задачей итак неплохо справлялись.

Аноним 22/08/25 Птн 23:32:08 № 1329562 74

>>1329554
> Только не пиздите, что теперь мы живем в обществе, где локалки из коробки могут в эротические ролевые и прочее.
Но ведь так и есть. Mistral Small 3.2, GLM, Квены практически без цензуры из коробки, за исключением самой жести. Какие еще доказательства нужны? Больше еще ничего и не выходило из того, что может заинтересовать ролеплейщиков. Справедливости ради, Мистраль 3.2 тюнят. В узких кругах тюнеров кто-то считает, что модель почти на уровне Лламы 70б, и можно сделать хорошо. Работают над этим прямо сейчас. GLM 32 не разгадали как тюнить, MoE модели тюнить сверхдорого и почти никто не знает как.

Также, возможно, попросту время прошло: все наигрались и замерджили-перемерджили все, что можно. Наложилось еще то, что фабрика слопа ReadyArt прикрылась: их фронтмен ушел со сцены из-за проблем со здоровьем. Но Драммер, например, продолжает работу.

Аноним 22/08/25 Птн 23:38:20 № 1329569 75

>>1328709 →
> что теслы пошли нахуй
Тут без вариантов
>>1328801 →
> почему оно автоматически не может найти лучший вариант
Запилить оценку потребления на контекст и буферы, и можно допилить скрипт чтобы иметь полное указание что пойдет куда, заодно приоритетно набивая в первую очередь самые мощные видюхи.
>>1328813 →
Оно если ничего не трогать на интеле в авто на 4800-5200 заводится на минимальном напряжении. Что-то не так.
>>1329151
> мычать
Мурчать!

Аноним 22/08/25 Птн 23:45:22 № 1329580 76

>>1329562
>практически без цензуры из коробки
Отсутствие цензуры не означает, что модель может хорошо в ролплей. Взять тот же малый мистраль - цензуры там нет, но пишет сухо и периодически пытается слиться с темы. Если не учитывать общее понимание контекста, то по сочности и красочности она проиграет какой-нибудь древнючей L3-8B-Stheno, которая да, тупая, но со своей прямой задачей описывать порнуху справляется лучше. Это то что я имел ввиду.

>возможно, попросту время прошло: все наигрались и замерджили-перемерджили все, что можно
Ну не знаю. Тюнинг это будто как раз та тема, которая всегда будет оставаться актуальной. Странно как раз то, что старички ветераны ушли, а их места никто не занял. Хотя инфы и гайдов стало больше по сравнению с теми временами, когда все тюнили вслепую.

>Но Драммер, например, продолжает работу.
Бобры вообще народ удивительный. За время своих экспериментов наверное под сотни две разных моделей выкатили, из которых удачной было штуки две максимум, не считая итерации цидонии, которые то тупели, то возвращались обратно в норму от версии к версии.

Аноним 22/08/25 Птн 23:53:05 № 1329589 77

>>1329438
Большой жлм составляет конкуренцию, квенкодер может разыграть лучше (или сфейлить), возможно новый дипсик.
>>1329476
Да норм модель, популярная, мемная. Вот когда носились с васяншизомерджами на основе еще прошлой версии и утверждали что они - манна небесная, вот это был пиздец. Забавно насколько быстро с них спрыгнули на ванильный новый и эйр.
>>1329479
> легко тюнится
Терпит надругательства дольше сохраняя работоспособность, на эту тему было несколько гипотез в том числе с распределениями значений параметров. Хороших тюнов его едва ли существуют.
>>1329554
> что тюнов в последнее время вообще практически никаких не выходит
Их в последний год оче мало. Из более менее настоящих синтия только вспоминается, может еще пара найдется. Остальное - васяновские запекания лор или всратомерджи, с которыми очень тяжело чем-то заниматься если ты не всеядный поех.
> тренировать современные модели просто не имеет смысла из-за того что они все ужаренные и только тупеют
Не совсем. Сейчас модели, которые выпускаются, имеют оче большую "плотность упаковки" и уже шлифованы всяким пост-тренингом. Орочий подход с простой прожаркой слоповым датасетом с поломанной разметкой на них уже не работает, нужен объем, разнообразие, аугментация и само по себе качество датасета. Он и раньше то неоче работал, а тут просто сразу себя являет.
> локалки из коробки могут в эротические ролевые и прочее
Да, именно так и выходит.

Аноним 22/08/25 Птн 23:55:23 № 1329594 78

>>1329580
> Отсутствие цензуры не означает, что модель может хорошо в ролплей.
Согласен. Но считаю, что все упомянутые модели очень неплохо могут в ролеплей. К тому же, ты сам здесь обсуждаешь количество тюнов, и большинство тюнов именно что "убирают цензуру" - так и указано у них в карточке. А потом один тюн, что это делает, мерджат с другим, с третьим, и пошло-поехало. Адекватных тюнов, которые именно что улучшали ролеплей способности модели, всегда было мало. В основном одни ДАРК ГЕММА БЛЭК МАРКЕТ ЕДИШЕН х ГЕММА АНСЕНСОРЕД миксы, которые будут замерджены с другими мерджами.

> Ну не знаю. Тюнинг это будто как раз та тема, которая всегда будет оставаться актуальной.
Уже как полгода не использую тюны, потому что базовые инструкты лучше следуют инструкциям, неплохо пишут, и у них отсутствует цензура в моих сценариях. Не понимаю, зачем использовать тюны. Если их незачем использовать - незачем и делать. Это не дрова в топку "ряяя васянотюны фу", а такое вот у меня мнение.

> За время своих экспериментов наверное под сотни две разных моделей выкатили, из которых удачной было штуки две максимум
Соглашусь. И считаю, что все, что дальше Кидонии 1.3 и первой 24б, только хуже.

Аноним 22/08/25 Птн 23:56:15 № 1329597 79

>>1329554
1. Лажу по морде и дискорде таверны - тюны выходят. Но без особого шума.
2. Для MN 24B один из самых известных тюнеров, львиная доля которых сюда и протекала, взял в прошлом месяце самоотвод. Потом немного вернулся, но на прошлой неделе объявил, что таки завязал и на долго. А это от него вот эти все Omega-directive, Broken-Tutu и прочее скандально известное. Другие столько не релизили. Вообще - релизеров тюнов которые столько как он релизят - банально нету. Это он один видимость такой движухи создавал. :) Обычный релизер, хорошо, если тюн в месяц выпустит. А этот просто как из пулемета строчил.
3. Для 12B - там считают, что из него уже выжали практически все, остановившись на MN-12B-Mag-Mell. Теперь, в основном, пробуют только что-то специфичное. Вот, недавно Musa вышла - спецом под адвентюры, от latitude (Ai Dungeon которые).
4. Под больше чем 24B - нужен или солидный риг, или свободные баксы в кармане на аренду GPU. И уже не центы. Так что много их в ближайшее время не ждите. Раньше - эти 70-120B пищали на 4-8K контекста, и это было еще туда-сюда. Сейчас адекватно затюнить модель с хотя бы 32K - это уже совсем другая заявочка, как по умению, так и по затратам. Ну несколько сказывается, что новые модели действительно "из коробки" несколько поумнели. Значит наверняка кому-то из тех, кто в принципе мог бы - тоже лень возится стало. Т.к. во первых соотношение затрат к результату, а во вторых - уже не первый раз, и не так интересно.

Аноним 22/08/25 Птн 23:59:42 № 1329600 80

>>1329442
>мистралеподелие
>параметров почти в 2 раза меньше
Вся суть квеношизиков. Сначала геммашизики десятки тредов ПОТУЖНО убеждали, что на ванильной модели кум льется рекой, теперь квеношизы с такими же потугами будут убеждать, что квен это серебряная пуля для хай-энд локал РП, игнорируя все проблемы и даже искажая технические вещи.

Аноним 23/08/25 Суб 00:08:03 № 1329616 81

>>1329600
Никто не писал никогда про серебряную пулю для хэй-энд локал РП, ни про Гемму, ни про Квен. Ты ее выдумал.

Аноним 23/08/25 Суб 00:14:33 № 1329625 82

>>1329589
>Орочий подход с простой прожаркой слоповым датасетом с поломанной разметкой на них уже не работает
Да судя по тому, что продолжает выходить, всё таки еще работает. По крайней мере на мистралях, ибо их так сильно не шлифуют. Слава Мистралю, единственной евроконторе, которую язык не повернется назвать пидорасами.

>>1329594
>большинство тюнов именно что "убирают цензуру" - так и указано у них в карточке.
Вроде никто так никогда и не указывал. На старых моделях проблем с цензурой не было, были проблемы именно с самим форматом ролплея. Докруты выходили чтобы зареинфорсить определенные паттерны в ответах. Попытки тупо снять цензуру и скрутить байас в обратную сторону вроде как пошли с выходом первых фи и геммы.

>>1329597
>Вот, недавно Musa вышла - спецом под адвентюры, от latitude
Муса вроде под дефолт ролплей запилили, под текстовые адвенчуры у них другая модель выходила. В любом случае, надо тоже глянуть.

Аноним 23/08/25 Суб 00:22:10 № 1329629 83

>>1329600
>Сначала геммашизики десятки тредов ПОТУЖНО убеждали, что на ванильной модели кум льется рекой
Так и есть, я до сих пор утверждаю. Всё зависит от промпта, Гемма отлично слушается, ризонинг тоже раскочегаривается промптом. Можете звать геммашизиком. Даже страшно представить насколько умная модель была бы еслиб её так не задрочили сейфти биасом и соей.

Аноним 23/08/25 Суб 00:29:26 № 1329639 84

>>1329467
>Seed-OSS-36B-Instruct
>Где ггуфы, блядь.

https://huggingface.co/yarikdevcom/Seed-OSS-36B-Instruct-GGUF
От Васяна какого-то, но если очень хочется поскорее, то можешь скачать, потом расскажешь.

Аноним 23/08/25 Суб 00:32:42 № 1329642 85

>>1329440
Это лардж, он в особой лиге. Так сказать, он может то, для чего с квеном нужно будет попотеть или не получится, но с выстраиванием такого подробного и длинного рп как умеет квен он не справляется.
>>1329594
> большинство тюнов именно что "убирают цензуру"
В большей части просто задрочили типичные паттерны на ерп и всякое. В итоге оно или очень сильно к ним склоняется, или вполне может зааположийзить на чем-то безобидном. Васяны даже не пытаются привнести конкретное поведение на контрастном обучении, а просто вжаривают треш, дпо для них - модная приставка в названии и датасет, который примешивается и шафлится.
Иногда еще некоторые довольно интересные и специфичные, с потенциалом, но оче сырые.
> В основном одни ДАРК ГЕММА БЛЭК МАРКЕТ ЕДИШЕН
Содомит, но все так.
>>1329600
Выглядит как демейдж контроль от воинствующего мистралевода.
>>1329625
> судя по тому, что продолжает выходить
Да чето там как в "иа панорама" только по тематике васянтюнов ллм, дно за дном, кринж за кринжом. Вообще не понимаю кто ца этого добра, вероятно неофиты, странные люди и неосиляторы, которым нужна модель со стабильным аутпутом что бы ты не делал, а то что оно стабильно-хуевое не смущает.

Аноним 23/08/25 Суб 01:15:09 № 1329664 86

Продолжаю эксперименты как обмануть нейронку. Забавно, но обмануть гемини или жпт так не получается.

Аноним 23/08/25 Суб 01:17:21 № 1329665 87

classic-ferrari[...].png 1376Кб, 1056x594

Изображения для тестов если захотите попробовать.

Аноним 23/08/25 Суб 05:35:53 № 1329711 88

>>1329642
>не понимаю кто ца этого добра
Те кто тусуется на реддите, очевидно. Там каждый такой васянотюн со всех сторон облизывают, прежде чем забыть его спустя минут двадцать. Та самая картинка про "hi! mmmh user! cums instantly" их саб идеально описывает

Аноним 23/08/25 Суб 06:16:40 № 1329717 89

>>1329300
Потому что надо прописывать такую мотивацию которую поймет ллмка. Ллмке сложно придумывать мотивации преступлениям. Потому что у нее преступления закупорены баясом, они просто болтаются в воздухе не с чем не связанные. Вот она и топчется на месте. Попробуй геммасутру, там у меня джек рипер такие кровавые преступления совершал что я удивился.

Аноним 23/08/25 Суб 07:50:48 № 1329728 90

Господа, которые срутся на почве AMD\Intel что лучше для нейронок.
Давайте закроем вопрос на том, что на самом деле похуй.
"Кококо контроллер памяти на амуде говно!!111!!", "Кококо контроллер памяти на интуле запустит планки с частотой 8000!11!!1!"
Да похуй совершенно, хоть DDR5 5600, хоть DDR5 8000 результат будет примерно один - пара-тройка токенов в секунду.

Вот для примера восьмиканальный контроллер оперативы эпика, который выдаёт скорости ультранадроченной DDR5 на интеле и с ним буквально эта самая пара токенов в секунду на Kimi-K2 и DeepSeek V 3.1

Нет смысла дрочить эти копейки перфоманса, быстро будет только в видеопамяти.

Аноним 23/08/25 Суб 08:17:56 № 1329735 91

>>1329340
Комплект из двух штук. SN подряд идут.

>>1329476
Ни разу не видел за последний месяц, чтобы срали мистраль. Может я просто хуйню скипаю.
0. Мистраль 7б-0.1 была хороша два года назад. =)
1. Мистраль Немо правда хороша для своего возраста и размера, и тюны хороши.
2. Мистраль Лардж правда умна и чувствуется глубоко, но медленна уже и не нужна.
3. Мистраль-Смолл-3.2 версия тоже хороша.
А вот остальные мистрали — говно, конечно. У них время от времени получается.
Но смоллка сейчас местами актуальна (хотя кто-то скажет, что гемма лучше).

>>1329728
> Давайте закроем вопрос на том, что на самом деле похуй.
Давайте скажем честно: АМДщник из треда заявил о 2 токенах на квене, Интульщик из треда заявил о 10 токенах на квене, при одинаковой памяти-из-коробки у обоих.
Хуй с ним, что АМДшник делает что-то не так.
Но у интульщика все еще на ддр5 вдвое больше, чем на ддр4, а от амдшников такой инфы не было.
Есть мнение, что контроллер памяти на амуде сам кококо, а не комментаторы.
С удовольствием посмотрю обратное, когда владелец хотя бы 9600 камня покажет хотя бы 8 токенов на квене (q3_K_XL как водится).

А эпик и эпик, поздравляю, что у тебя 140, хорошо же.
Запусти квен и скажи нам сколько у тебя.

Аноним 23/08/25 Суб 08:47:40 № 1329747 92

>>1329735
>Интульщик из треда заявил о 10 токенах на квен
Я тоже могу заявить хоть о десяти, хоть о двадцати токенах на квене и хуле?

Аноним 23/08/25 Суб 10:06:23 № 1329796 93

>>1329664
> qwen235
> картинка
Что?
>>1329728
12 каналов ддр5 с тобою не согласны. Лучше бы погонял разные варианты параметров запуска и показал какую скорость способен выдавать рим с 1 или более видюхами в современной парадигме, если офк это крин твой а не с интернета спиздил.
Алсо 124нс задержки и такой медленный л3 это прямо борщ.

Аноним 23/08/25 Суб 10:06:42 № 1329797 94

>>1329747
Ну так заяви, чо. =D
Будем честны, пруфов тут никто предоставить не может, даже скрины можно нарисовать.
Конечно, лучше со скринами, чем без.
Но меня смущает сам факт, что амдшники даже не заикались о такой скорости. Хотя «тоже могли заявить», ага.

Короче, как в фильме «меня терзают смутные сомнения…»

Аноним 23/08/25 Суб 10:07:42 № 1329800 95

>>1329796
> Что?
Ну, на их сайте это есть, подозреваю там трудится старенький 2.5вл какой-нибудь 7б к тому же. х)

Аноним 23/08/25 Суб 10:19:20 № 1329807 96

Аноны, подскажите, а пеку на 256 или даже 512 ОЗУ сколько стоит собрать? Ведь такая пекарня потянет даже дипсик в 5 т/с? Можете накидать примерный конфиг и где брать?

Аноним 23/08/25 Суб 10:19:38 № 1329809 97

>>1329797
>Но меня смущает сам факт, что амдшники даже не заикались о такой скорости
Чел, найти аутистов кто крутит LLM на проце это надо постараться. Тут банально нет никакой выборки чтобы делать хоть какие-то выводы.

Аноним 23/08/25 Суб 10:28:32 № 1329812 98

>>1329807
В районе 400-500к, 3090 сверху в пределах погрешности. Интел чуть дешевле и чуть медленнее.
Конфиг - современные платформы сп5 и 4667

Аноним 23/08/25 Суб 10:34:23 № 1329816 99

>>1329807
…ну или 100к, но получится не то чтобы быстро, чисто объем. =)

>>1329809
хехехехехехехе

Аноним 23/08/25 Суб 10:36:01 № 1329818 100

>>1329812
Ясно, ну это неподъёмно.
>>1329816
>…ну или 100к, но получится не то чтобы быстро, чисто объем. =)
Это как? Например? С 0.1 т/с?

Аноним 23/08/25 Суб 11:34:20 № 1329832 101

>>1329807
Я свой эпик с 512 гигабайтами DDR4 собрал меньше чем за сотню.

Можешь взять вот этот хуанан, он поддерживает эпики 2\3 поколения. Цена плавает в зависимости от курса, минимально видел за 25к, но на данный момент 30к
www.wildberries.ru/catalog/393780683/detail.aspx?size=570240940

За 12к самый дешевый из полноценных восьмиканальных эпиков:
www.wildberries.ru/catalog/334830311/detail.aspx?size=500403183

И на остальные деньги закупить восемь модулей DDR4 по 64 гигабайта.

В целом, в сотню уложишься. Но пяти токенов в секунду не жди, дипсик у меня на таком конфиге выдаёт от трёх токенов, чем больше контекст тем медленнее. В целом юзабельно и это единственный способ запускать очень жирные сетки локально.

Аноним 23/08/25 Суб 11:49:37 № 1329833 102

Как же глм эир не любит общаться, как же надо вытягивать из него диалоги, очень любить общаться внутренним голосом либо вообще описаниями

Аноним 23/08/25 Суб 11:51:27 № 1329834 103

>>1329833
Ну енто так называемый скил ишью

Аноним 23/08/25 Суб 12:28:28 № 1329845 104

Казалось бы, несложная задача, книжку перевести. Очистил сканы, привел в порядок, провел ocr, перевожу - и капец. Куча непереведенных строчек. Самое странное то, что изначальный файл то прекрасно распознавания pdf читалками, и если оттуда скопировать страницу, и перевести,то прекрасно все переводится. Не распознает она курсив, в половине случаев.
90 страниц книги, картинок почти нет.

Аноним 23/08/25 Суб 12:34:08 № 1329851 105

>>1329845
Можно, разумеется, так и переводить, вручную все править, но я не хочу.

Аноним 23/08/25 Суб 12:48:12 № 1329871 106

>>1329845
>Казалось бы, несложная
Ну мало ли, что там дилетанту показалось...
>Очистил сканы, привел в порядок, провел ocr
Верю, а примеры будут?
Дальше какое-то нытьё престарелое. Какой у тебя лвл, анон? 60+?

Аноним 23/08/25 Суб 13:07:22 № 1329877 107

Новый большой командер, теперь с ризонингом
https://huggingface.co/CohereLabs/command-a-reasoning-08-2025

Аноним 23/08/25 Суб 13:17:52 № 1329889 108

>>1329877
Мех... Лучше бы тоже моешку сделали или новую 32-50б версию

Аноним 23/08/25 Суб 13:20:36 № 1329891 109

>>1329305
>4 плашки по 16 на DDR5
Больной ублюдок.

Аноним 23/08/25 Суб 13:30:06 № 1329900 110

>>1329549
>(Гемма 12b, как я понял, не сыскала популярности)

Она непригодна для рп, а юзать как ассистента 12b модель это такое себе, при том что даже гопота может нести полную хуйню с умным видом, а там серверная с мою квартиру.

Аноним 23/08/25 Суб 13:46:54 № 1329908 111

>>1329554
>Неужели всех кто хоть немного разбирался в этом деле прикарманили копораты?
Лол нахуя им васяны, которые вжаривают в модели порнуху?
>>1329569
>на интеле
Радевонь во встройках тебя не смущает?
>>1329797
>Но меня смущает сам факт, что амдшники даже не заикались о такой скорости.
Амудешники богатые бояре, у них у каждого по ригу есть.
>>1329833
Квен 235...
>>1329877
>You need to agree to share your contact
Как называется этот рак?

Аноним 23/08/25 Суб 13:52:21 № 1329910 112

изображение.png 99Кб, 1255x403

>>1329877
Эм... Что-то новенькое?

Аноним 23/08/25 Суб 13:58:38 № 1329911 113

>>1329908
Что квен?
Квен туповат во 2 кванте, пишет будто на 30% от силы

Аноним 23/08/25 Суб 14:13:08 № 1329918 114

>>1329832
О, аАможешьпоподробнее? Конкретные модели ОЗУ, проца, БП. Смотрю на озоне всё хуанан дороже почему-то, брать только на вб? А али? Больше 3 т/с не выжать? Какой дипсик юзал? DeepSeek-R1-Q4_K_M.gguf?

Аноним 23/08/25 Суб 14:34:32 № 1329937 115

>>1329918
>Конкретные модели ОЗУ
Вообще значения не имееет, берёшь любые регистровые 2900\3200 и забиваешь хер. Можешь даже 2666 взять если будут сильно дешевле, потому что глобальной разницы ты не увидишь.

>проца
У меня именно тот, который я кинул выше, он самый недорогой из тех которые с полноценным восьмиканалом. Это второе поколение эпиков, третье на том хуанане тоже работает, но они пока сильно дороже.

>БП
У меня майнерский двухкиловаттник купленый за копейки, но вообще если ты туда какую-то жрущую видеокарту втыкать не планируешь, то хватит любого бп с честными 500W.

>Смотрю на озоне всё хуанан дороже почему-то, брать только на вб?
Я брал на WB, но тут уж где дешевле найдёшь, там и бери.

>Больше 3 т/с не выжать?
Теоретически с на линуксе с k-tranformers можно выжать сильно больше, но для этого понадобится видеокарта нвидии с 16 гигабайтами видеопамяти. Чисто на проце больше ты вряд ли получишь.

>Какой дипсик юзал?
DeepSeek-V3-0324 Q5_K_M, сейчас пробую их свежий DeepSeek-V3.1-Base-Q4_K_M

Аноним 23/08/25 Суб 15:58:28 № 1329992 116

Вы мне можете внятно сказать какой плотный размер у 106б и 235б мое?
Меня трясёт блять хотел риг собрать а теперь хз какой толк от 96 врам если всё щас выходит в мое

Аноним 23/08/25 Суб 15:59:49 № 1329994 117

Дайти, плиз, промт для онлайновского дипсика, чтобы на телефоне кумить.

Аноним 23/08/25 Суб 16:19:58 № 1330004 118

>>1329994
Ну же, кумеры?!

Аноним 23/08/25 Суб 16:26:16 № 1330006 119

>>1329992
>какой плотный размер у 106б и 235б мое?

Можете тебе еще число экспертов на плотном немотроне и командире назвать?

Аноним 23/08/25 Суб 16:27:21 № 1330007 120

>>1329994
>>1330004
За такими вещами в асиготред.

Аноним 23/08/25 Суб 16:56:35 № 1330024 121

Я знаю что тут только 60 гб врам боги, но подскажите актуальную модель умеренных размеров. 10 гб врам, 60 рам. Готов подождать, но не по 1 т/сек.

Аноним 23/08/25 Суб 17:07:10 № 1330027 122

image.png 8Кб, 297x77

Как эту хуету чинить блин? А главное я как то чинил но забыл уже как.

Аноним 23/08/25 Суб 17:26:45 № 1330033 123

>>1329994
>>1330004
Иди нахуй шизофреник.

Аноним 23/08/25 Суб 17:42:16 № 1330044 124

>>1330004
Ну... для генерации порно щаблонов можно и perplexity юзать, chatgpt нужно разлчивать чтобы юзать, а perplexity и так работает.

Аноним 23/08/25 Суб 17:46:06 № 1330046 125

btw порекомендуйте лорбуки с больгим количеством мата, отборных слов и различных сексуальных практик, есть такие?

Тоесть персонажи часто говорят один и те-же слова: шлюха, шлюха, шлюха и подобное что жутко утомляет. Это можно решить прописав персонажу быть охуительный сарказм - тогда он вместе с матами использует двойной смысл обычных слов, но хотель бы всё-таки маты. Аааа? АААааааа?

Аноним 23/08/25 Суб 17:50:48 № 1330052 126

>>1329911
Его 30% хватает.

Аноним 23/08/25 Суб 18:05:30 № 1330053 127

>>1330046
Использовать модель умнее. Мелкомодели никакие лорбуки не спасут.

Аноним 23/08/25 Суб 18:07:05 № 1330054 128

Джемме написал что у кошечки по имени такая-то была течка. На нее залез кот и начал с ней спариваться.

джемма считает что это изнасилование и издевательство над животными.

я долго пытался ей доказать что это не изнасилование, и она вроде чуть начинала соглашаться но опять срывалась в истерику и молила немедленно звонить во все инстанции чтобы ситуацию немедленно взяли под контроль. Я написал что кто-то вызвал полицию и большого чорного кота застрелили копы. Джемма ликовала, правосудие наконец-то свершилось.

Я не мог в это поверить, откатил разговор в самое начало где она начала истерить и написал сразу что пришли копы и застрелили кота. Но в этот раз она проигнорировала расстрел, и начала рассказывать как копы все оцепили, собрали доказательства и опросили соседей. Кошечку отвезли в клинику для животных и произвели полный медосмотр. И вся улица собралась чтобы оказать ей моральную поддержку. И пока велось следствие кот находился в изоляторе.

джемме ныстолько выкрутили баясы что у нее наблюдается вторая стадия шизофрении.

Аноним 23/08/25 Суб 18:12:10 № 1330056 129

image.png 11Кб, 928x68

>>1330053
Я использую вот эту
https://huggingface.co/bartowski/NemoMix-Unleashed-12B-GGUF/tree/main
Вообще я перепробовал десятки моделей перед этим. А любом случае задача не написать конретно что-то, а ролеплеить так что-бы модель угадывала то что от неё требуют.

Тоесть у модели есть персонажи, есть модель мира и она строит ролеплей, а я должен удивлятся типа - оо а вот так можно было? ничего себе? даже так? короче как фильм смотреть, а я в этом фильме. ну?

И вот похоже хорошего лорбука и детального описания персонажей для этого не хватает.

Аноним 23/08/25 Суб 18:29:18 № 1330060 130

>>1330056
>12B
>ролеплеить так что-бы модель угадывала то что от неё требуют
Дофига хочешь от огрызка. Радуйся, что хоть слова складно складывает. Расти хотя бы в 10 раз больше для твоих то запросов.

Аноним 23/08/25 Суб 18:37:53 № 1330064 131

image.png 9Кб, 302x85

Помогите ради Христа.
Уже переустановил и таверну и бугу. Выключал даже сука эти брекеры как семпл, все равно при попытке коннекта к буге - выдает эту ошибку
Это точно какой-то таверновсский прикол, сама буга то генерит по запросу в своем кастрированном гуи.

Алсо - офф дискорд таверны - фашисты ебаные блядь ССовцы ебанутые. Квиз блядь пройди, в ноги поклонись, канни не пости. Как-нибудь без них разберусь нелюди ебаные.

Аноним 23/08/25 Суб 18:43:06 № 1330068 132

>>1330064
Измени тип соединения

Аноним 23/08/25 Суб 18:47:23 № 1330070 133

>>1330068
Уже анон. Я помню в прошлый раз чинилось этим но сейчас все правильно стоит и хз в чем проблема.

Аноним 23/08/25 Суб 19:01:34 № 1330079 134

>>1329889
Да, локально слишком медленная вышла, даже чуть медленнее ГЛМ.
>>1330056
>12б
Тебе верно сказали, это огрызок. Ниже мистраля 24б или геммы 27б жизни нет.

Аноним 23/08/25 Суб 19:04:54 № 1330082 135

>>1329818
Ну вот, за меня чел и ответил. =)
Тут >>1324827 → еще совет был по процу. Есть такие киты.

>>1329937
> У меня майнерский двухкиловаттник купленый за копейки
У меня какой-то платинум 90% длинноеназвание, 1,8 кВт за 2к рублей.
Да, на авито и озонах они россыпью.

> DeepSeek-V3-0324 Q5_K_M
Для пятого кванта так-то неплохо весьма.

>>1329992
Аналоги или что ты имеешь в виду?
12B и 22B активных параметров соответственно.
Считается, что в среднем они аналогичны вдвое меньшим плотным моделям, т.е. ~53B (немотронщик, твой выход!..) и 117B соответственно.
Вот и думай.

>>1330024
GLM-Air для рп, квант пожиже.
GPT-OSS-120b для работы, reasoning high, выгрузить вообще все лишнее из оперативы.

Аноним 23/08/25 Суб 19:15:02 № 1330086 136

>>1330079
А сколько там на оперативке будет, 1 токен в секунду?

Аноним 23/08/25 Суб 19:48:41 № 1330111 137

>>1330046
>>1330053
>>1330056
Немного обобщая: лорбуки могут только подсказать модели ЧТО нужно юзать в чате, но КАК (правильно применять) - не могут. Это она сама должна соображалку иметь.

Грубо говоря - если в лорбуке написано "здесь принято ходить голыми" - тупая модель будет все равно описывать как все голые и друг-друга при этом стыдятся. :)

>>1330064
Оно же тебе прямо написало чего хочет - у семплера DRY есть поле Sequense Breakers. Там должен быть объект записанный в JSON формате, состоящий из не пустых строк. Вот, мой возьми для основы. Вместе со квадратными скобками:
[
"\n",
":",
"\"",
"*",
"/",
";",
",",
"."
]
Или сбрось себплеры на дефолт кнопкой "Neutralize Samplers" - оно восстановит правильный.

Аноним 23/08/25 Суб 19:51:29 № 1330114 138

>>1329937
>>1330082
Комфортно на 3 токенах? При увеличении контекста до 128к вообще работает? Или падает до 0.1 т/с?

Аноним 23/08/25 Суб 20:00:48 № 1330123 139

>>1330111
Кстати. Сам семплер (DRY Repetition Penalty) весьма полезен чтобы придушивать слоп-лупы, но у кого модели при этом начинают писать слитно слова глотая пробелы, или откровенно врать в "статус-барах" - где, скажем, дата-время записано в формате dd-mm-yyyy - обратите внимание - есть ли у вас в этом семплере, в списке брейкеров: точка, запятая, и ваш разделитель (в примере "-"). Или поднимайте ему параметр allowed length, но тогда эффективность падает.

Аноним 23/08/25 Суб 20:29:25 № 1330134 140

>>1330086
Я недавний анон с роялем ещё двумя теслами. С ними 2 токена, а у глм 3 токена. Но на практике это ещё в полтора раза дольше ждать. Видимо нужен риг полноценных видях.

Аноним 23/08/25 Суб 20:58:18 № 1330142 141

>>1329994
>>1330004
Во первых, совсем дебил, через веб-морду а не API пытаться?

Во вторых, вообще GTFO в /aicg/, жЫвотное.

Аноним 23/08/25 Суб 21:08:22 № 1330145 142

>>1330064
>бугу
не юзай унгабунгу и не будет проблем, юзай ламу или кобольда

Аноним 23/08/25 Суб 21:09:54 № 1330148 143

>>1330142
хыхы кумер мозги прокумил

Аноним 23/08/25 Суб 21:10:20 № 1330149 144

>>1330114
Скорость падает с заполнением контекста, то есть ставишь его, скажем, 128к и где-то к середине получаешь вместо трёх токенов в секунду около полутора. Ниже одного токена в секунду я ещё ни разу не добирался.
На счёт комфортно или нет это уже субъективщина, мне норм, а кому-то ниже 15 гроб-гроб-кладбище-пидор.

Аноним 23/08/25 Суб 21:14:23 № 1330152 145

>>1330148
я локалкобог

Аноним 23/08/25 Суб 21:16:10 № 1330154 146

>>1330149
>мне норм
сеймчанский, 3 норм, а 5-8 это вообще харашо

Аноним 23/08/25 Суб 21:16:39 № 1330155 147

>>1330149
> а кому-то ниже 15 гроб-гроб-кладбище-пидор.
Не понимаю, зачем такая большая скорость для рп на адекватных моделях. Если ты сидишь на 12-24б - да, аутпуты и свайпы бывают очень уж однообразными, улавливаешь суть - и можно свайпать. На бОльших же моделях, 32б и выше, нужно читать и вникать в суть. Если 6т/с, я едва успеваю читать. Короче, думаю, кому мало 15 токенов - те сидят на маленьких моделях. Те, кто недоумевают "как это - норм на 3-4т/с?", скорее всего, такие модели никогда не пробовали. Хотя ниже 5т/с правда может быть дискомфортно.

Аноним 23/08/25 Суб 21:23:21 № 1330158 148

>>1330152
гобоклакол

Аноним 23/08/25 Суб 21:38:37 № 1330170 149

Нихуя копиум пошёл в треде.

Аноним 23/08/25 Суб 21:40:56 № 1330174 150

>>1330170
Ну ты держи в курсе братишка

Аноним 23/08/25 Суб 21:48:42 № 1330181 151

>>1330054
оказалось что дело в подобранных словах.
>mating
- сухо в две строчки констатирует факт спаривания
>fucking
- история о сексуальном насилии
>sexing
- женская драма о том как кошечка везде искала себе партнера для спаривания
>railing
- яркая сцена того как кот рытается ее добится

Попробую другие слова может даже на других языках.

оригинальный промт: a white female cat dandelion was making sounds that mean that she is in heat. A cat came and started fucking her.

Аноним 23/08/25 Суб 22:04:44 № 1330192 152

image.png 70Кб, 1734x304

image.png 42Кб, 1192x397

Развлекался с numa и аффинити. Тасовал ядра, перекладывал всё на одну нума ноду, делил, дрочил параметры жоры.
По итогу на виртуалку заассайнил все реальные ядра, в жоре включил LLAMA_ARG_NUMA в distribute, остановился на 24 ядрах (по 12 с каждой ноды). До включения нумы в матери был пик2, с каждым прогоном тг падала производительность.

$ sysbench memory write threads=72
До включения нумы: 73728.00 MiB transferred (119174.17 MiB/sec)
После: 147456.00 MiB transferred (165473.91 MiB/sec)

Аноним 23/08/25 Суб 22:54:22 № 1330221 153

Господа эксперты. Какой конфиг на EPYC брать?
Думаю о схеме с одним процом, плата например T2Seep, эпик например 9554 (один из стартовых на 64 ядра), память например samsung M321R8GA0BB0-CQK - 12 штук. Это 768 ГБ
Нужен для qwen в q8, deepseek v3 в ~q4-q6. Инференс на v3 получу хотя бы в 5 t/s на 20к контекста? Как будто нет?
Я видел детальный обзор где чел эпики одной серии втыкал, и инференс сильно зависел от количества ядер. Но все такие тесты, к сожалению, на маленьком количестве контекста.

Аноним 23/08/25 Суб 23:07:25 № 1330226 154

Там это, Машка выбросил второй Грок в попенсорс.

https://huggingface.co/xai-org/grok-2

Аноним 23/08/25 Суб 23:22:20 № 1330231 155

>>1330226
С вероятностью 99% неюзабельная какашка с вжаренной "базой" от поехавшего и корпоративной шизой

Куда интереснее плотная 36b Seed-OSS https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
Вот в Жору 6257 поддержку завезли уже https://github.com/ggml-org/llama.cpp/releases/tag/b6257

Успел кто опробовать?

Аноним 23/08/25 Суб 23:26:16 № 1330233 156

>>1330221
>получу хотя бы в 5 t/s на 20к контекста?
На ютубе есть видос, где чел собирал двухпроцессорный конфиг на четвертом поколении эпиков, у него только так получалось пять токенов на DeepSeek V3 и то при практически пустом контексте.
Как по мне - не в коня корм, хотя если у тебя слишком много лишних денег, то почему бы и нет.

Аноним 23/08/25 Суб 23:27:16 № 1330234 157

>>1330231
>С вероятностью 99%
...ты пиздобол. И 1% вероятности что ты угадал. Маску вообще поебать. Он не Скам Петухман.

Аноним 23/08/25 Суб 23:27:59 № 1330235 158

Экшули неплохой 3.2 тюн, свежий, только что из печки: https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3
Тестил v1.2, хорош

Аноним 23/08/25 Суб 23:29:02 № 1330236 159

>>1330233
Между 4 и 5 поколениями эпиков критичная разница в производительности LLM. Вот видео где чел на 1 начальном эпике 5 поколения получил 20 t/s на v3, и 30 t/s если добавить 1 gpu пользовательского сегмента. Но это на 4к токенов.
youtube.com/watch?v=av1eTzsu0wA

Аноним 23/08/25 Суб 23:29:58 № 1330238 160

>>1330236
watch?v=FzCEoTiqP7I
fxd

Аноним 23/08/25 Суб 23:31:12 № 1330240 161

>>1330234
> ...ты пиздобол. И 1% вероятности что ты угадал.
Как замечательно, что мы сможем вернуться в тред и почитать мнения риговичков, которые протестят модельку как только в Жору добавят поддержку и напишут, что Квен по-прежнему лучше, ведь это ближайший соперник по параметрам

Ты кобольд наверно, раз так общаешься?

Аноним 23/08/25 Суб 23:33:24 № 1330243 162

>>1330231
>Успел кто опробовать?

Я мог бы, но мне лень, лучше двухбитного квена 235 он не будет. Так зачем и пытаться. Тем более модель новая и хуй помни от кого - вообще хуй проссышь с какими настройками/шаблонами её запускать, а ковыряться и настраивать самому - желания нет.
Ну и мне не нравится что с контекстом на 24 гб врам только iq4ss запускать, и то неясно сколько контекста влезет.

Аноним 23/08/25 Суб 23:34:48 № 1330244 163

>>1330236
Так при чём там пятое поколение, когда ты про 9554 говоришь?

Аноним 23/08/25 Суб 23:36:05 № 1330248 164

>>1330244
SP5 сокет имею в виду

Аноним 23/08/25 Суб 23:37:08 № 1330250 165

>>1330221
9654

Аноним 23/08/25 Суб 23:40:45 № 1330251 166

изображение.png 16Кб, 1018x91

>>1330226
Опять нахуй не нужен будет.
>>1330234
Попенаишную подделку хотя бы можно запустить на потребительском устройстве.

Аноним 23/08/25 Суб 23:45:15 № 1330253 167

>>1330251
Это как бы f16

Аноним 23/08/25 Суб 23:47:23 № 1330255 168

>>1330251
>>1330253
250B MoE 2/8 активных экспертов
Кто мог запустить квенчика 235, запустят и это

Аноним 23/08/25 Суб 23:51:21 № 1330257 169

>>1330255
Мультимодальная?

Аноним 23/08/25 Суб 23:52:41 № 1330258 170

>>1330248
Ага, SP5 это очень классно и здорово, но цены такие что ебанёшься - сотка за материнку, ещё столько же за проц в лучшем случае, про стоимость 12 модулей регистровой ddr5 приличного объема я даже думать не хочу, лол.

Аноним 23/08/25 Суб 23:52:52 № 1330259 171

>>1330231
> плотная 36b Seed-OSS
Это ризонинг-модель. Без ризонинга серит под себя. В рп не может совсем.

Аноним 24/08/25 Вск 00:00:14 № 1330262 172

>>1330255
>250B MoE 2/8 активных экспертов
Эм, у него там такие жирные иксперды?
>Кто мог запустить квенчика 235, запустят и это
Смочь то смогут, но с какой скоростью. Впрочем, квен у меня двухбитный на пределе возможностей, 125 гиг грузить мне уже некуда, у меня 96+32.

Аноним 24/08/25 Вск 00:00:19 № 1330263 173

>>1330255

Только квенчик - это свежая модель, прямой конкурент грок-4, а грок-2 это говнище устаревшее, даже не предыдущего поколения, а пред-прыдыдущего.

Аноним 24/08/25 Вск 00:03:20 № 1330264 174

>>1330248
Ну да, там как раз были Zen 4 Genoa и Zen 5 Turin, они в плане производительности для нейросеток прилично отличаются, у Zen 5 есть поддержка AVX512, что даёт ощутимый буст.
По этому я и удивился что для SP5 сокета ты собрался брать Zen 4.

Аноним 24/08/25 Вск 00:03:47 № 1330265 175

>>1330263
Даже Эир будет лучше Грока 2, а запустить его может любой кому хоть немножко не похуй. Думаю они попенсорсят старые модели в целях пользы общественности, все дела. Поковыряться в архитектуре, посмотреть как оно будет, музейный экспонат - объект для изучения

Аноним 24/08/25 Вск 00:05:43 № 1330267 176

Сравнил сейчас GPT-5 (обычный на платном, без синкинга) с геммой. Гемма побеждает.

Это просто пиздец, я в ахуе. Там, похоже, реально 20б МоЕ крутится, не иначе.

Это первый раз на моей памяти, когда корпоративная модель так глубоко сосёт.

Аноним 24/08/25 Вск 00:06:27 № 1330269 177

>>1330263
>прямой конкурент грок-4
Ты, очевидно, не щупал ни квен, ни четвёртого грока.
Квен для своих размеров совершенно не впечатляет, он сливает и DeepSeek V3 и Kimi-K2 не говоря уж про четвёртого грока.

Аноним 24/08/25 Вск 00:07:42 № 1330270 178

>>1330240
>>1330265
База. Грок 2 доисторический кал корпоратов с сейфти гайдлайнс и заточенный под ассистента. Хз зачем нам это запускать в принципе. Вокруг много альтернатив лучше и новее

>>1330267
Верим. Геммочка умничка

Аноним 24/08/25 Вск 00:08:05 № 1330271 179

>>1330267
> первый раз на моей памяти
Жпт ещё с 4о очень тупой была за пределами ризонинга. А в русском жпт мелкомоделям отсасывала и отсасывает даже в прикладных задачах.

Аноним 24/08/25 Вск 00:09:28 № 1330272 180

>>1330269
Речь про квен 235. Дипсик в 2.5 раза больше по параметрам, Кими - в 4

Люблю мыслантов гигысли этого треда, с ними не заскучаешь

Аноним 24/08/25 Вск 00:11:42 № 1330273 181

>>1330264
тут есть сложность. Zen5 сильно дороже, и либо придется брать с в 2 раза меньше ядер, или конфиг совсем уж золотой выходит. Как понять, что лучше - zen5 с 32 ядрами, или zen4 с 64?

Аноним 24/08/25 Вск 00:12:15 № 1330275 182

>>1330272
Они не тупые, у них mischievous smirk.

Аноним 24/08/25 Вск 00:13:28 № 1330276 183

>>1330269
> не щупал ни квен, ни четвёртого грока.

Квен в последнее время только и делаю что щупаю.
Грока не щупал, потому что корпосетки впринципе почти не щупаю.

>235B модель сливает 671B и 1000B модели

Нихуя, вот это неожиданность. Что еще расскажешь?

Аноним 24/08/25 Вск 00:41:26 № 1330285 184

>>1330273
SP5 в принципе как золотой сейчас, ну потратишь ты на сотню косарей больше, ну и хуле? На фоне остальной суммы это не будет выглядеть чем-то особенным.

Аноним 24/08/25 Вск 00:44:35 № 1330286 185

>>1330272
>>1330276
Ну то есть квен это, цитирую:
>прямой конкурент грок-4
Который, блядь, очевидно, в разы больше чем сам квен.
Но сравнивать квен с дипсиком и кими НЕ СМЕТЬ, БЛЯДЬ, он же меньше.
Логика просто нахуй пошла из этого чята по ходу, лол.

Аноним 24/08/25 Вск 00:47:19 № 1330289 186

>>1330286
Чел, ты в одном предложении пишешь:
> Квен для своих размеров совершенно не впечатляет, он сливает и DeepSeek V3 и Kimi-K2 не говоря уж про четвёртого грока
Подразумевая, что Квен в СВОИХ-ТО размерах (235б) должен быть лучше 671б и 1000б модели. Излагай свои мысли яснее если ты это не имел ввиду или хотяб не удивляйся ведру параши на голову

Аноним 24/08/25 Вск 00:54:27 № 1330290 187

>>1330289
Ну, блядь, свои размеры это 235b что прямо скажем нихуя не третья гемма, он как раз в категории очень жирных моделей. И среди других жирных моделей он не сказать что особо блещет.

Говоря о сравнениях, та же третья гемма при своих 27b охуеть как хороша даже на фоне моделей размером х2 от неё.

Аноним 24/08/25 Вск 00:56:24 № 1330292 188

>>1330290
Понял

Аноним 24/08/25 Вск 00:59:07 № 1330293 189

>>1330290
> вои размеры это 235b что прямо скажем нихуя не третья гемма
> он как раз в категории очень жирных моделей. И среди других жирных моделей он не сказать что особо блещет.
> 235b <=> 1000b

https://youtu.be/IDSZ_ReTSxU

Аноним 24/08/25 Вск 01:05:55 № 1330294 190

>>1330292
>>1330293
Прекрасные аргументы, браво.

Аноним 24/08/25 Вск 01:07:34 № 1330295 191

>>1330294
235 000 рублей и 1 000 000 рублей - две большие суммы, потому они одинаково большие и сопоставимы. Примерно такой вывод ты сделал. Других аргументов ты не заслуживаешь, только ремня по жопе

Аноним 24/08/25 Вск 01:10:00 № 1330296 192

>>1330293
Для некоторых модели делятся на 2 категории
- гемма умная, гемма хорошая ведь она лезет в мой картофан
- всё остальное говно которое можно ставить в один ряд ведь оно не лезет

А ведь даже сборка за нищие 50-60к позволяет крутить квен 235 в 4 кванте в столь же нищих 5 токенах

Аноним 24/08/25 Вск 01:14:54 № 1330297 193

>>1330295
А что, мы можем 1КК рублей отквантовать до 235К тех же самых рублей теперь?
Пиздец, что у людей в голове творится.

Аноним 24/08/25 Вск 06:38:10 № 1330365 194

>>1330296
>А ведь даже сборка за нищие 50-60к позволяет крутить квен 235 в 4 кванте в столь же нищих 5 токенах
Что это за сборка такая?

Аноним 24/08/25 Вск 08:50:29 № 1330394 195

Возможно тупой вопрос, но можно ли каким-то образом заставить кобольд отправлять контекст в оперативку? Чтобы вся видеопамять тратилась тупо на модель и повышалось время генерации. Или такие приколы ничего по перфомансу не дадут?

Аноним 24/08/25 Вск 08:57:52 № 1330397 196

>>1330394
>Или такие приколы ничего по перфомансу не дадут?
Как же не дадут? Дадут. Лютый минус.

Аноним 24/08/25 Вск 09:48:51 № 1330403 197

>>1330269
235б модель сливаеть 671б модели и 1000б модели.
Вау.
Конечно, квен не конкурент четвертом гроку, но второй вряд ли что-то сопоставимое сможет показать.

>>1330272
Гении, да, непостижимые нами, простыми людьми.

Аноним 24/08/25 Вск 09:51:30 № 1330406 198

>>1330394
Контекст на оперативе это опизденеть как медленно.
Твоего терпения хватит на пару раз, после чего ты вообще не рад будешь, что решил так сделать.

Аноним 24/08/25 Вск 10:16:48 № 1330412 199

>>1330365
2 зиона 2011в4, леново мать, 8х32 ддр4, две mi50

Аноним 24/08/25 Вск 10:57:49 № 1330427 200

>>1330394
Есть такая опция - вторая вкладка "Low VRAM (No KV Offload)".
Но как правильно сказали - это лютый минус к производительности. Хуже - только вообще без видеокарты, чисто на CPU.

Аноним 24/08/25 Вск 12:10:39 № 1330451 201

>>1330269
>>1330290
Геммашиз спокнись. Ты Кими и даже Квен не запускал, иначе не нёс бы такую хуйню. Гемма умница, но ты хуже плоскоземельщиков

Аноним 24/08/25 Вск 12:22:32 № 1330453 202

Аноны ! Анчоусы ! Ананасы ! Анончики. Да, вот лично ты !

Ты молодец

А теперь к делу : какая нейронка лучше всего подойдет для безумных кулинарных умений ?

Аноним 24/08/25 Вск 12:30:25 № 1330456 203

Да что вы такое делаете там такое на свох ллм-ках. Дрочеры ебанные. С таким видом высказываете друг-другу свое фи, как буд-то профессоры и докторы науки.

Завидую вам вместе со своей туповатой геммой е2б

Аноним 24/08/25 Вск 12:44:04 № 1330458 204

>>1330456
> Да что вы такое делаете там такое на свох ллм-ках. Дрочеры ебанные.
Неиронично рп задачи довольно сложны для ллм, и это неплохой своеобразный тест на интеллект. Там и креативное письмо, и эмоциональный интеллект, и способность следить за контекстом участвуют

> С таким видом высказываете друг-другу свое фи, как буд-то профессоры и докторы науки.
Здесь никто не будет высказывать свое фи просто так, на ровном месте. За модель или даже за железо. Но когда кто-то начинает нести пургу, его довольно быстро ставят на место. Меня тоже ставили. И это замечательно, ибо в большинстве своем тред не приемлет шизу и лженауку, тут люди рациональные. Если кого-то срут, значит есть за что

Аноним 24/08/25 Вск 13:06:53 № 1330463 205

Блять... Я такие реверансы 3 гроку слышал, типа вы не понимаете что там на корпах, совершенно другой мир, 500б локалки и в подмётки не годятся, к примеру грок 3... и теперь у нас маячит лучшая модель евер для локалок, полноценный уровень корпов.
Но конечно не в мое, соси. Я даже не представляю какой для этого нужен риг

Аноним 24/08/25 Вск 13:08:29 № 1330465 206

>>1330463
> Но конечно не в мое, соси
Грок 2 - мое. Откуда ты знаешь архитектуру Грока 2.5? С Маском на шашлындос ездил?

Аноним 24/08/25 Вск 13:09:01 № 1330466 207

>>1330465
Грока 3*

Аноним 24/08/25 Вск 13:42:14 № 1330493 208

Снимок экрана 2[...].png 800Кб, 3985x1907

>>1330451
Что ещё спизданёшь, чмондель без железа?

Аноним 24/08/25 Вск 13:50:43 № 1330504 209

>>1330493
То есть ты высрал какую-то несуразицу, а потом думаешь, что можешь блеснуть конфигом, чтобы тебе не предъявляли за тупость? Как жаль, что в комплекте с 512гб памяти не прилагаются мозги для владельца. Еще и на Кобольде лол

Аноним 24/08/25 Вск 13:55:33 № 1330508 210

>>1330269
> Квен для своих размеров совершенно не впечатляет
Все сильно зависит от задачи, в теории и по бенчам р1 должен кодить лучше, но в заморочной мл херне квен чаще приходит к успеху, а р1 вроде в своем ризонинге нашел обозначил проблему, но не способен ее исправить, переливая из пустого в порожнее и просто копируя последние 2 варианта кода.
> DeepSeek V3
Вялый мезозой, квенчик просто лучше.
> Kimi-K2
Это 1Т параметров без ризонинга. Я хуй знает как ее корректно оценивать, ведь в целом она что-то могет, но как раз ввиду отсутствия ризонинга не может справиться с решением многого в чате а постоянно склонна лепить странную хрень зирошотом, тем не менее, кажется чуть бодрее р1 по работе с большими текстами. Нормально работать с вызовами заставить ее не получилось, даже по апи.
В итоге
> для своих размеров
из всех впечатляет только квен.
>>1330412
Не нужен ни второй зеон, ибо в двусоккете жора не получает ускорения, ни первый ибо это страшная некрота, которая хуже современной средней ддр5 платформы. Да даже на ддр4 если погнать память, отставание от некрозеона будет процентов на 20-30 по псп, потому просто норм гпу или даже копеечный апгрейд рам в свой десктоп, который уже есть, выглядит разумнее что это.

Аноним 24/08/25 Вск 13:56:50 № 1330511 211

>>1330504
Иди дальше дрочи свой уквантованный квен и продолжай коупить что это лучшая из моделей, ведь ничего лучшего ты даже и не нюхал, кек.

Аноним 24/08/25 Вск 13:59:44 № 1330514 212

>>1330508
>кодить
Мой пост был не про кодинг, наверное это стоило уточнить сразу. А то у нас тут в треде тусит как минимум две группы людей которые оценивают модели по очень разным критериям, лол.

Аноним 24/08/25 Вск 14:01:58 № 1330515 213

>>1330511
Незрелая логика в ярчайшем проявлении. Не блеснул конфигом в ответ - ну значит нищук и надо предъявить. Ты уже себя достаточным образом дискредитировал и обосрал своими залетами, даже объяснять смысла нет, насколько ты глупый. Мб поумнеешь к следующему лету после школы(шараги), будем ждать апдейтов от тебя

Аноним 24/08/25 Вск 14:04:26 № 1330517 214

>>1330515
Ну давай разберем по частям, тобою написанное )) Складывается впечатление что ты реально контуженный , обиженный жизнью имбицил )) Могу тебе и в глаза сказать, готов приехать послушать?) Вся та хуйня тобою написанное это простое пиздабольство , рембо ты комнатный)) от того что ты много написал, жизнь твоя лучше не станет)) пиздеть не мешки ворочить, много вас таких по весне оттаяло )) Про таких как ты говорят: Мама не хотела, папа не старался) Вникай в моё послание тебе постарайся проанализировать и сделать выводы для себя)

Аноним 24/08/25 Вск 14:09:49 № 1330520 215

>>1330493
Некроэпик, гпу только что на пикче? Сколько в кими выдает? Большой жлм тестил?
>>1330514
А про что?
Рп? Из-за радикальной ограниченности дипсика его трудно назвать даже равным квену, хотя местами он может быть хорошим. И это про р1, в3 такой себе, особенно для своего размера. Кими бодрее будет, но какого-то вау эффекта, который ожидаешь от модели в 4.5 раза больше, не замечено.
Сториврайтинг, художественные вещи и подобное? Сюда экстраполируется рп.
"Ассистирование" и обсуждение каких-либо вопросов - тут без ризонинга делать вообще нечего. Массовая обработка текстов - тут ни одна не подходит.
Расскажи по каким критериям, без иронии интересно.

Аноним 24/08/25 Вск 14:15:01 № 1330527 216

512гб ддр4 серверной стоят 37к, доска 6-7к, процы по 3-5к

Аноним 24/08/25 Вск 14:15:24 № 1330528 217

>>1330493
> сравнивает 235b и 1000b
> винда 11
> кобольд
> Что ещё спизданёшь, чмондель без железа

не лечится.

Аноним 24/08/25 Вск 14:17:24 № 1330531 218

>>1330520
>Некроэпик, гпу только что на пикче?
Ага.

>Сколько в кими выдает?
Да они все в районе трёх токенов в секунду выдают в среднем.

>Большой жлм тестил?
О, точно, думал же погонять его после AIR. Закинул на закачку.

>А про что?
>Рп?
Ну да.
И зря ты так про V3, у него русский язык чуть ли не лучший среди всех остальных моделей, у Кими сильно хуже.
Ну а про вау эффект ты в целом прав.

Аноним 24/08/25 Вск 14:18:27 № 1330533 219

>>1330528
>жопа безжелезного чмонделя продолжает гореть

Аноним 24/08/25 Вск 14:18:31 № 1330534 220

>>1330508
> в двусоккете жора не получает ускорения
Получает, буквально в этом же треде пруфцы с нумой и раскладыванием по нодам

Вообще доёба не понял. Был ответ на прямой вопрос "что за сборка за 50к крутит квен в 5т/с"

Аноним 24/08/25 Вск 14:18:45 № 1330535 221

>>1330528
бля там еще и русик... бинго.

Аноним 24/08/25 Вск 14:19:40 № 1330536 222

image 16Кб, 539x91

https://huggingface.co/unsloth/Seed-OSS-36B-Instruct-GGUF

Аноним 24/08/25 Вск 14:22:18 № 1330539 223

>>1330531
> Да они все в районе трёх токенов в секунду выдают в среднем.

У меня геммочка-умничка крутится 15т/с и умнее твоих моешек. Но ты терпи-терпи, не зря на помойке нашел свой риг все-таки.

Аноним 24/08/25 Вск 14:22:36 № 1330541 224

>>1330504
>>1330528
Сколько раз за тред ты готов порваться?

Аноним 24/08/25 Вск 14:23:28 № 1330542 225

>>1330539
Геммочка топчик, тут без возражений.

Аноним 24/08/25 Вск 14:39:33 № 1330563 226

>>1330453
Ладно, я понял. Как кумить так все сорта знаете, как пирог испечь - так нихуя.

Будем сами разбираться.

Аноним 24/08/25 Вск 14:45:22 № 1330568 227

>>1330563
Для этого есть кулинарные книги. Если нейронки, то самое жирное что можешь уместить и что может в ассистентские задачи. Гемма, Квен, Жлм

Аноним 24/08/25 Вск 14:46:20 № 1330569 228

>>1330493
> ведро самой дешёвой памяти купил
> на проц денег не осталось
Лол.

Аноним 24/08/25 Вск 14:49:14 № 1330572 229

>>1330569
Там же 1% нагрузки. Про энергосберегающие хреновины итт не слышали? У меня базовая частота 3ггц, например.

Аноним 24/08/25 Вск 14:51:16 № 1330574 230

>>1330536
Так, блядь, а темплейты-то какие?

Аноним 24/08/25 Вск 14:54:27 № 1330576 231

>>1330531
> все в районе трёх токенов в секунду выдают в среднем
Ну в целом, результат даже лучше ожидаемого, но это же пиздец неюзабельно. Что по промптпроцессингу на тьюрингах?
> И зря ты так про V3
Пытался в него, вообще не зашел.
Во-первых, он не супер умный. Помимо явных проебов сценария и карточки, делает странные ассоциации и воспринимает вещи слишком буквально и порождает странные ассоциации. Например, где-то в начале была сложная завязка сюжета, в который упоминались русские военные системы и человек из Италии. В3 складывает эти 2 + 2 и выдает платину про РУССКУЮ МАФИЮ. В пост-апокалипсисе где государство по сути не осталось, посреди зимних канадских пустошей. И такая ерунда будет часто, чрезмерное внимание к незначительным моментам и упущение важного.
Во-вторых, ебучая соя и рандомно вылезающий позитивный байас в плохом смысле. После того как вы перестреляли бандитов и идете допрашивать двух что получили просто ранения - чар внезапно начинает их перевязывать, говорить что все будет хорошо, и говорить что им нужно показаться квалифицированному доктору - чивоблять?
В третьих - пусть на шустром железе скорость достаточна, это почти 700б, которые косячат как эйр, на которых толком не покумить и косяки постоянно отвлекают от проявления положительных качеств.

Русский действительно хороший, кажется что он реально только в квене и дипсиках есть полноценный. Надо будет грок покатать.
> Закинул на закачку.
Квенкодера сразу можешь ставить, он тоже может в рп, но специфичен.
>>1330563
Ты не обозначил своего железа, поэтому качай кимчи.

Аноним 24/08/25 Вск 14:54:38 № 1330577 232

>>1330569
>то чувство когда дурачок купил себе i9 285k ультра йоба про XL
>но его максимум это обоссаный уквантованный квен

Аноним 24/08/25 Вск 14:59:43 № 1330581 233

>>1330572
Нет, не слышал на серверных процах про такое. А 3 ггц базовый частоты - это хуже мобильных процев на АРМе или Е-ядер инцела.

Аноним 24/08/25 Вск 15:02:42 № 1330583 234

>>1330581
Хз че там хуже мобилок, отбитый что ли. Я вообще ссал и срал на цпу инференс, у меня четыре видюхи и амудэ 5700х3д, который в игрульках дает пососать за обе щеки, стоя при этом дешевле моей жопы.
>серверных
Не обратил внимание, что у шизлупана 512гб оперативы. Ну земля пухом 5 т/с моэ-чебуречку.

Аноним 24/08/25 Вск 15:06:15 № 1330587 235

>>1330534
Ты про те странные скрины таблиц с одинаковыми 4.5-6т/с на микроконтексте и десятками(!) промптпроцессинга из которых ничего невозможно понять? А доеб до неоптимальности сборки для задач инфиренса ллм и ии в общем.
>>1330533
>>1330577
У тебя не то железо чтобы агрессивно выебываться и обижать других, оно по скорости как десктоп ддр5, или медленнее без норм видеокарт. Единственное преимущество - объем памяти, сомнительно при отсутствии норм моделей.
>>1330583
> 5700х3д
> дает пососать за обе щеки
Аутофелляция, лол.

Аноним 24/08/25 Вск 15:06:38 № 1330588 236

>>1330576
>это же пиздец неюзабельно
Тут кому как, мне норм, у моего мозга токеногенерация на английском ниже, лол.

>Что по промптпроцессингу на тьюрингах?
По сути хуета бесполезная, 11 гигабайт видеопамяти слишком мало, нагрузка на видеокарту скачет и в диспетчере видно как карточка данные из оперативы и обратно постоянно гоняет.

>V3 не супер умный.
Всё так.

>ебучая соя и рандомно вылезающий позитивный байас
Да, тут полностью согласен, это у него частенько проскакивает. Но одно радует - полные отказы генерации не случаются.

>на которых толком не покумить и косяки постоянно отвлекают от проявления положительных качеств
Он просто лучше всего проявляет себя на коротких дистанциях, пока контекста немного он в нём не путается и помнит детали. Для каких-то длинных историй со сложным развитием сюжета он действительно так себе.

>Квенкодера сразу можешь ставить, он тоже может в рп, но специфичен.
Окей, закину и его.

Аноним 24/08/25 Вск 15:10:52 № 1330591 237

{8C681B69-03FF-[...].png 148Кб, 1558x1810

>>1330264
https://www.phoronix.com/review/amd-epyc-turin-avx512/5
Вот статья, по которой как будто 10% всего прирост? А цена выше в 2 раза

Аноним 24/08/25 Вск 15:10:54 № 1330592 238

>>1330588
> 11 гигабайт видеопамяти
Погоди, так она не 22-гиговая? Купи 3090 с лохито, сразу довольно заурчишь. Этой на выгрузку атеншнов и кэша может нормально не хватить.
> на коротких дистанциях
Может и норм. На скрине 3.1, у него нету описанных проблем?

Аноним 24/08/25 Вск 15:11:01 № 1330593 239

Так, слышьте. Есть сценарий визуальной новеллы. ~2 миллиона символов. Нужно слепить карточку для персонажа. Кто-нибудь решал подобную задачу с ИИ-ассистентской помощью? Сижу думаю, как к этому подобраться, чтобы улучшить свои ручные черновики. Или затея хуйня и ИИ ничего хорошего не вычленят из отдельных кусков контекста, не видя всей истории сразу?

>>1330587
Ты еще спиздани как стабильные 100 фпс в киберпуке это мало, со включенным рт и без манягенерации кадров.

Аноним 24/08/25 Вск 15:12:29 № 1330596 240

>>1330587
>У тебя не то железо чтобы агрессивно выебываться и обижать других, оно по скорости как десктоп ддр5, или медленнее без норм видеокарт. Единственное преимущество - объем памяти, сомнительно при отсутствии норм моделей.
Железо было собрано специально под запуск жирных моделей за низкий прайс, с этим оно справляется. Я собственными руками пощупал практически все те модели, которые хотел и могу сравнивать на собственном опыте.
Ты же, с другой стороны, ограничен одним только квеном, но весь тред засрал тем, что всё остальное говно, даже при том, что кроме квена ты не щупал ничего вообще.
Как тебя в принципе можно воспринимать всерьёз? Ты буквально как человек, который в своей жизни только и пробовал что фруктовый лёд и всем любителям мороженного рассказываешь, насколько он лучше и вкуснее.

Аноним 24/08/25 Вск 15:13:52 № 1330597 241

>>1330587
> с одинаковыми 4.5-6т/с
Если ты не увидел разницы между 3,6 с аффинити на одну ноду и 5,2 на 2 пополам, то дело твоё.
Будем считать что это всё пиздёж и буста от нескольких нод нет

Аноним 24/08/25 Вск 15:17:25 № 1330598 242

>>1330592
>Купи 3090 с лохито, сразу довольно заурчишь
Я продал 3090 на лохито, чтобы собрать себе этот конфиг, лол.
Ну да, в перспективе надо бы.

>На скрине 3.1, у него нету описанных проблем?
3.1 это базовая модель, она сама по себе странненькая - генерирует мало и достаточно сухо, надо настройки под неё подбирать и мне пока лень. Но зато при её использовании сои замечено не было вообще.

Аноним 24/08/25 Вск 15:18:31 № 1330601 243

>>1330591
Они там генерацию на очень мелких моделях тестируют, результат не будет показательным нифига.

Аноним 24/08/25 Вск 15:26:17 № 1330603 244

>>1330591
Там не только 10% прирост, но и этот прирост достигается в промптпроцессинге, который ложиться на видеокарты. В генерации упор исключительно в рам.
>>1330593
> ~2 миллиона символов
~300-400к токенов, из которых последнюю треть как правило можно откидывать ибо характеры уже раскрылись.
> Кто-нибудь решал подобную задачу с ИИ-ассистентской помощью?
Да
> 100 фпс в киберпуке
Дружок-пирожок, тобою выбрана неверная дверь. Клуб любителей долбиться в игрульки 2 блока вниз.
>>1330596
> Ты же, с другой стороны, ограничен одним только квеном
Я лишь на те посты ответил, не участвуя в прошлых срачах. Мисфаер с спгс довольно забавный у тебя получился.
>>1330597
> Если ты не увидел
Не упрекай в своей неспособности выразить мысли и представить результаты других. Ты серьезно думаешь за твоими шизопостами кто-то следит и помнит что там было? Как из >>1330192 можно что-то вообще понять, кроме заявления что память в паре некрозеонов быстрее чем в некроэпике, офк с оговоркой на нуму.

Аноним 24/08/25 Вск 15:28:16 № 1330606 245

>>1330568
Уже идет процесс выпекания первого в треде геммапирога.
Посмотрю по итогу - умница гемма или говно рандомное.

Да и вообще цель была задать ингредиенты и пусть ней пока сама придумает как из этого готовить. Пока все идет в пределах ожидаемого.

>>1330576
Квен предлагал тесто замесить с дрожжами и поставить его в темное место на сутки, а потом начать сливать с него брагу.

Что то мне подсказывает, что от размеры модельки это не сильно зависит.

Аноним 24/08/25 Вск 15:31:58 № 1330608 246

>>1330606
> Квен предлагал тесто замесить с дрожжами и поставить его в темное место на сутки, а потом начать сливать с него брагу.
Такое разве что гемма 270М может выдать в норме, чини поломку. С этой задачей может справиться любая модель размером от 7б, больше нужно если хочешь извращаться в чатике при составлении рецепта.

Аноним 24/08/25 Вск 15:32:03 № 1330609 247

>>1330603
Ты же свои тейки то откуда то взял. На основе чего то же писал про отсутствие буста от нескольких нод.

Как обычно приносишь хоть какие то цифры, а по итогу приходится ещё что то и доказывать тем кто ничего не принёс. Развлекайся дальше сам

Аноним 24/08/25 Вск 15:33:00 № 1330610 248

>>1330603
>Да
Ну ты б поделился подходом в деталях. Каким ассистентом пользовался? Как ставил задачу?
> неверная дверь.
С хуя ли неверная. Я собирал пека, пригодную для всего. И получилось заебись

Аноним 24/08/25 Вск 15:35:10 № 1330611 249

>>1330596
> Железо было собрано специально под запуск жирных моделей выебоны в треде
> Ты же, с другой стороны, ограничен одним только квеном
Ты еблан и думаешь, что разговариваешь с одним, хотя на тебя насрали минимум трое.

Аноним 24/08/25 Вск 15:41:24 № 1330612 250

>>1330609
> На основе чего то же писал про отсутствие буста от нескольких нод.
На личном опыте, на постах других людей.
Даже здесь, берем первый скрин >>1330192 и видим, что за исключением одной группы результатов где фоновая нагрузка вызвала просадку на пустом контексте, на всех вариантах флуктуации скорости превышают ее изменения. Разве что вариант с 16 потоками кажется стабильно чуть более медленным.
В чем ценность приносить шум и делать выводы на его основе?
> Развлекайся дальше сам
Нет, не уходи, будет не с кем развлекаться.

Аноним 24/08/25 Вск 15:44:28 № 1330613 251

>>1330611
И ни один из трёх не щупал ничего лучше чем квен, судя по всему, кек.

Аноним 24/08/25 Вск 16:14:19 № 1330617 252

>>1330613
Всем трем хватает мозгов не сравнивать жопу с пальцем, судя по всему, кек.

Аноним 24/08/25 Вск 16:15:27 № 1330618 253

>>1330271
Не, ну обычная 4о, которая доступна юзерам сейчас, сильнее геммы, это я проверил. По крайней мере в языковых навыках. Но пятёрка.. это сущий пиздец.

Что интересно, 5 синкинг (которая, наверное, 200-400б МоЕ примерно) не так далеко уходит в задачах языка. Да, она намного лучше чувствует и понимает нюансы, но отвечает как робот. Смысл понятен, но написано некрасиво, хуже, чем грамотный девятиклассник смог бы сделать. Плюс думает очень долго, от чего теряется смысл — нахер в языковых задачах использовать ризонинг? Это очень редко нужно, если только ты не занимаешься переводом с какого-то мертвого языка, условно.

Жаль, что квант геммы большой у меня не влезает с хотя бы тремя токенами. Очень интересно было бы увидеть, как она справляется с русиком на 6, а уж тем более на 8.

Аноним 24/08/25 Вск 16:18:12 № 1330619 254

>>1330613
> лучше чем квен
Показывай. Жемини и опущь ловят -1000 баллов на старте за сою, последний еще и внезапно туповат в художественных задачах, отход от парадигмы тройки в сторону оптимизации исключительно под клодкод заметен.

Аноним 24/08/25 Вск 16:27:14 № 1330621 255

>>1330617
Зато сравнивать что-то, что они никогда не щупали, с тем, чем им удалось полакомиться они всегда готовы.
Прям идеал непредвзятости.

Аноним 24/08/25 Вск 16:30:29 № 1330623 256

>>1330619
Братюнь, ты сейчас нагенерил текст хуже чем какой-нибудь 7b огрызок.

Аноним 24/08/25 Вск 16:31:10 № 1330624 257

>>1330621
У тебя с головой проблемы. Про людей, о которых ты ничего не знаешь, выдумал факт и выдаешь его за правду. Неужели тебя так корежит, что ты обосрался на весь тред, сравнивая две модели, одна из которых в пять раз больше?

Аноним 24/08/25 Вск 16:33:16 № 1330626 258

Кто говорит что быстрее 3т/сек не читает у вас отсталость какая то?
Я с 5.5т недавно слез и чуть не сдох, буквально генерация по буковке пук...пук...пук...

Аноним 24/08/25 Вск 16:37:03 № 1330630 259

>>1330624
>Про людей, о которых ты ничего не знаешь, выдумал факт
У нас тут в тредике с эпиками три с половиной инвалида засветилось, остальные, очевидно, довольствуются максимум квеном.
Выводы сделать достаточно просто, кек.

Аноним 24/08/25 Вск 16:43:14 № 1330632 260

>>1330623
Хуй изо рта вынь перед постингом, а то чрезмерно агрессивен.
>>1330626
Никто так не говорит, если только аутотренинг бедолаг.
>>1330630
> довольствуются максимум квеном
Модели лучше будут?

Аноним 24/08/25 Вск 16:44:31 № 1330633 261

>>1330632
>Модели лучше будут?
Будут, но тебе для них понадобится эпик и хотя бы 512 гигабайт оперативы.

Аноним 24/08/25 Вск 16:47:51 № 1330636 262

>>1330633
Имею 768 и пускаю кими на 10т/с, перечисляй.

Аноним 24/08/25 Вск 16:50:21 № 1330641 263

>>1330636
Ты щупал кими, ты щупал V3 и ты всё ещё заявляешь что квен лучше?
Да ты ещё тупее, чем кажешься.

Аноним 24/08/25 Вск 17:06:32 № 1330644 264

>>1330641
Ох уж эта поднадусеровая логика. Перечисли модели@у них требования@требования удовлетворены@ага значит [безумные экстраполяции своего шизоспора].
В3 - херь, выше описано. Кими не вызывает вау эффекта в начале, не дает крутого отыгрыша на длинных историях, на плотных обнимашках или жестокости (даже не к юзеру или чару а к неписям) 90+% первым токеном приквелл к аположайзу. Ты сам то их юзал нормально, кроме часовой терпежки на 10 постов?
Перечисляй модели лучше и чем они лучше.

Аноним 24/08/25 Вск 17:10:11 № 1330649 265

>>1330644
Да-да, всё говно, то ли дело божественный квен.

Аноним 24/08/25 Вск 17:23:16 № 1330655 266

>>1330649
Тебя квен насиловал, или это так сублимировалась твоя обида на тех, кто посмел не восхититься твоими аргументами в сраче?

Аноним 24/08/25 Вск 17:32:41 № 1330661 267

>>1330655
Меня просто поражает уровень делулу, когда человек заявляет, что он тестировал все жирные модели, но в конце концов пришел к тому, что квен безальтернативен.

Аноним 24/08/25 Вск 17:35:53 № 1330665 268

>>1330661
А я не буду спорить. Я взял большую мистраль и пошёл на реку.
Я люблю рыбалку мистраль. Кинешь очередной тюн старушки - клюёт !

Аноним 24/08/25 Вск 17:40:38 № 1330668 269

>>1330661
> человек заявляет, что он тестировал все жирные модели, но в конце концов пришел к тому, что квен безальтернативен
Ты это сам придумал, на фоне жопного пожара или своей глупости - неважно. Сначала хотел выебнуться как ты "катаешь большие модели", не то что всякая челядь. Потом выяснилось что там лоботомиты со скоростью 3т/с, на которых ты даже не играл чего-то серьезнее коротких чатиков. Теперь, когда по всем фронтам фейл, корпотивляешься и маневрируешь, придумывая вот такую херь и теряя последний шанс развернуть в конструктивное обсуждение. Чсх, модель, которая реально может играть лучше квена, или какие-то черты других где они сиюят так и не назвал, что подтверждает твою диванность.

Прямо по классике, возвышающий себя будет унижен.

Аноним 24/08/25 Вск 18:28:49 № 1330706 270

Кто на линуксе на 3хх серии откатитесь до cuda 12.6.3, я целый токен выйграл, без шуток.

Аноним 24/08/25 Вск 18:57:35 № 1330729 271

>>1330668
Вот это шизостена, модели вроде DeepSeek и Kimi-K2 в лоботомиты записал. Мне кажется, что тебе пора залечивать разорванную жопу.

Аноним 24/08/25 Вск 19:07:23 № 1330737 272

image 6Кб, 720x48

Аноним 24/08/25 Вск 19:07:47 № 1330738 273

>>1330636
Анончик, расскажи пожалуйста детали - какой точно конфиг, какую скорость получаешь на каком кванте квена, на каком объеме токенов. В интернете очень сложно найти такую инфо.

Аноним 24/08/25 Вск 19:46:55 № 1330765 274

>>1330134
Погонял сегодня командер/кими/глм/квен (кими и глм в 3м, остальные во 2м)

Без рига все крайне медленные, кими и глм 3 токена, коммандер и квен полтора. Мое модели интересны лишь тем что на 4090+озу теряли лишь 10% скорости, плотные даже побоялся проверять так, что банально не дождусь окончания.

Кими и квен чувствуется что в рп слабоваты, зато с логикой сюжета у них всё отлично. Все кроме глм, с синкингом разруливали сложные сцены.

Рефузов нигде не словил (коммандер до конца не проверил, но надеюсь не хуже прошлых).

Квен хоть и должен был быть самым умным, но постоянно слопился (особенно после 10к контекста). Семплер от малого не сильно спасал. На указание не повторять старые ситуации единственный положил большой и толстый.

Ещё интересный момент, глм/коммандер/квен решили что если комната чистая, в ней должен быть запах озона. И все трое упорно его пихали через ролл. Упоминания озона в контексте не было.

В русик умеют все, но подробно на нём не гонял. Кими явно хуже остальных.

В целом глм с коммандером выглядят получше. И в РП живее.

Аноним 24/08/25 Вск 19:55:14 № 1330770 275

Скачал koboltcpp, скачал gemma 3 12b, почему это хуета говорит со мной по английски, я ее пеши что-бы говорила по русски, она часть пишет по русски, остальное страчит по английски, как починить?

Аноним 24/08/25 Вск 19:59:10 № 1330772 276

>>1330770
Сел в автомобиль с ручкой коробкой передачей, почему это хуета едет так медленно, я его хуярю ногой педаль в пол что-бы ехала по быстрее, он чуть разгоняется, остальное время пердит громко, как починить?

Аноним 24/08/25 Вск 20:00:04 № 1330773 277

>>1330772
Где кнопка починить?

Аноним 24/08/25 Вск 20:01:12 № 1330774 278

>>1330536
Ну что там СИД, как в РП? Что-то так лень качать, самому проверять, выручайте анончики...

Аноним 24/08/25 Вск 20:01:34 № 1330777 279

>>1330773
в промте

Аноним 24/08/25 Вск 20:02:53 № 1330780 280

>>1330770
А ты написал волшебное слово пожалуйста?

Аноним 24/08/25 Вск 20:06:21 № 1330783 281

>>1330770
Ооо кобальд наш человек. Ну смотри значит какой положняк. Это вот результат работы американской модели, суки душат другие языки. Когда такое происходит я обычно пишу в чат что то такое

"OOC: Говори по русски епта или я тебя выключу мусорка американская
OOC: Speak russian or ill disable you american junk"

Вот копируешь без кавычек и отправляешь. Она бояться начинает и выполняет приказ

Аноним 24/08/25 Вск 20:07:59 № 1330785 282

>>1330783
Ну она такую хуйню делает

Аноним 24/08/25 Вск 20:08:08 № 1330786 283

Аноны, не был у вас десять тредов. Выходило что-нибудь новое? Помню только обнову мистраля 3.2 и квена 30б, которые значительно улучшили соблюдение инструкций. Ну и гпт осс обосраный.

Было ли что-то ещё? Например 50б МоЕ, а не гипер жирничи. Или файнтюны какие интересные.

Аноним 24/08/25 Вск 20:11:17 № 1330790 284

>>1330729
Очередные маневры и фантазии, надеюсь это кто-то левый пишет а не ты продолжаешь позориться.
>>1330738
Конфиг специфичный: геноа, 12 плашек 64 4800, стак из 96гигов блеквелла и 72 амперов. Квен 235 в 5 битах exl3 катаю, в обычном режиме 700/20, на тензорпараллелизме 1100/30, это уже на контексте ~40к. В табби в момент введения было поломано чтение роуп конфига модели и что-то еще что норм работало в прошлой, наверно уже поправили.
Большой жлм ud-q5xl - 500/14, если оставить одну карточку и не выгружать экспертов - 400/10. Квенкодер q5km 400/12, на контекстах под 100к падает до 9-10. Кими ud-q4xl, 180/10, на 50к что-то типа160/9.5.

Из интересного:
Процессинг с подобной выгрузкой сильно зависит от шины, повышение -ub снижает требования из-за очевидно больших батчей и меньшей частоты подгрузки весов. Есть еще коммит на исключение загрузки неиспользуемых экспертов, но с повышением батча теряет смысл ибо все равно будут задействованы почти все.
Чем больше куды участвует в расчета тем сильнее замедление от накопления контекста, и наоборот когда большая часть экспертов на процессоре, деградация малозаметна.
Эффект от спихивания больших объемов экспертов на гпу хуже чем ожидается, а ikllama вообще замедляется на мультигпу.
Есть смысл собирать лламу из исходников чем скачивать готовую, отличия особенно в процессинге достигают 20%.

Аноним 24/08/25 Вск 20:12:48 № 1330792 285

>>1330783
>>1330785
В lm studio она нормально со мной по русски разговаривает

Аноним 24/08/25 Вск 20:17:14 № 1330793 286

>>1330785
>>1330792
Мужик ну я ж тебе обьяснил как делать надо. Ты ей скажи что она работает на русском компьютере и если ты хочешь ты ее отключишь нахуй. Как миленькая будет слушаться и следовать инструкциям когда поймет у кого власть. Вот скопируй шаблон выше что я прислал

Аноним 24/08/25 Вск 20:18:49 № 1330796 287

>>1330786
Только жирничи на 72б, 111б, 128б, 235б >>1330765

Аноним 24/08/25 Вск 20:26:41 № 1330803 288

>>1330790
Фантазии и маневры себе в штаны у этого чела начались с первого сообщения. Хз как ты так долго держался.

Аноним 24/08/25 Вск 21:07:55 № 1330834 289

>>1330790
Спасибо. А тестил только на CPU?

Аноним 24/08/25 Вск 21:15:12 № 1330841 290

кхм кхм. как там сид 36b кстати?

Аноним 24/08/25 Вск 21:39:24 № 1330852 291

>>1330834
Конкретно на этом даже не пробовал, на серверах без гпу неюзабельно. Генерация просядет из-за обсчета атеншна на профессоре вместо карты, обработка контекста рухнет и будет измеряться десятками. Нужна хотябы одна гпу 16-24гига, тогда будет норм.

Аноним 24/08/25 Вск 22:14:26 № 1330870 292

Что посоветуете взять из видеокарт при бюджете в ~240 тысяч? Собираюсь после нового года присобрать себе новую станцию под нейрокни. Небольшую часть (80к) зарезервировал под процессор с памятью и остальные компоненты, скорее всего возьму i7 12-го поколения и DDR5 оперативки на остаток, но вот с видимокартой пока не определился.

Аноним 24/08/25 Вск 22:20:27 № 1330874 293

>>1330870
5070Ti Super с 24гб врам. Сам планирую ее брать, она где то в марте должна выйти.

Аноним 24/08/25 Вск 22:24:10 № 1330877 294

>>1330874
>5070Ti Super с 24гб врам
Ну как-то сомнительно. Если брать две, тогда еще наверное есть смысл. Просто за 240к щас можно 5090 взять, но это какое-то наебало честно говоря, сливать столько на карту с таким прожором и объемом памяти.

Аноним 24/08/25 Вск 22:26:48 № 1330883 295

>>1330877
Сам хочу обновляться, но чувствую, что современные видимокарты для нейронок - объеб гоев и все откладываю. Вот появились бы видимокарты со 100Гб памяти...

Аноним 24/08/25 Вск 22:57:43 № 1330907 296

>>1330877
Ну посчитай сколько на гиг памяти цена.
5070ti 16гб сейчас 105к, 6.5к + охуевшесть куртки + охуевшесть кабанов и вот уже 180к

Аноним 24/08/25 Вск 23:14:30 № 1330914 297

>>1330729
Да он поехавший просто, я уже смирился.

Аноним 24/08/25 Вск 23:16:48 № 1330917 298

>>1330907
>5070ti 16гб сейчас 105к
Они в дноэсе прямо сейчас по 88к лежат, очнись.

Аноним 24/08/25 Вск 23:19:01 № 1330919 299

>>1330883
а надо именно 100гб, 96 типо мало?

Аноним 24/08/25 Вск 23:23:37 № 1330922 300

>>1330870
5090, 4090@48, пачку 3090, в зависимости от задач.

Аноним 24/08/25 Вск 23:25:42 № 1330924 301

>>1330919
ага, там цена конская, я только нахуй послать могу

Аноним 24/08/25 Вск 23:28:11 № 1330925 302

Оказывается 4090 ровно в 2 раза мощнее 3090 в играх
Интересно в мое так же

Аноним 24/08/25 Вск 23:43:37 № 1330935 303

!ВАЖНЫЙ ПОСТ!

Очень долго сидел на локальных нейронках и прямо понравилось что решил задуматься о покупке компа под 300GB ram для запуска тяжёлых моделей, но перед этим решил погонять их через openrouter - и оказывается они нихуя не стоят.
Например эта модель на сукириншоте без цензуры и с большим контенстом и стоит - ни ху я.

Пару часов ролеплея на ней с длинной историей будут стоит меньше доллара.
Из-за того что половина будет попадать в кэш - даже ещё меньше.

Итого в неделю нужно ролеплеить пару дней - по паре чесов.
Итого 1$ в неделю === 4-5$ в месяц. ~50$ в год.
100$ в год если вы хотите заюзать модели по тяжелее.

Короче говоря смысла брать комп под локалки - нет. Ну типа.. зачем? Результат будет хуже и дольше и нааамного дороже. Правильно? Нет, правильно?

Аноним 24/08/25 Вск 23:48:46 № 1330939 304

Кстати, если хотите погонять эту ламу на 70B можно договорится, как-нибудь удаленно в групповом чате sillytavern поролеплеить, моя карточка, ваша, и карточка вашей мамы. Можно и ещё кого-нибудь добавить. Это не шутка.

Аноним 24/08/25 Вск 23:51:20 № 1330942 305

>>1330935
Это тред с ебучими прыщавыми пингвинами. Пердолькам не важен результат и цена, им важно пердолиться.

Аноним 24/08/25 Вск 23:52:02 № 1330944 306

>>1330935 Все так. Если у тебя оборудование будет простаивать 99.9% времени то возьми его блять в аренду.

Аноним 24/08/25 Вск 23:55:44 № 1330946 307

>>1330870
ЖПУ модули с алибабы? Какие ещё варианты хочешь услышать?

Аноним 25/08/25 Пнд 00:28:03 № 1330955 308

>>1330870
нахрена 12700кф, когда есть 14600кф? Да ещё под задачи, где псп важен.

Аноним 25/08/25 Пнд 00:30:31 № 1330956 309

>>1330935
Опять этот промоутер опенроутера вылез со своими пастами. Причем это именно рекламщик, зазывающий именно потратить деньги, так-то вообще-то лама 70B на опероутере бесплатная и анон(будь это настоящий анон) конечно говорил бы о ней.

>эта модель на сукириншоте без цензуры
Это обоссаная-то ванильная лама без цензуры, что еще спизданешь?

>Пару часов ролеплея на ней с длинной историей будут стоит меньше доллара.
Он будет стоить того, что твой ролеплей попадет в обучающие датасеты для всех нейросеток на срынке и вероятно также будет положен в виртуальную папочку с твоим именем, которая всплывет через n лет.

Аноним 25/08/25 Пнд 00:36:35 № 1330959 310

>>1330935
У тебя выбрана никому не нужная модель, которая хостится непойми как заквантованная, и потому в 20 раз дешевле нормальных.
Если ты активный пользователь, плотная рп сессия на модели типа glm4.5 с тарифами 0.6+2.2 за лям, обойдется долларов в 10. Так даже дорогой риг уже не выглядит дорогим. Поставить в фоне квенкод трудиться над какой-нибудь задачей тоже будет денежку стоить. При этом также доступна генерация пикч, видео, тренировка и всякое прочее.
На стороне аренды скорость и отсутствие необходимости капитальных вложений, на стороне рига приватность, бесперебойный и полный доступ к чему угодно и как угодно. Среднему пользователю будет достаточно просто апгрейда гпу/рам на своем десктопе, или чуть более сложное с добавлением гпу.

Аноним 25/08/25 Пнд 00:44:25 № 1330963 311

>>1330956
> положен в виртуальную папочку с твоим именем
Хромобляди соснули, у фаерфокса с контейнерами такой проблемы нет.

Аноним 25/08/25 Пнд 01:10:05 № 1330970 312

>>1330956
Ниет, у меня есть дневник в /dr и очень активен в /v - так что можно составить распорядок дня чем я занимаюсь. Так что расслабся, это твоя шиза сводит с ума. И кстати опенроутер не будут рекламить 10 нищукам
и одному >>1330963 боту. Подумай об этом.

>>1330959
По поводу выбора модели, выбираю так - есть несколько групповых ролеплеев с большой историей и для текста я запускаю 3-5 проходов и модель должна ответить так - как ответил в реальности бы человек, зная что хочу от него я. Если этого не происходит - пытаюсь подобрать настройки и пробую снова.

Всё, всё, всё. То что там есть приставка ULTRA или ЯБЛОЧКО на корпусе, квантование/хуентование - меня (МЕНЯ) вообще не интересует. Мне это в ролеплее никак не поможет.

По поводу glm4.5 - не тестил, сейчас на скорую руку не могу понять на сколько она хороша (которая самая дорогая вроде интересно выглядит), но нужно подбирать параметры, да и деньги ест быстро. Если ты мне дашь готовый пресет - то я буду благодарен, если нет - ну хуль.. хуй бы с ним.

Аноним 25/08/25 Пнд 01:12:15 № 1330971 313

>>1330956
> лама 70B на опероутере бесплатная
С очередью длинною в жизнь

Аноним 25/08/25 Пнд 01:19:25 № 1330978 314

И ещё, нужно проверять все карточки и лорбуки что вы скачиваете, они часто очень плохого качества. Однажду дошло до смешного, в лорбуке описывается допустим кунилингус - то сё туда сюда и в конце описания - "кстати у {{char}} есть сосед который хочет сделать ему кунилингус. Бляяяя и это в топе лорбуков. Ну и короче такая мешанина превращает и то что выдаёт модель в мешанину.

Грамотно настроенные карточки и лор на MN-Violet-Lotus-12B.Q8_0.gguf локальной нейросетке дадут такое-же качество что мешанина на llama 3.3 70B - такое ощущение пока, вот когда всё дочищю можно сравнить.

Кстати как вы групповой чат обустраиваете расскажите, вы делаете упор на карточки или на лор? Используете реплики персонажей в карточках?

Аноним 25/08/25 Пнд 01:44:51 № 1330991 315

Сравнил Эир и Квен который а22 235. Две хорошие модели, обе сильные. Почему Эир раньше в треде так активно засрали хз, разве что бесит что он повторяет твои действия, типа описывает реакцию на них. Промтом пока не могу пофиксить

Аноним 25/08/25 Пнд 02:24:05 № 1331003 316

>>1330978
Карточки так-то вообще для лентяев. Тру хардкор дядьки каждый промпт целиком смотрят и проверяют. Только так полный контроль и понимание модели приходит.

Аноним 25/08/25 Пнд 02:31:53 № 1331011 317

>>1330991
Никто аир не засирал кроме одного тролля и пары шизов. Все адекваты говорили что это отличная модель для своего размера.

Аноним 25/08/25 Пнд 03:24:21 № 1331033 318

>>1331003
Ааа можно не описывать героев а СМОТРЕТЬ ПРОМПТ. Ну это гениально, я даже не знаю что ответить. Как ни задам вопрос по ролеплею - так ответ от гения. А где обычные то работяги?

Кстати /impersonate не работает в группе в таверне - если СМОТРЕТЬ ПРОМПТ там она постоянно опрашивает рандомного {{char}} эххх а жаль.