/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №135

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №135 /llama/ Аноним 28/05/25 Срд 17:33:53 № 1221316 1

Альфа от контек[...].png 121Кб, 3090x1830

Эффективность к[...].png 92Кб, 1399x1099

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1215508 (OP)
>>1211347 (OP)

Аноним 28/05/25 Срд 17:35:26 № 1221318 2

УРА!!!

Инструмент чтобы присваивать чужие труды с janitorai.com
https://sucker.severian.dev/

Список актуальных моделей для 12-24 VRAM
- Qwen3-30B-A3B
- gemma3-27b-abliterated-dpo
- Harbinger-24B
- QwQ-Snowdrop
- Star-Command-R-32B-v1
- remnant-glm4-32b
- Space-Wars-24B-v1.00b
(дополняйте)

Выгрузка тензоров
https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7/dont_offload_gguf_layers_offload_tensors_200_gen/

Пример конфига для llamacpp: https://pastebin.com/udG8dPk6

Китайская обниморда: https://modelscope.cn/models

Аноним 28/05/25 Срд 17:39:29 № 1221324 3

>>1221318
>Выгрузка тензоров
Уже в шапке как бы.

Аноним 28/05/25 Срд 17:40:17 № 1221325 4

zastavki-gas-kv[...].jpg 284Кб, 1920x1080

Итак, пора уже собирать фидбек и делать новый список.

Призываются гига_бояре для своего КРЯ относительно огромных моделей. Что актуально, что вышло, что вы пробовали. Что рекомендуете. Желательно писать пределы VRAM для вменяемого использования.

Так как по средним и малым - фидбека хоть жопой ешь, собирай ходи только. Чем и займусь после работы.

Аноним 28/05/25 Срд 17:40:43 № 1221327 5

>>1221318
>(дополняйте)
Llama-3_3-Nemotron-Super-49B-v1

Аноним 28/05/25 Срд 17:41:45 № 1221330 6

>>1221327
Не переживай, внесем мы твой немотрон, успокойся уже и прекрати срать.

Аноним 28/05/25 Срд 17:42:18 № 1221333 7

>>1221318
remnant-glm4-32b
Space-Wars-24B-v1.00b
THUDM/GLM-4-32B-0414
PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
CohereLabs/c4ai-command-r-08-2024

Аноним 28/05/25 Срд 17:43:11 № 1221334 8

>>1221325
Из нормального только Квен 235В и Гемма 27В. Остальное кал, не достойный сравнения даже с бесплатным Gemini Flash 2.5.

Аноним 28/05/25 Срд 17:44:51 № 1221335 9

>>1221316 (OP)
Так я не понел, а где гайд по магик транслятору?
В рентри и в шапку, я больше его повторять не буду.
Нет так и хуй с вами, живите в проклятом мире который создали своими руками.

>>1221318
>- Qwen3-30B-A3B
Нужна отдельная сноска в рентри для моделей онли cpu/маловрам и это его S тир

Аноним 28/05/25 Срд 17:47:04 № 1221340 10

>>1221335
>Так я не понел, а где гайд по магик транслятору?
Не видел ссылки на рентри. Плюс слово транслятор в предыдущем треде не встречается.

Аноним 28/05/25 Срд 17:50:33 № 1221351 11

>>1221335
>Так я не понел, а где гайд по магик транслятору? В рентри и в шапку, я больше его повторять не буду. Нет так и хуй с вами, живите в проклятом мире который создали своими руками.
Анон в этом тредике мы будем пилить новую шапку, будь добр скопируй ссылки и вот сюда ответь >>1221325, я все потом внесу внесу, мы все согласимся, посремся и радостно вернемся к срачам.

Аноним 28/05/25 Срд 17:53:45 № 1221358 12

>>1221324
Слишком спешил, сорян :^) И спасибо.

Аноним 28/05/25 Срд 17:55:17 № 1221361 13

>>1221325

Цепочка сообщений по магик транслятору
>>1219841 →
>>1219875 →
>>1219892 →
>>1219948 →
>>1219963 →

>>1221340
Плохо искал, а рентри делать ручками либо ты либо неравнодушные аноны.

---------------

Копатели могут поискать мои первые посты хуй знает когда месяц назад что ли когда я писал подробно по этой теме тут серией сообщений. Или взять рецепт из сообщений выше

Аноним 28/05/25 Срд 17:55:37 № 1221362 14

>>1221333
>PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
Обо всём и ниочём, как самостоятельная модель вроде бы так себе.

Аноним 28/05/25 Срд 17:56:31 № 1221365 15

>>1221362
это буквально единственный нормальный тюн на мистраль 24б...

Аноним 28/05/25 Срд 17:57:15 № 1221367 16

>>1221362
>>1221365
Сначала идет оригинал модели, к нему списки тюнов.

Аноним 28/05/25 Срд 17:59:15 № 1221369 17

>>1221365
Твоё кря?
Моё "единственный нормальный тюн на мистраль 24б" - это харбингер. Он и в нормальный русский могёт, а данс нет, слишком пережарен. Ну или поделись пресетом.

Аноним 28/05/25 Срд 18:04:54 № 1221371 18

>>1221369
идешь нахуй, сэмплеротохошиз

вот именно поэтому собирать такие списки - плохая идея. чел присосался и просит за него все сделать, убедить его. продать ему шариковую ручку, понимаете? уже какой тред

пусть кто-нибудь сам пилит рентри со своим мнением, а оп оценит, стоит ли оно того, чтобы быть в шапке

Аноним 28/05/25 Срд 18:09:35 № 1221373 19

>>1221371
>тохо
мимо, я фэндом Touhou знаю только постольку поскольку не хнать невозможно если не живёшь в бункере без интернета

>>1221335
>cpu/маловрам и это его S тир
https://huggingface.co/collections/SicariusSicariiStuff/llama-3-8b-unaligned-6676e3c666c4fa6d0c7b17a3
Старый конь борозды не испортит.

Аноним 28/05/25 Срд 18:16:51 № 1221382 20

>>1221327
Ты, бля, Тренодиан этого треда.

Штормовые Волны - Рассвет Придёт
https://youtu.be/5D9K2rz3Uvk

https://youtu.be/fE6A0QIWOvI

Аноним 28/05/25 Срд 18:19:20 № 1221384 21

>>1221371
Я тебя скоро репортить начну. Если ты не прекратишь срать. Разборки с твоим протыком мне, да и думаю остальному треду, не интересны.

>пусть кто-нибудь сам пилит рентри со своим мнением, а оп оценит, стоит ли оно того, чтобы быть в шапке

Давай ты не будешь указывать кому что пилить, потому что сам нихуя не делаешь. Я уже насмотрелся на - давайте сделаем и тишина.
Всё что от тебя требуется это написать, если есть что из действительно важного по моделям, и не срать. Это не сложно, я думаю. Даже обезьяна справится. А если ты не понимаешь, то получишь банхаммером по жопе, это не твой любимый ациг.

Аноним 28/05/25 Срд 18:22:51 № 1221390 22

>>1221384
во-первых, важность свою попусти немного, ты здесь такой же анон как остальные
во-вторых, тебя сру не только я, либо осознай это, либо прекрати делать вид, что не понимаешь
в-третьих, свое дополнение к списочку я выше прислал, привычки срать в тред у меня нет, как у некоторых

Аноним 28/05/25 Срд 18:25:57 № 1221395 23

>>1221318
Здесь нет ни одной 12b для новичков и тупичков. Надо хотя бы немомикс анлишед воткнуть, проверенный временем: пишет кратко (но при надобности может и навалить), четко, по делу, не шизит, речь лучше аналогов, может в кум и обычный рп, без перекосов. И сломать его сложно сэмплерами или кривым систем промптом.

Идеальный вариант для того, кто может в английский и хочет пощупать локалки, ну или у кого мало видеопамяти.

Разумеется, это по сравнению с другими тюнами 12б мистраля.

---

В списке больше спорных моделей, чем ожидалось, при этом отсутствуют базированные вроде дэнс персоналити.

Может голосовалку прикрутить с моделями, чтобы был какой-то консенсус? Если только цирк не начнется с накруткой.

Аноним 28/05/25 Срд 18:28:01 № 1221399 24

>>1221384
>>1221390
А может вы оба нахуй пойдёте?

Аноним 28/05/25 Срд 18:28:19 № 1221400 25

Давайте каждый напишет по 2 плотных абзаца про свою любимую модель

Аноним 28/05/25 Срд 18:29:08 № 1221403 26

>>1221334
А что по ллама 4 скаут? Видел только пару пуков по ней здесь давно.

Трогал на опенроутере её и квен толстый. Для рп ллама мне показалась лучше, хотя там соя есть, но может её можно выпилить норм систем промптом без потери мозгов.

Мне очень интересно мнение анонов, которые распробовали ее.

Аноним 28/05/25 Срд 18:29:17 № 1221404 27

>>1221395
>Здесь нет ни одной 12b для новичков и тупичков.
Они уже в шапке и давно
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane

Аноним 28/05/25 Срд 18:31:00 № 1221407 28

>>1221403
Кал, как и Маверик. Разве что визуальная часть норм.

Аноним 28/05/25 Срд 18:31:46 № 1221409 29

>>122136
> Может голосовалку прикрутить с моделями, чтобы был какой-то консенсус? Если только цирк не начнется с накруткой.
Вы просто пишите, главное начать. Потом предварительный док скину и уже начнем метать в друг друга говно. Все как любите. Спешить не куда. Но начинать надо, а то так и будем ллм инвалидами. Думаю в пятницу скину, побегаю еще по старым тредам в поисках хайден гемов, там аноны шикарный фидбэк пилили.

Аноним 28/05/25 Срд 18:32:41 № 1221411 30

>>1221409
>>1221395

Аноним 28/05/25 Срд 18:39:16 № 1221420 31

>>1221318
> Список актуальных моделей для 12-24 VRAM
Не кипишуй, к выходным запилю, если кто-то другой не возьмется. Как отдельный пост - норм, как пихание списка в шапку уже проходили, неоче.
Большая часть списка - сомнительные тюны/миксы (может и хорошие), лучше так не делать.
> Выгрузка тензоров
> Пример конфига для llamacpp
Это хорошее
> Китайская обниморда
Это тоже

>>1221325
А, ну раз взялся то ты тогда и делай. Потом закину модные графики и что-то по железу.

Аноним 28/05/25 Срд 18:40:39 № 1221422 32

>>1221420
>лучше так не делать
>>1221367
>Сначала идет оригинал модели, к нему списки тюнов.

Аноним 28/05/25 Срд 18:44:04 № 1221429 33

>>1221420
> А, ну раз взялся то ты тогда и делай. Потом закину модные графики и что-то по железу.
Ну было бы крайне странно начинать и нихуя не делать. Это лишено всякого смысла. Пока пускай варево настоится.
Дождись пока все не соберу, а потом уже начнем крякать, заодно графиков завезешь. Пока буду исключительно модельки и шизотюны собирать на основе количества упоминаний в треде.

Аноним 28/05/25 Срд 18:50:04 № 1221440 34

>>1221404
Да. Но там ведь ру-рп.

Приходит незнайка, но с англюсиком в голове, в тред, открывает, а тут 24б, которые в его карту не лезут, и ру-миксы. Он охуевает, качает 8б кал, ну я это уже много раз видел. Как и тех, кто почему-то сидел на ру-моделях на английском. Да, в английский они могут, но лучше их не использовать для этого.

И я чекал буквально каждую модель тредовичков, когда они делались. Там буквально 1-2 нормальные.

Есть ещё модели в шапке, которые сто лет не обновлялись. От них вообще ощущения печальные по сравнению с новыми.

Почему я топлю за эту хуйню: чем больше полезной, актуальной инфы и ниже порог вката, тем выше шанс, что сюда будет закатываться больше людей и осознавать, что даже с их сраных ноутов можно терпимо порпшить. Чем больше русскоязычное комьюнити, тем больше полезного контекста и шансов получения новых ру-моделей, полезной инфы и прочего.

Возможно, ты не видел, так как это в целом мимо треда прошло, но тут был один чувак, который тюн Яндекс-кала сделал на клодослопе, оплатив генерацию это самого слопа, собравший датасет, попотевший. Он обосрался и пошёл снова переваривать, собирать датасет и пытаться сделать лучше — я с ним переговорил, оттуда и узнал.

Именно таких людей и не хватает.

Блядь, даже я, ленивое говно, делал довольно подробные обзоры некоторых моделей с примерами сообщений, качеством текста, направленностью, которые можно было бы включить — всем похуй. Ещё тонна анонов писала куда более полезную инфу, чем я — всем похуй. ОПу

Эта инфа просто тонет, не включается в шапку зачастую даже в виде хаотичного гайда без особой структуры.

Лучше криво-косо налепить хотя бы в рентри, чем вообще никак.

Аноним 28/05/25 Срд 18:53:47 № 1221453 35

>>1221440
> Возможно, ты не видел, так как это в целом мимо треда прошло, но тут был один чувак, который тюн Яндекс-кала
> пбольше бы таких
Не прошло.
Он тут появлялся и ему хохлы хуев за щеку накидали и выгнали, убедив что его говно никому не всралось и все рпшат на англюсике.

Аноним 28/05/25 Срд 18:55:35 № 1221454 36

>>1221453
> хохлы
ну кто ж еще) сегодня в каждом треде по казачку, иногда по двое!

Аноним 28/05/25 Срд 18:56:53 № 1221456 37

Я не спец в РП сейчас, но я бы предложил минимум следующие модели:

100+В: тут хватит три модели, если не две

Qwen3-235B-A22B — точно, и тут добавить тензор оффлод

Mistral Large тюны — возможно, если кто-то еще играет, обновите, что там модно?

Command-R — точно, скиньте точную модель (самый первый?) и пресет для него тоже туда же добавить.

~70В: ваще хуй знает, актуально ли.

Немотрон, лишь бы человек заткнулся, так и написать «неведомое говно, но лютый фанат есть!» =)

~30B: тут богато!
Qwen3-32b

Qwen3-30b-a3b — и тут же повторить про тензоры.

QwQ
+Snowdrop

Gemma 3 27b
+аблитератед или дпо или что там есть?
+QAT

Mistral 24 — но тут нужен список от фанатов размера

12B

Gemma 3 12b
+ QAT упомянуть

Aleteian'ские миксы, Dark Reign, хоть и старое, но не бесполезное, ИМХО.

7+B: не знаю, нужно ли?

<4B

Gemma 3 4b

Qwen3 4b

Ну и можно дописать, мол, гемма больше для диалогов, квен больше для работы, упомянуть ризонинг режим.

Не знаю, есть ли что-то еще более-менее годное и значимое?

Всякие Janus, Qwen Omni и прочие как их там мультимодалки пока что фигня, явно не заслуживают упоминания.

Аноним 28/05/25 Срд 18:56:58 № 1221457 38

>>1221440
Они и в английский могут.

Аноним 28/05/25 Срд 19:04:17 № 1221470 39

>>1221325
> КРЯ относительно огромных моделей. Что актуально, что вышло, что вы пробовали.
Серия отзывов уже есть в прошлом треде и до этого.
Из больших:
Command-a
Противоречивая модель, по умолчанию в рп может быть достаточно скучна и безинициативна, в занудных рп размер вообще не ощущается и она делает глупые ошибки как мелкая. Однако, если навалить в системный шизопромта, немного попинать ее в начале или посадить на готовый чат - может хорошо заиграть. На контекстах от 10к уже идет интереснее, прилично описывает кум, делает необычные развороты/развития сюжета, хорошо ориентируется в сай-фае и подобном, не пытаясь подмешать туда какое-то фентези хотя для такого размера за такое сразу в унитаз надо. В коллекцию и под настроение пойдет. Внезапно неплох в анализе технической литературы, норм рассуждает.
Mistral large 123b
Король локального рп/кума, он просто хорош. В базе достаточно уныл, похож на command-a, иногда раскачивается промтами, но кому-то заходит. Один из лучших тюнов - магнум в4, сохранены мозги, отлично кумит и рпшит, ломает 4ю стену подмечая и делая отсылки, чары ведут себя хорошо. Скатывание к шаблонам минимальное среди тюнов, может в разнообразие. Серьезные минусы - стиль письма "Гвардейцы двинулись на вас строем, покачивая бёдрами" (c). Еще из тюнов интересен бегемот 1.2, клодизмы также встречаются но меньше, умный, но кум похуже, с резкими переходами и шаблонностью.
Всякие люмимейды и прочие на фоне эти не понравились, 2.5 варианта рельсов кума, прыжки на хуй, отупение после кума или некоторых событий, невозможность дразнить персонажа и т.д., что для такой модели непростительно.
qwen235-22
В прошлом треде, умеет, могет, практикует. Есть проблемы, но исправляются, спгс и дотошность в разумных пределах и идут на пользу, иногда проявляет свою 22б натуру, но исправляется. Главное - ахуенный отыгрыш характеров, эмоций и естественность всего этого, кум хороший. Цензуры нет, любые занятия с любыми персонажами, от гурятины до невинного счастья (возможно сюжетная обоснованность влияет но ни одного отказа и намека). В 4ю стену влетает с двух ног, помнит нужное по всему контексту, разнообразна. Главные проблемы могут проявляться на старте чата, когда она придумает лишнего.
>>1221422
> >Сначала идет оригинал модели, к нему списки тюнов.
База, типа того что уже делали

Аноним 28/05/25 Срд 20:48:22 № 1221618 40

>>1221395
Двачую по поводу немо. Не всем нужны примеси сайги. Можно указать хотя бы самые популярные: немомикс, магмел, росинанте, магнум, вейфарер (от этих разрабов данжена сейчас есть более новая 12б muse, мне лично показалась тупой). Дальше уже желающие смогут их миксы сами искать. Более узкоспециализированные поехавшие модели Дэвида или ПокетДока (все эти darkness, madness, dangerous winds), не знаю, нужно ли.

Аноним 28/05/25 Срд 20:48:27 № 1221619 41

Лолихантер.mp4 15271Кб, 640x360, 00:02:40

Это всё прекрасно но 123-235б это вообще для кого?
Для мажоров, айтишников и прочих негодников
А на одну 3090 любой анон может накопить, пошёл еду повозил и в конце месяца уже чатишься с канничкой

Аноним 28/05/25 Срд 20:50:42 № 1221623 42

>>1221619
Канничка - это кто/что?
мимо анон мажор-айтишник-негодник, откладывал на 3090 3 месяца

для 24гб врам ребят топ моделей уже давно известен, тут как будто таких большинство или эта группа самая активная в треде

Аноним 28/05/25 Срд 20:51:54 № 1221626 43

>>1221619
Товарищ майор не одобряет твои действия потому что завидует потому что карточек не кидаешь.

Аноним 28/05/25 Срд 20:57:30 № 1221629 44

Кто уже кочает новый дикпик?

Аноним 28/05/25 Срд 20:58:48 № 1221630 45

>>1221629
Никто, ибо он нахуй не нужен. Мое небось какой-нибудь на триллион ненужных параметров (я не смотрел).

Аноним 28/05/25 Срд 21:36:48 № 1221704 46

Есть ли файнтюны Gemma 3 4b с прокаченным пониманием русского языка?

Аноним 28/05/25 Срд 21:43:32 № 1221725 47

Еще инфа по твику выгрузки тензоров. В прошлом треде я выжал ~25t/s из quen3-30b-a3b (IQ4_XS) на 3060 12GB. Так вот - это не предел. Можно еще больше:

Это начало чата:
CtxLimit:1093/12288, Amt:320/320, Init:0.01s, Process:1.40s (552.93T/s), Generate:11.12s (28.77T/s), Total:12.52s

Это почти полный 12К контекст.
CtxLimit:9993/12288, Amt:221/400, Init:0.09s, Process:16.00s (610.86T/s), Generate:8.47s (26.10T/s), Total:24.46s

Выяснилось, что чередовать тензоры при выгрузке не нужно. Наоборот, лучше выгрузить все по по порядку, на сколько VRAM хватает.
Вот текущий вариант ключа: --overridetensors "[^\.12][0-9].ffn_.*_exps.=CPU"
Первая часть остается на GPU, только хвост списка идет на CPU (начиная с 30-го). Дает еще +4 t/s, примерно.

Обнаружил прикол - если фоном машина качает что-то из интернета в броузере (да ту же модель с хуга тащить) - это -4-5 токенов от скорости генерации. Причем именно в броузере, если тупо в локалке файлы кидать - не влияет.

Аноним 28/05/25 Срд 21:49:51 № 1221750 48

>>1221725
После такого модель не превращается в лоботомита 1b?

Аноним 28/05/25 Срд 22:06:37 № 1221797 49

>>1221750
Нет конечно. Этот твик в принципе ничего не выбрасывает и не жмет, так что повлиять на качество не способен. Он просто указывает какие части модели куда класть (cpu/gpu). Более тонко, чем просто слои делить.

Аноним 28/05/25 Срд 22:09:44 № 1221807 50

>>1221797
Понял пачибо.

Аноним 28/05/25 Срд 22:24:46 № 1221866 51

>>1221725
> "[^\.12][0-9].ffn_.*_exps.=CPU"
А скрин можно? Тут редактор пердолит звездочки и слеши

Аноним 28/05/25 Срд 22:33:12 № 1221885 52

>>1221866
И в моем посте и в квоте все точно. Ничего не отвалилось. Там один слеш, и одна звезда.

Аноним 28/05/25 Срд 22:34:54 № 1221890 53

>>1221618
Может раз мистралей 12-24б так много, под них отдельные страницы завести? Тем более что их инджоеров полно, может кто-то возьмется вести.
>>1221619
> пошёл еду повозил и в конце месяца уже чатишься с канничкой
Повози еще два и будешь чатиться с канничкой на 100-200б.
Важно отметить что 235б - это мое с 22б активных параметров. Она будет иметь сносную скорость даже на одной видеокарте с выгрузкой на процессор. Правда сносно - не значит хорошо, возможно с медленной генерацией модель может показаться уже не такой хорошей, потому что каждый косяк, свайп, исправление и т.д. будут доставлять недовольство из-за задержек.
>>1221750
Если в жоре нет каких-то багов связанных с пересылом и около того, то все должно быть норм. Но лучше потестить и с осторожностью.

Аноним 28/05/25 Срд 22:54:50 № 1221931 54

>>1221629
Особой разницы не замечаю. Они его похоже просто как V3 чуть подтюнили. Но прогресс явно меньше по сравнению с V3 -> V3.1.

Аноним 28/05/25 Срд 22:58:23 № 1221938 55

>>1221629
Прошлый был слишком большой чтобы помещаться в разумное нищукское железо, и слишком вялый в рп по сравнению с квенчиком. Первое точно не изменилось и множит все на ноль, второе под вопросом, но шансов мало.
Ну, кто попробует - расскажет.

Аноним 28/05/25 Срд 23:13:59 № 1221980 56

>>1221725
я не понимаю...... можно для лоботомита-дрочуна скинуть что надо вставить в батник шоб работало?

Аноним 28/05/25 Срд 23:33:31 № 1222002 57

Антончики, какую Гемму (с)кват лучше хватать - гугловскую ванильную или от unsloth?
У последних вроде как кванты компактнее и современнее, чем Q4_0.
Кто-то сравнивал?

Аноним 28/05/25 Срд 23:53:48 № 1222021 58

>>1221980
Нельзя, смирись. Это нельзя тупо взять, вставить, и получить гарантированный результат. То что я написал - это пример. Для каждого отдельного случая надо подбирать под конкретную железку и модель.
В прочем, если у тебя строго как у меня - 3060 12GB, пингвин который выводит GUI на другую карту (не занимая vram на этой), и qwen3-30b-a3b - можно скормить ключ кобольду как есть - эффект будет.

Аноним 28/05/25 Срд 23:55:40 № 1222024 59

>>1221619
Для 235б тебе надо 128 оперативы и любя 3060 или меньше.
Это в сумме дешевле 3090, дратути. =)

Аноним 28/05/25 Срд 23:56:04 № 1222026 60

Так, короче, наконец я релизнул свой видосян по поводу сборки и с чистой совестью могу сказать:

5 P104-100 нужны только полным бомжам, которые хотят гонять большие модели.

Плюсы:
+ Стоит 25к под ключ.
+ Втрое быстрее DDR4.
+ 40 гигов, пихай Q8, не жалко!

Факт:
17~22 токена у 30b-a3b модели.

Минусы:
- 5-7 токенов у 27b~32b моделей.
- 8 гигов оперативы и это все.
- Ни на что больше не годны, разве что генерить картинки и видосяны на выделенных видяхах мелкими моделями.
- Не топ за свои деньги по тпс, вполне обычная цена, игровой комп потянет квенчик чуть медленнее, зато он уже есть.
- Старое, нестандартная сборка.

Вывод:
Это игрушка, конструктор, лего своего рода для гиков.
На деле, если у человека совсем нет денег, а хочется чего-то быстрее и среднего размера — то это выход, но во всех остальных случаях — лучше сразу собрать что-то современное, подкопить на 3090 и все в таком духе.

Я не пожалел, что замутил такой проект, мне было весело.
Будет стоять нейроночка для пет-проектов на отдельном ПК.

Но, возможно у меня просто глаз замылен, так как дома есть компы в разы быстрее, а на деле 5 токенов на гемме 27/квк это и правда круто, а я тут жалуюсь. ¯\_(ツ)_/¯

Аноним 29/05/25 Чтв 00:02:09 № 1222040 61

>>1222024
Слишком медленно будет.
>>1222026
Вот действительно что конструктор. Слишком медленная работа, особенно по контексту будет беда, чтобы оно имело практическую пользу после сборки. Без осуждения, собирать действительно может быть интересно и бюджетно. Но гроб-пылесос с сомнительной юзабельностью выглядит плохим приобретением.
Интересные сборки там есть? И где видос?

Аноним 29/05/25 Чтв 00:05:07 № 1222045 62

Что думаете о Reka-Flash-3-21B, это не файнтюн, а оригинальная модель. Вроде цензура слабая. По техническим вопросам отвечает лучше тех что я пробовал сопоставимого размера. Русский понимает хорошо, но русский сейчас все модели понимают.

Аноним 29/05/25 Чтв 00:07:33 № 1222048 63

>>1222040
Контекст 230-240, кстати.
Но с ров-сплитом у денс моделей в 20 падает, курам на смех, канеш.

Я так покумекал, неплохо работает с ОпенМанусом, который пошагово решает задачки, там контекст не целиком используется, поэтому получается шустро.
Ну, в таком режиме норм.
Надо еще погонять в клайне.

Там скучно, я просто пизжу 35 минут. Но концовка зато все прояснит.
https://t.me/BahamutCH/15084
https://youtu.be/pp3ViqRNKQg

Аноним 29/05/25 Чтв 00:12:56 № 1222053 64

>>1222026
слушай я тоже рассматривал создания рига под это дело, думал про p40 штуки три четыре найти и ддр3 серверную
Не смотрел в сторону radeon instinct mi50? Они у нас довольно дешевые. по производительности не уступают p40, а стоят в два раза дешевле
Пока во всем это копался наткнулся на notebooklm гугловский, разочаровался что в ближайшие лет 10 не смогу такой агрегатор дома сделать, поэтому пока оставил затею собственного рига и буду потихоньку кумать и рпшить на 27б и 32б модельках и познавать искусство правильного создания лора/персонажей и промптинга

Аноним 29/05/25 Чтв 00:16:14 № 1222060 65

>>1222053
Сегодня уже спрашивали в телеге за mi50.
Честно — в руках не держал, ничего не могу сказать.
Проблема может быть с ROCm, на вулкане может быть скорость ниже, чем хотелось бы, но возможно сейчас и хорошо. Когда P40 стоила 15к была топ, щас уже нафиг не нужна за нынешнюю цену.
В треде тоже владельцев не припомню, кто бы отписывался подробно, и среди знакомых тоже никто не запускал.
Так что — тут вообще темная лошадка.

Аноним 29/05/25 Чтв 00:16:55 № 1222062 66

>>1222048
>>1222026
Поздравлямба анон за завершение эпопеи с видео. Голос хороший, слушать приятно. Будем тебе просмотры делать.
Продолжай в том же духе, ты nyashka

Аноним 29/05/25 Чтв 00:18:28 № 1222065 67

>>1222048
Кринжатинка, но в целом душевно, пили еще. Прямо база с кривыми каркасами под фермы, отверстиями не там и прочее. Накати туда прыщи вместо шинды, станет получше.
>>1222053
Ты определись с бюджетом и с тем, что хочешь делать. Тормознутое железо что теоретически способно вместить модель, но выдает на ней плохую производительность - не лучший вариант, сам потом взвоешь.
> ближайшие лет 10 не смогу такой агрегатор дома сделать
Не отчаивайся, софт подъедет, и ты всегда можешь поднимать свои киллы во всяком-разном, хоть в том что описал.

Аноним 29/05/25 Чтв 00:20:57 № 1222067 68

>>1222026
По идее можно тюнить модели, вроде как при тюне можно настроить так чтобы производительность полностью складывалась

Аноним 29/05/25 Чтв 00:22:07 № 1222068 69

>>1222062
>>1222065
О-о-ой, пасиба огромное, не ожидал. =3
Ну, что же, будет еще какой проект — замучу, что ли. =) Заодно попарюсь с монтажом и мемами, что ли.
Я принимаю свой кринж, так что да.

А с линухой мне было лень разбираться, какие драйвера нужны на P104-100, а на винду они у меня в архивчике хранятся. И хотелось запустить как можно быстрее, вот торопыжество винду и накатило. =)
Да, поэкспериментирую, может получится поднять на 20-30 процентов еще, как с 235б квеном, там линукс прям затащил.

Аноним 29/05/25 Чтв 00:26:07 № 1222070 70

>>1222067
Вот об этом я сегодня задумался.
На 3060, на 4070 ti, на 4090 я запускал тюны (чисто для навыка), а вот на мульти-гпу паскалях — нет. Сомневаюсь, что получится, но вдруг.

———

Кстати, есть еще варик с 24 гига под LLM, 8 гигов под вишпер и ттс и 8 гигов под картиночки. Прям бимба под силлитаверну. Но это чисто в теории, на практике я это проверять не буду. хд

Аноним 29/05/25 Чтв 00:29:39 № 1222072 71

>>1222067
Не можно. В 8 гигов поместится чуть меньше чем ничего, особенно учитывая что миксед пресижн там невозможен, йолу или мелкий классификатор из потенциально полезного. Дипспид и фсдп, которые в теории позволили бы впихнуть что-то немного больше, на этой некроте тоже не взлетят, слишком старое.
>>1222068
Только сильно не переусердствуй. Сборочки, вместе с обзором на типичные косяки, возникающие с ними, изредка под настроение можно посмотреть, иногда прямо датфил. Еще интереснее было бы бугурты и маты с попытками хорошо разместить 4 крупные видюхи в гражданский корпус, или типа того.

Аноним 29/05/25 Чтв 00:30:23 № 1222074 72

>>1222060
я как-то видел за 9к или 11 p40 на озоне, а буквально на след. день цены взлетели до 18к одновременно. Будто бы все одновременно захотели себе ллмки дома погонять.
по поводу ми50 может через годик этот проект начну когда буду посвободнее, а может уже и 3090 подешевеют (ахах)
>>1222065
я хотел сделать просто базу знаний с локальным ллм чтобы мог обрабатывать большой массив данных. Хотел обрабатывать в нем статейки и все такое. И может свои прикольчики обучать, интересно внутрянку ллм изучить (для этого конечно не обязательно мощи иметь и все же) Ну а по цене думал тысяч до 300-450 сделать, но как-то быстро разочаровался, глядя как другие подобные штуки делают. Энивей не добьешься хорошего результата и нужно хорошее серверное железо, не зря оно за лям уходит и выше в небеса.

Аноним 29/05/25 Чтв 00:35:43 № 1222081 73

>>1222072
> Еще интереснее было бы бугурты и маты с попытками хорошо разместить 4 крупные видюхи в гражданский корпус, или типа того.
Бвахахах! Не, я боюсь, я себя к такому не подпущу. =D
У меня тут про запас полуметровый райзер валяется для такого.
Пилить NZXT Phantom Red я не решусь. =)

>>1222074
> а может уже и 3090 подешевеют (ахах)
Ждем и надеемся. =D

Аноним 29/05/25 Чтв 00:41:17 № 1222087 74

>>1222074
Для твоих задач нужна скорость. Большая модель тут не нужна, по крайней мере по началу, а требуется производительность чтобы давать быстрый результат, и не тормозить тебя. Если у тебя уже есть видюха - можешь заниматься всем этим на ней, какая-нибудь гемма, жлм, да даже мистраль и прочие будут более чем достаточны. Масштабированием можешь уже потом заняться.
> обучать
Обучение начинается с ампера, никаких тесел и прочего.
> тысяч до 300-450 сделать
Ну типа на пачку 3090 хватит, но лучше не спеши с приобретением. Сначала хватит одной, максимум две. А там уже поймешь нужно ли тебе оно, соберешь риг, купишь облако, или останешься с тем, что есть.
Ничего серьезного даже на огромном риге из 3090 обучать всеравно не получится, из ллм только мистраль-лардж и большой моэ квен катать. Стоит ли брать исключительно для этого если не знаешь чем еще занять - вопрос. Если в целом мл-релейтед заинтересует - уже найдешь чем загрузить.
>>1222081
> NZXT Phantom Red
Ебааать, из каких годов это чудо? Там что под привод посадочные?

Аноним 29/05/25 Чтв 00:46:23 № 1222101 75

>>1222087
Там да-а-а… Брал в районе лета 2013.
Мне нравятся такие дизайны, крутой.

Аноним 29/05/25 Чтв 00:53:00 № 1222113 76

>>1222087
Спасибо анончик за совет. Не пошел закупаться, как раз потому что боюсь, что будет простаивать без дела и надо бы потихоньку это дело начинать, все равно пока у меня знаний по сфере с гулькин нос. Сейчас вообще на 890m(igpu) поперживаю на рязани hx370, благо тут память распаяна и на 27б по 3.3 токена можно на 4к контекста делать. В целом терпимо. А обучение прерогатива нвидэ? Я знаю что есть неплохое для машинного обучения серверное железо у амуде сейчас.
Пробовал обрабатывать на гемме3 свои статейки и доки на 1б чуда не произошло (ожидаемо) как и на 4б, но 12б уже поинтереснее, хотя все равно не сказка и много проебывается. Но медленновато, кто бы мог подумать.

Аноним 29/05/25 Чтв 00:54:13 № 1222116 77

>>1221318
>Список актуальных моделей для 12-24 VRAM
и что из этого могет в адекватный русский язык?

Аноним 29/05/25 Чтв 00:56:45 № 1222119 78

>>1222116
Gemma3 хороша (от 6 кванта), мистраль немо и его файнтюны (также от 6 кванта). Вот эти заметки по квантам мб просто моя шиза. Но будто роляет куда больше в русике нежели число параметров

Аноним 29/05/25 Чтв 00:57:42 № 1222123 79

>>1222072
Можно использовать алгоритм Asynchronous SGD для обучения, пару лет назад видел статью на хабре об этом. По идее должно работать для большого количество видеокарт на медленной шине.

Аноним 29/05/25 Чтв 01:03:24 № 1222127 80

>>1222101
Первая ассициация в наши дни - дедушка игросральных ведер. На вкус и цвет, как говорится, зато КРАСНЫЙ СПОРТИВНЫЙ БЫСТРЫЙ
>>1222113
> А обучение прерогатива нвидэ?
Если коротко - хуанг безальтернативен. Брать другое железо только если знаешь что делаешь и познал глубины пердолинга.
> не сказка и много проебывается
С пол пинка не заведется на статьях и сложных текстах. Нужна система на подобии ризонинга у всяких дипсиков с постепенной обработкой частями и сбором, но четко таргретированная, если хочешь делать какие-то выводы и обработки. Даже на больших моделях, корпах и т.д. Так-то даже качественный суммарайз рп - задача не хуй собачий.
Как раз есть куда погрузиться, как вариант возьми внешнюю 24-гиговую карточку чтобы юзать ее сейчас, они часто идут дешево. То что перегревается и т.д. с ллм будет пофиг.
>>1222123
Даже если это чудом сработает, что почти невероятно, по затраченным на все твоим человекочасам никогда не окупится, лучше не тратить время.

Аноним 29/05/25 Чтв 01:11:47 № 1222130 81

2.png 83Кб, 1135x419

Давно таки не следил за тредом, расскажите, ананасы, неужели все так легко забыли тюны квена2.5? Были неплохие, достаточно умненькие и в кум тоже могут. Неужели все 32b юзеры переехали на Коммандер и ГЛМ, судя по последним тредам?
По логам как всегда мало что понятно, но приложу, ну а вдруг. Конечно не без слопа, но мне нравится

Аноним 29/05/25 Чтв 01:41:58 № 1222141 82

Бля я сдался нахуй. Я так понял что чтобы юзать --override-tensor на ллама цпп надо устанавливать дополнительный репозиторий с говном, который на винде работает только из под палки и костылей. Придется дальше на 2 токенах ебучих сидеть. Пол компа говном засрал всяким, но все равно нихуя не работает! Пизда!

Аноним 29/05/25 Чтв 01:50:47 № 1222144 83

Кобольд на связи.
Если я хочу гонять exl2/exl3 на своей 3090 в таверне и мне не особо нужен гпт-подобный фронт с диалогами - мне стоит сразу разбираться с TabbyAPI вместо угабуги?

Аноним 29/05/25 Чтв 01:53:08 № 1222145 84

>>1222144
TabbyAPI - чисто про exl2/exl3, обновляется быстрее Угабуги в этом смысле. В целом можно и Угабугу использовать, но я переехал с нее на Tabby, потому что тот тупо легче установить и запустить нормально. Хотя знаю людей у которых было наоборот
Угабугой можно и не запускать фронт, а если и запустишь необязательно его использовать

Аноним 29/05/25 Чтв 01:54:07 № 1222146 85

Ну и да, если не оффлоадишь ничего в рам и не используешь процессор - нет причин не использовать exl2/3

Аноним 29/05/25 Чтв 02:01:21 № 1222149 86

>>1222144
В убабугой будет проще, но обновляется медленнее, нет подробных метрик по контексту/генерации, апи не такой продвинутый. С табби могут быть непонятки "уровня как загрузить модель и выставить контекст", но когда разберешься - норм. И то и то пойдет.

Аноним 29/05/25 Чтв 02:22:59 № 1222172 87

Такой вопрос, я хочу в рп на русском языке. Стоит ли делать карточки и промпт на английском? Я как помню английский меньше токенов забирает. И чтобы на русском говорила, оставить в систем промпт таковой указ и стори стринге? Или как вообще сделать это по красоте чтоб?

Аноним 29/05/25 Чтв 02:34:54 № 1222182 88

>>1222172
Не обязательно писать карточку на русском, оно и просто чат может подхватывать. Но на всякий случай можешь дописать "respond in literary Russian".
>>1222002
Подъём вопросу

Аноним 29/05/25 Чтв 02:35:21 № 1222183 89

>>1222172
Я недавно снова начал запускать локальные LLM и заметил что у мистралей, qwen, gemma сейчас нет проблем с русским, и даже токенизировать они стали намного экономнее.

Аноним 29/05/25 Чтв 02:39:55 № 1222190 90

>>1222172
>Стоит ли делать карточки и промпт на английском?
Нет, я наоборот карточки перевожу на русик, или хотя бы первое сообщение модели. Насчет системпромта не уверен, но обычно в готовых пресетах английский и так.
>помню английский меньше токенов забирает
Поднимали вопрос, на современных токенизаторах разница процентов 15-20, а не х2.
>>1222182
>Подъём вопросу
Сейчас только перерывал скрины интересных сообщений с тредов 20перекатной давности, один анон сказал что если планируешь кум или хотя бы какое то раскованное рп - то ванильная гемма будет даже большим лоботомитом, чем аблитерации. Думаю он прав.

>>1222183
Сейм, аноны говорили что 24б мистрали только для англюсика, а на русик сиди или на гемме или на гусевских миксах 12б... Я поставил Forgotten-Transgression, попробовал по фану на русском, а у нее русик лучше чем у русиколоботомита, и при этом без ощущения романа донцовой и желания писать кум в одну уклончивую строку как у геммы дпо.

Аноним 29/05/25 Чтв 02:50:11 № 1222194 91

>>1222183
Ну мне нравится даже переводить (заодно под себя подгонять) карточки.
>>1222190
Спасибо. Раз с токенами нет проблем, думаю можно тогда целиком на русик перекатить. Кстати тоже заметил, что файнтюны мистраля немо и мелкого оче годно разговаривают на русском

Аноним 29/05/25 Чтв 02:58:23 № 1222195 92

>>1222194
Ну 12б мелкомистраль тут еще тредов 40 назад и вплоть до последних все советовали как единственный вариант русского рп/кума, даже гемма-3 не смогла его подвинуть. Буквально любой вопрос про русик в рп и:
> Darkness-Reign-MN-12B
> Sainemo-remix-12b
> Omnino-Obscoenium-Opus-Magnum-MN-12b - для русского кума практически безальтернативна, следующая ступень уже 123б я бы сказал.

Но ВНЕЗАПНО оказалось что у 24b, русик тоже хорош... Ну для неискушенного так точно, для искушенных терабайтами ролплея на всех моделях, какие только появлялись, какие то нюансы сайги в датасете мб и чувствуются более пикантно на русике, хз.
Есть подозрение что врамоинцелы коупили, советуя 12б. Но это не точно.

Аноним 29/05/25 Чтв 03:02:36 № 1222196 93

>>1222195
Я просто ток обратно закатился, в последний раз llm катал для рп и кума года два или три назад и тогда как-то не осилил то ли все было говном. Сейчас опять пробую, тут читаю. Кстати спасибо за наводки лол

Аноним 29/05/25 Чтв 03:06:25 № 1222200 94

>>1222195
>Но ВНЕЗАПНО оказалось что у 24b, русик тоже хорош...
Да хрен там, на четвёртом ответе пошли проёбы в логике, дальше больше - короче для сложных карточек не годится. Если для 12В оно и понятно (и то через свайпы умудряешься вытягивать), то здесь даже свайпать не хочется. А русский хороший, да.

Аноним 29/05/25 Чтв 03:07:41 № 1222202 95

>>1222195
>Omnino-Obscoenium-Opus-Magnum-MN-12b

Другой анон. Вот этот мерж кстати, упорно пытался приделывать персам хвосты шерсть и прочую фурятину, когда те были без явно обозначенной внешки. Как кто-то про вездесущих гоблинов тут рассказывал, примерно так же, но вместо гоблинов фурятина :D

Аноним 29/05/25 Чтв 03:15:23 № 1222211 96

>>1222202
Лол, я сейчас перерываю скрины на предмет конспектирования мудростей (уже выше говорил. Кстати фан факт, то, что казалось мне откровением и "НАДО СОХРАНИТЬ" спустя почитывание тредов с 9х до текущего - вызывают улыбку), и тогда не заметил, но анон с опус-магнумом прям ярко его хвалит и каждый раз "если нет возможности в 123 - катайте опус12, на другом жизни нет".

Вот теперь гадаю, он:
1. вытекающий толстячок, советующий пережаренную говномодель
2. просто любитель ебать зверополис
3. советующий лютый гем господин, и модель надо скачать

Аноним 29/05/25 Чтв 03:33:11 № 1222222 97

>>1222211
Модель вот эта
>Omnino-Obscoenium-Opus-Magnum-MN-12b
Контекст, я узнал об интрижке между моей женой нори и футанари мари и пытаюсь ее за это грохнуть. И тут эта футанари пытается мне помешать и чото я в голос выпал с этого члена который меня по ногам бьет и отвлекает

Аноним 29/05/25 Чтв 03:38:53 № 1222228 98

>>1222222
Ногочлен опуса взял локальный сикстипл. Я думал это будет, сука, снова немотрон.

Аноним 29/05/25 Чтв 03:40:23 № 1222229 99

Сорян что засераю ветку, но чот ору с этого саспиенса лютого. Просто этот сюжет прогонял не один десяток раз и захотелось разнообразить и теперь не до дрочки и кекаю сижу
>>1222228
Ахуеть, реально

Аноним 29/05/25 Чтв 03:49:17 № 1222235 100

Darkness-Reign-[...].png 30Кб, 837x150

>>1222229
>четвертую

Аноним 29/05/25 Чтв 03:54:05 № 1222236 101

>>1222200
> проёбы в логике, дальше больше - короче для сложных карточек не годится
Это в целом справедливо для всех моделей с кринжовыми именами типа ЗАБЫТАЯ ТЬМА ВАСЯНОВСКИЙ ДВИЖОК и подобное.
>>1222202
А ты представь что там происходит если внешка указана. У девочки из голубого архива с ушками-наушниками лезут лапы, когти, мех на животике и прочая жесть, даже когда явно указано что там ничего не должно быть и несколько раз поправлено.
>>1222222
> раскачивается, ударяя вас по ногами, пытаясь сбить с толку и задержать
Как же я проорал с этого.
>>1222229
Soooqaaa, ну ты содомит.

Аноним 29/05/25 Чтв 04:02:55 № 1222240 102

>>1222222
>И тут эта футанари пытается мне помешать и чото я в голос выпал с этого члена который меня по ногам бьет и отвлекает
Зажрались тут все. Такой экспириенс, а они ещё и недовольны.

Аноним 29/05/25 Чтв 04:03:48 № 1222242 103

Qwen3-30B-A3B прям классная модель, атмосфера теплой ламповой первой ламы но умнее. Диалог похож на человеческий

Аноним 29/05/25 Чтв 04:23:48 № 1222258 104

image.png 44Кб, 903x141

>>1222229
Хаах! С даркнес рейном 12b была ситуация, но там я оказался по другую сторону баррикад, с членом на перевес, ну покрайней мере нейронка в этом обвинила х)

Аноним 29/05/25 Чтв 04:34:19 № 1222261 105

>>1222258
это ты какую-то зачарку на член сделал что у тебя он еще и душу терзает? Такой клинок не сыскать во всех трех королевствах

Аноним 29/05/25 Чтв 04:59:20 № 1222270 106

>>1222261
Прост обвинил перса в своём истощении, что уже 3 раза за день кончил из за неё и заявил что отказываюсь ебать, ну а та стрелки перевела, типа это она жертва. Но "зачарка на член" годная идея лол, надо будет реально чёт такое придумать )

Аноним 29/05/25 Чтв 06:41:19 № 1222280 107

>>1221623
>Канничка - это кто/что?
https://youtu.be/uiXdr2_Th9c

Аноним 29/05/25 Чтв 06:48:04 № 1222281 108

>>1221980
Можно вообще-то - https://pastebin.com/udG8dPk6 - если ты разберёшься как запускать llamacpp и у тебя 12 ГБ VRAM, а ты запускаешь модели которые весом в 16-20 ГБ, то тебе подойдёт.

Аноним 29/05/25 Чтв 06:59:02 № 1222283 109

>>1222130
На кодерских моделях кум везде одинаковый, сухой и неинтересный.
Взять твои пики - в них нет личности, просто любую карточку подставь будет тот же кум.
Кум это когда пурс делает что то неожиданное в связи с его характером в сексе, типа игры слов или укусит тебя за жопу до крови.

Аноним 29/05/25 Чтв 07:19:18 № 1222285 110

>>1222141
нет, ничего не надо, просто скачиваешь два архива, распаковываешь в одну папку и скармливаешь ключи из пастебина выше лама-серверу

Аноним 29/05/25 Чтв 08:12:28 № 1222298 111

>>1222242
Похожие мысли были. Ты ещё попробуй 235б, там ещё больше комф.

>>1222141
Норкоман штоле? Один экзешник лламы спп.

>>1222081
> Пилить NZXT Phantom Red я не решусь
В оп-посте пропиленный Lian Li Dynamic Evo XL. Не сдерживай себя

Аноним 29/05/25 Чтв 08:15:38 № 1222299 112

У меня одного чувство что если ставишь мало токенов, 300 к примеру, то качество ответа сильно падает, будто моделька хочет выдать что-то получше, но ужимает это в краткий ответ в 300 токенов, а если поставить 1024 то ответы всегда на полную мощность отрабатывают

Аноним 29/05/25 Чтв 08:32:23 № 1222302 113

>>1222299
ну да, все так. Выдвину предположение, что как учили - сток токенов и оптимально.

Аноним 29/05/25 Чтв 08:33:00 № 1222303 114

>>1222299
От модели зависит, некоторые могут и полотна в 2-4К токенов катать, из некоторых и 300 едва выжмешь.

Аноним 29/05/25 Чтв 08:41:01 № 1222306 115

>>1222299
Тебе так кажется. Модель не знает, сколько ей там токенов на ответ поставили. Может влиять на генерацию, только если у тебя полный контекст забит, потому что чем больше токенов на ответ, тем меньше на контекст.

Аноним 29/05/25 Чтв 09:13:08 № 1222314 116

>>1222283
> Взять твои пики - в них нет личности, просто любую карточку подставь будет тот же кум.
Не угадал, анончик. Как раз таки следование карточке присутствует. Ты ж не знаешь, что в ней находится. Креатив тоже на месте. Вот поэтому логи особо не имеют смысла, они не показывают всю картину. Сноудроп, кстати, тоже кодерская модель, но при этом одна из лучших в пределах 32b

Аноним 29/05/25 Чтв 09:18:16 № 1222317 117

ГЛМ, кстати, тоже 'кодерская' модель. Из 32б только Коммандер не для кода а для общих штук

Аноним 29/05/25 Чтв 09:25:48 № 1222324 118

>>1222317
>ГЛМ, кстати, тоже 'кодерская' модель.
Никогда бы не подумал, что код может быть настолько соевым.

Аноним 29/05/25 Чтв 09:26:54 № 1222325 119

Есть ли 12b 3 гемма для кума/рп? А то модель от анслота не реагирует на еблю.

Аноним 29/05/25 Чтв 09:28:22 № 1222328 120

Чот ваш ассинтентотрон гавной попахивает - прямо в отказ не уходит, но софт-рефузалы и маняврирования жеппой в наличии + не следует инструкциям не говорить напрямую с юзером, "зажёвывает" кум. Зато может сам по себе предложить CYOA-блок о том как продвигать сюжет, хотя можно записать в минусы потому что не просил о нём =)

Его как-то по особенному готовить надо?
Качаю Валькирию, посмотрим-с там.

>>1222317
>>1222324
ремнант-глэм кстати норм с этим, соей не льёт и кум вроде бы ок

>>1222325

>12b 3 гемма
для 12б кума только мистральки

Аноним 29/05/25 Чтв 09:29:35 № 1222329 121

>>1222299
>>1222306
Явление имеет место быть, но скорее субъективно. Как мне кажется - модели имеют тенденцию отвечать по определенной "схеме". Например - модель N, скажем, любит начать ответ RP с описания что ответил чар, потом - что сделал, закончить - как повели себя вокруг, и добавить про погоду. Причем каждая часть - имеет "любимую длину". Когда вся эта схема не влезает в токены ответа - то разумеется, режется. И кажется, что модель хотела сказать больше. Некоторым надо ставить не так много - просто чтобы мыслями не растекались где не надо. У меня была раз модель, которая очень любила переходить на прямое управление моим аватаром. Помогло ужать токены для ответа - т.к. это был ее любимый ""третий блок". Когда перестал влазить - проблема ушла.

Аноним 29/05/25 Чтв 09:29:48 № 1222330 122

>>1222325
https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated-v2-GGUF эту попробуй, хотя я сам не тыкал

Аноним 29/05/25 Чтв 09:29:53 № 1222331 123

>>1222328
>для 12б кума только мистральки

Посоветуй что нибудь из нового по архитектуре.

Аноним 29/05/25 Чтв 09:31:12 № 1222333 124

>>1222324
Ты в режиме ассистента с ним играешь? Одна из самых раскованных моделей что я видел после Командера

Аноним 29/05/25 Чтв 09:31:12 № 1222334 125

>>1222144
>>1222145
>>1222149
Все так.

Аноним 29/05/25 Чтв 09:37:43 № 1222342 126

>>1222331
Из нового - только та же аблитерированная гемма.
https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated-v2-GGUF
https://huggingface.co/mlabonne/gemma-3-12b-it-qat-abliterated

А больше вроде ничего интересного именно в 12Б сегменте и не выходило.

Аноним 29/05/25 Чтв 09:38:18 № 1222343 127

>>1222333
В треде кидали какой-то пресет для него. Там не ассистент, насколько я помню.

Аноним 29/05/25 Чтв 09:41:14 № 1222345 128

>>1222343
Так и я тоже использую тредовичковый пресет. Вчера отыгрывал майндбрейк, чернуха настоящая, таких сочных свайпов мало где видел, соей там даже не пахло

Аноним 29/05/25 Чтв 09:45:31 № 1222352 129

Немотронщик, ау, весь тред заебал, так сделай полезное, скинь (ещё раз если уже где-то кидался) пресет к нему. Пожалуйста.

Аноним 29/05/25 Чтв 09:47:53 № 1222356 130

>>1222331
Попробуй что-то другое просто. Зачем ты зациклился на 12б? Вот 30б-А3 уже НА ГОЛОМ ПРОЦЕ раскатывает почти всё, что меньше и быстро.

Аноним 29/05/25 Чтв 09:49:38 № 1222358 131

>>1222345
Не, я не про тредовичковский, его не пробовал. До него мелькал здесь ещё какой-то пресет, я на нём гонял.

Аноним 29/05/25 Чтв 10:00:32 № 1222370 132

>>1222352
немотронщик нихуя ничего не скидывал (за исключением корявого лорбука с префиллом лол) и по-видимому сидит на пресете базовичка из треда https://pixeldrain.com/l/xGFnT1PY

Аноним 29/05/25 Чтв 10:03:03 № 1222372 133

>>1222328
>прямо в отказ не уходит, но софт-рефузалы и маняврирования жеппой в наличии
Зависит от карточки/промпта куда сильнее чем на остальных моделях.
Читай если есть неоднозначность в персонаже немотрон так и отыграет, а не будет лезть на хуй как куммандер/сноудроп

Аноним 29/05/25 Чтв 10:04:18 № 1222374 134

>>1222372
^ напоминаю что немотронщик софтрефузы принимает за умность модели :^)

Аноним 29/05/25 Чтв 10:06:53 № 1222377 135

Пиздец немотрономясо... в русский оно похоже не могёт...

Аноним 29/05/25 Чтв 10:07:56 № 1222378 136

>>1222374
>софтрефузы
Звучит плохо, играется хорошо.
Не гемма но и не коммандер, мне нравится.

Аноним 29/05/25 Чтв 10:08:39 № 1222379 137

>>1222358
Вот выше пиксельдрейн. Я оттуда брал пресет для ГЛМа и все норм
Возможно дело в промтинге хз

Аноним 29/05/25 Чтв 10:13:26 № 1222381 138

>>1222379
С пресетом Nemotron-49B-RP (Tuned) вроде бы лучше, хотя всё равно капитальные проёбы в русском, погоняю ещё, но видимо придётся откатываться обратно на 24б немо.

Аноним 29/05/25 Чтв 10:15:27 № 1222383 139

>>1222381
))))
ты чего, не видишь, что у тебя ассистент и буквально списки в рп протекли?
Tuned это видимо для валькирии и остальных, где нет борьбы с ассистентом
немотрон такой немотрон...

Аноним 29/05/25 Чтв 10:16:14 № 1222384 140

>>1222381
ВАШ ХОД
АХАХАХА

УУУУУМ

Аноним 29/05/25 Чтв 10:17:08 № 1222385 141

>>1222383
>>1222384
Я рпшу как правло от третьего лица - то есть есть Игрок, Рассказчик (модель) и Персонажи с миром.

Так что мне это норм.

Аноним 29/05/25 Чтв 10:17:34 № 1222386 142

>>1222383
Немотроношиз непрошибаемый, какой то супер синдром утенка.
Ну и ладно, ему нравится пусть играется, только бы не обманывал других своим субьективным мнением.

Аноним 29/05/25 Чтв 10:19:58 № 1222388 143

>>1222381
>пресет говна
>списки
>скобки
>русик
Вам к драммеру, валькирия.
>>1222383
Ассистента бороли в первые дни как немотрон только вышел, спустя месяцы удивляться без пресета что у тебя списки протекают это драммер головного мозга.
А ещё коммандер говно лупящееся по такой логике

Аноним 29/05/25 Чтв 10:22:27 № 1222390 144

>>1222388
> Ассистента бороли в первые дни как немотрон только вышел
до сих борют, но тебе откуда знать? ты в ллмки вкатился примерно тогда, когда он и вышел, да и не пробовал толком другие модели

> А ещё коммандер говно лупящееся по такой логике
мы разве его здесь обсуждали? тебе коммандер-сан нанес какую-то травму? даже не знаю... например тем, что он лучше, легче и более уважаем в треде?
играй на чем душе угодно, только не пытайся других убеждать что твой выбор единственно верный

Аноним 29/05/25 Чтв 10:25:22 № 1222393 145

>>1222390
>до сих борют
У меня никакие списки не протекают, а примера ассистента в рф никто так и не скинул
Куммандер очевидная аналогия, так же неюзабелен без настройки.

Аноним 29/05/25 Чтв 10:25:36 № 1222394 146

>>1222388
> спустя месяцы удивляться без пресета что у тебя списки протекают это драммер головного мозга.
У тебя есть историческая возможность насрать под себя прислать в тред действительно хороший пресет. Ведь пресет анона с твоих слов говно, но свой ты не скидываешь. Хотя возможностей было очень много. Исправишься или тебя в пиздаболы-таки записывать? Ты же любишь Немотрончик, научи дурачков его использовать!

Аноним 29/05/25 Чтв 10:28:16 № 1222399 147

>>1222394
он скидывал, анон :^)
там целый скриншот с температурой и лорбук, который работает всегда для префилла. тредовичково-анонский работает гораздо лучше, и ёбик сам же на нем и сидит. просто не на tuned версии, она только для тюнов

Аноним 29/05/25 Чтв 10:33:45 № 1222402 148

>>1222236
>А ты представь что там происходит если внешка указана. У девочки из голубого архива с ушками-наушниками лезут лапы, когти, мех на животике и прочая жесть, даже когда явно указано что там ничего не должно быть и несколько раз поправлено.
С этим временами даже оригинальный дипсик на английском проебывается. Правда потом быстро исправляется, но шерсть на животе точно видел. Локалки так поголовно превращали персонажа в фури. Задача в целом сложная, надо разруливать промтом.

Аноним 29/05/25 Чтв 10:39:55 № 1222407 149

Аноны, такой вопрос: почему когда даю в промпт контексте правило говорить на русском ему похуй, а когда а авторские заметки даю, он всегда исполняет. И так не с одной моделью:гемма, мистрали, жмл, кувэку и тд. Вроде же промпт тоже должен быть где-то внизу контекста и перманентный, странно как-то

Аноним 29/05/25 Чтв 10:50:01 № 1222412 150

Кто то собирал llama.cpp с cuda? Какую версию туллкита качать?

Аноним 29/05/25 Чтв 10:58:56 № 1222420 151

два дня не заходил в тред, какая модель сегодня самая лучшая?

Аноним 29/05/25 Чтв 10:59:51 № 1222421 152

>>1222412
вот это хороший вопрос, я вроде видел репорты, что 12.х быстрее, чем 11.х, кто-нибудь может подтвердить?

Аноним 29/05/25 Чтв 11:01:46 № 1222423 153

>>1222420
как всегда немотрон
зайди через полгода и ничего не изменится

Аноним 29/05/25 Чтв 11:03:45 № 1222424 154

>>1222420
как всегда немотрон братан, но ты не выкупишь всей его глубины

Аноним 29/05/25 Чтв 11:09:56 № 1222431 155

>>1222424
Даа... Как жаль, что Немотронодебил - пиздабол и не скинет свой идеальный пресет...

Аноним 29/05/25 Чтв 11:11:12 № 1222432 156

>>1222423
>>1222424
спасибо, качаю Llama-3_1-Nemotron-51B-Instruct-abliterated.Q8_0.gguf.part1of2

Аноним 29/05/25 Чтв 11:18:52 № 1222441 157

>>1222432
>>1222424
я кекаю братан, не качай эту хуйню. я вообще ток в кум мне 12б модельки нравятся файнтюны мистрали и гемма dpo
https://huggingface.co/mradermacher/gemma3-27b-abliterated-dpo-i1-GGUF
https://huggingface.co/mradermacher/Omnino-Obscoenum-Opus-Magnum-MN-12B-GGUF

Аноним 29/05/25 Чтв 11:21:18 № 1222444 158

>>1222412
Чем тебя готовые билды не устраивают? На 4ххх, 5ххх версия 12.4 очевидно быстрее, с другими лень проверять было.

Аноним 29/05/25 Чтв 11:24:38 № 1222446 159

>>1222388
>пресет говна
А есть пресет не говна?

Аноним 29/05/25 Чтв 11:28:19 № 1222448 160

>>1222407
Промт всегда наверху контекста. Поэтому надо переводить на русский в том числе первое сообщение.

Аноним 29/05/25 Чтв 11:43:46 № 1222460 161

>>1222444
На ik_llama.cpp к сожалению релизов нету

Аноним 29/05/25 Чтв 11:47:38 № 1222461 162

>>1222330
Опять сломанная, к сожалению. Ещё хуже, чем предыдущая, почти бредогенератор. Не понимаю, неужели Лабон вообще не запускает проверить, что там у него получилось.

Аноним 29/05/25 Чтв 11:50:42 № 1222463 163

>>1222461
ну если можешь запустить, то я вот эту гемму траил, очень доволен: https://huggingface.co/mradermacher/gemma3-27b-abliterated-dpo-i1-GGUF

Аноним 29/05/25 Чтв 11:53:29 № 1222467 164

>>1222446
Делаешь как на пикрил 1
В свой промпт добавляешь
Avoid common pitfalls such as: Rushing the plot, cramming information, hyperfixating on a single behavior, being unreasonable and stubborn.
Make sure to keep logical, physical and chronological continuity. Describe actions in great detail. Avoid short one sentence lines for describing actions. be verbose and creative.
На моём опыте это лучше пресета анона, который нахуй руинит разметку с его забаненными строками как на пик 2, а без них у тебя списки.
Темплейты лама 3 инстракт.
Списки все равно могут лезть если в самой карточке такой формат построения. На моих карточках не лезут.
Семплеры можешь у анона спиздить 0.05 minP и драй 0ю8

Аноним 29/05/25 Чтв 11:55:37 № 1222468 165

>>1222460
Так ты про обычную спрашивал. А с ik ты горя хапнешь, если такие вопросы задаёшь

Аноним 29/05/25 Чтв 11:58:48 № 1222470 166

>>1222463
Не, я восьми гиговый. Так бы я, может, и на обычной 27б сидел. Но могу только на двенашке, а ванильная не вызвала желания переходить на неё с немомержей.

Какой, кстати, 30B-A3B в треде юзают? Я попробовал квант UD-Q3_K_XL, и по скорости он действительно норм, как немо, даже с обычной выгрузкой слоёв, но не выглядит особенно умным. Не 3б, конечно, но не сказал бы, что даже на 12 тянет. Мб не распробовал ещё, или квант мелкий.

Аноним 29/05/25 Чтв 12:03:17 № 1222473 167

>>1222468
А особой разницы нету, я и обычную хотел на пробу собрать. Ну и у нее лучше документация по сборке, так там и смотрел.
Я знаю что ikllama хуево собирается, я так то об этом тут и писал кек
Решил проверить вдруг исправили да и с куда может получше работать будет.
Единственное что плохо работало в последний раз это мое сетки, что обидно. Так как ради них и собиралось

Скачал последний туллкит, попробую с ним. Подхватилось сразу после установки, идет сборка. Нравится что без мозгоебли, раньше были какие то траблы.

Аноним 29/05/25 Чтв 12:07:53 № 1222477 168

>>1222423
Хуемотрон. Лучшей доступной моделькой все так же останься милфа мистрали.
Но по понятным причинам её не советуют.

Аноним 29/05/25 Чтв 12:12:46 № 1222482 169

>>1222470
вот это https://huggingface.co/bartowski/Gryphe_Pantheon-Proto-RP-1.8-30B-A3B-GGUF/tree/main

Аноним 29/05/25 Чтв 12:13:22 № 1222484 170

>>1222477
по каким?

Аноним 29/05/25 Чтв 12:15:26 № 1222487 171

>>1222467

> который нахуй руинит разметку с его забаненными строками как на пик 2, а без них у тебя списки.
>>1199498 →
>>1199110 →
логи с пресетом анона. видишь сломанную разметку? и я не вижу
то, что ты каким-то хуем подаешь через лорбук, достаточно поместить в систем промпт
в любом случае любой пресет на эту модель говно, потому что сама модель такая. для извращенцев/глупцов что любят рефузы и слоп (привет Elara, привет Red Griffin Inn) норм

Аноним 29/05/25 Чтв 12:15:34 № 1222489 172

>>1222484
Ну догадайся.

Аноним 29/05/25 Чтв 12:16:49 № 1222493 173

>>1222489
та я ебу, я даже не знаю о какой модели сейчас идет речь. В целом на мистралях файнтюнах и кумлю

Аноним 29/05/25 Чтв 12:18:25 № 1222499 174

>>1222493
>милфа мистрали
Так называют mistral-large 123b

Аноним 29/05/25 Чтв 12:20:31 № 1222502 175

>>1222487
> логи с пресетом анона. видишь сломанную разметку?
Конечно вижу, я же рпшил на его пресете. Мои логи видишь? Разметка сломана. Не на каждой карточке, не всегда, но ломается.
> то, что ты каким-то хуем подаешь через лорбук, достаточно поместить в систем промпт
Нет. Попробуй и увидишь списки.

Аноним 29/05/25 Чтв 12:24:26 № 1222512 176

>>1222502
> Конечно вижу, я же рпшил на его пресете. Мои логи видишь? Разметка сломана. Не на каждой карточке, не всегда, но ломается.
я сам ни разу такого не ловил. чекай карточки свои

> Нет. Попробуй и увидишь списки.
пробовал, я так и играл: на пресете анона без забаненных токенов. там инструкции по форматированию в системном промпте и стористринге, все работает

любопытно, что даже на одном пресете у анонов такие разные результаты. многое говорит о модели :^)

Аноним 29/05/25 Чтв 12:30:52 № 1222517 177

>>1222499
ну теперь-то догадываюсь почему.. аноны любят поменьше и помладше

Аноним 29/05/25 Чтв 12:32:50 № 1222521 178

>>1222512
whatever
теперь у вас 2 пресета от анонов которые утверждают что списков нет
жаловаться остается только на ассистента которого я в глаза не видел

Аноним 29/05/25 Чтв 12:37:27 № 1222523 179

>>1222242
> Диалог похож на человеческий
Вот наверно именно это дает большой эффект, и в то же время позволяет уцепиться за большее из контекста, эффективнее делая ротацию доступных весов.
Имаджинируй что там на большой происходит.
>>1222299
Модель действительно не знает, но так ответы будут просто обрезаться, а если в таверне стоят галочки - она еще удалит недосказанные предложения, и получится что выдана была только часть ответа.
>>1222402
> С этим временами даже оригинальный дипсик на английском проебывается
Ебаааать, ну и херня. Видимо просто повезло что не встретил там.
> Локалки так поголовно превращали персонажа в фури. Задача в целом сложная
Абсолтюно нет. Уже хорошие тюны второй лламы могли отличать девочку в косплее от кемономими, их от фуррей и т.д., то же для всяких монстродевочек, ламий и прочей нечисти.
Если современная модель стабильно выдает такое - это сразу в мусорку, ибо текущие базы знают базу, и такое уже явный след лоботомии от неудачной тренировкой.

Аноним 29/05/25 Чтв 12:38:44 № 1222524 180

>>1222412
Я для квена и тесла п40 выбрал 12.4.
Не гарантирую, не проверял другие (ну, то есть, 12.6 че-то взбрыкнула и я даже разбираться не стал, пересобрал).

>>1222460
А от нее толку = 0, я хз. Собирал и то, и то, икллама на грани погрешности в обе стороны.
В итоге собираю оригинал.

Аноним 29/05/25 Чтв 12:38:48 № 1222525 181

>>1222521
если бы ты мог, то уже разглядел бы. так что толку в очередной раз объяснять-рассказывать-показывать? не раз объясняли проблемы модели в треде
пресет твой буквально такой же как у анона с пиксельдрейна и дает те же результаты, я в этом убедился еще когда ты в первый раз показывал это недоразумение с лорбуком
одно хорошо - мне теперь ясно, что модель говно и можно про нее забыть. уверен, тредовички попробуют твоим способом, и придут к своим выводам, и наконец тема будет закрыта. правда ведь?

Аноним 29/05/25 Чтв 12:39:43 № 1222527 182

Мне показалось, или немотронофил стал агрессивный, и спустя день уговоров скинул хотя бы пресет, и то непонятно как?
Раньше он был доброй няшкой, а теперь… =( Вот что плохие модели с людьми делают!..

Аноним 29/05/25 Чтв 12:40:35 № 1222528 183

Ах да, тут же никто нахуй в иронию не умеет.

Выше про плохую модель — просто сарказм, мне похуй на немотрон.

Аноним 29/05/25 Чтв 12:42:01 № 1222530 184

>>1222527
> Раньше он был доброй няшкой
это когда? он всегда наваливал в тред и агрессировал на всех, кто с ним пытался разговаривать
все наоборот. это сейчас он показал немногое человеческое, что в нем осталось
как - легко и просто. создаешь лорбук, пишешь туда то, что у него на скриншоте, включаешь его и делаешь так, чтобы работал всегда. или просто ставишь пресет анона, не вынося себе мозг, и получаешь тот же результат

Аноним 29/05/25 Чтв 12:43:27 № 1222534 185

>>1222527
Разве скинуть пресет это агрессия а не акт любви и помощи?
>>1222530
Неправда, это меня тут обещают убить в каждом ответе а я просто делюсь с анончиками хорошей моделькой

Аноним 29/05/25 Чтв 12:47:32 № 1222541 186

>>1222534
> меня тут обещают убить в каждом ответе
> а я просто делюсь с анончиками хорошей моделькой
когда делятся вот так: >>1219025 → (категория шитпост всецело твоя, парочка постов из положительного фидбека видимо тоже), другого не остается. особенно учитывая, что по пути ты успел засрать примерно каждую первую модель, которую можно запустить на 24гб врама, выдавая свое мнение за истину

Аноним 29/05/25 Чтв 12:50:06 № 1222545 187

Может просто репортить щитпостинг, пока тред не превратился в хуиту уровня треда про копросетки?

Аноним 29/05/25 Чтв 12:53:38 № 1222552 188

>>1222545
Приводи примера этого самого щитпостинга, чтобы я понял я в тред насрал или просто поддержал беседу

Аноним 29/05/25 Чтв 13:02:13 № 1222561 189

>>1222541
>выдавая свое мнение за истину
Хорошо хоть ты не такой! Нашёл у себя в попе ассистента и отгоняет новичков от годной модельки.
Надо же как-то сопротивляться клеветничкам и завистникам!

Аноним 29/05/25 Чтв 13:05:40 № 1222567 190

Сделал автоскрытие по "немотрон", спасибо шизу за усилия

Аноним 29/05/25 Чтв 13:06:10 № 1222568 191

>>1222561
я запилил огромный пост, где собрал весь фидбек, который про него мелькал когда-либо в треде. включая нейтральный и положительный, не пропустив ни одного сообщения
чтобы не называться хейтером, нужно ему поклоняться и выдавать шитпосты вроде твоих?

Аноним 29/05/25 Чтв 13:06:34 № 1222569 192

>>1222561
я запилил огромный пост, где собрал весь фидбек, который про него мелькал когда-либо в треде. включая нейтральный и положительный, не пропустив ни одного сообщения
чтобы не называться хейтером, который отгоняет новичков, нужно ему поклоняться и выдавать шитпосты вроде твоих?

Аноним 29/05/25 Чтв 13:07:16 № 1222570 193

понятия не имею, почему произошел даблпост. двачику плохо

>>1222567
как это сделать? я правда не знаю, давно сделал бы уже

Аноним 29/05/25 Чтв 13:07:44 № 1222571 194

>>1222552
Щитпост - это все что ему НИНРАВИЦА или ГЛУПА.

Аноним 29/05/25 Чтв 13:09:43 № 1222573 195

>>1222517
Потому что у взрослой женщины и запросы соответствующие. Зачем ей нищук без ВРАМ. Нужно соответствовать.

>>1222571
Щитпост это не содержательные сообщения в формате чатика.
И да, я тоже уебан, в связи с чем заваливаю свой еблет

Аноним 29/05/25 Чтв 13:10:24 № 1222575 196

Господа, а что посоветуете прикрутить для tts в таверне? Чтобы не сильно гемор, локально и более менее хорошо читал? Потому что пробовал встроенный в браузер это конечно даже покекать не тянет

Аноним 29/05/25 Чтв 13:10:49 № 1222577 197

>>1222570
Очевидный скрипт же

^^^^^^^^^^^^^^^^^^^^
Здесь ваши шутки про Степана и печеньки

Аноним 29/05/25 Чтв 13:14:16 № 1222581 198

>>1222517
Но такие наилучшим образом раскрывается именно на больших моделях. Такая вот ирония.

Аноним 29/05/25 Чтв 13:27:02 № 1222606 199

Не, аноны, мой выбор - это Shift+Del.

На забугорном пусть хомяки кумят, а мне после курения манов и кодописания на родном отечественном бы.

То есть назад на 24Б.

Как Немотрон может на английском можете не показывать, не интересует.

Аноним 29/05/25 Чтв 13:40:58 № 1222622 200

>>1222606
Этот немотрон форсит ровно один шиз, а мы уже просто рофлим, никто на серьёзных щах тебе его не советовал. Модель объективно супер сырая, может через пару лет зеленые и выпустят что-то работающее, но пока это мемы.

Аноним 29/05/25 Чтв 13:53:34 № 1222636 201

>>1222470
Ризонинг используй. Без него смысла ноль.

Он вполне себе умный, особенно если не квантовать кэш. Точнее, не умный, а логика не так страдает, но это лишь при ризонинге. В ином случае лоботомит.

А файнтюны все на него полное дерьмо.

Аноним 29/05/25 Чтв 13:59:17 № 1222644 202

>>1222622
"Нужна простая, советская кошкодевочка."
Ну или лисодевочка. Девочки-лисички лучше.
https://acomics.ru/~FGAB/1
Неиллюзорно Валькирия лучше стоковой, но русский всё равно сосед.

Аноним 29/05/25 Чтв 14:38:04 № 1222721 203

Котаны, привет
Выхожу из 10летнего ридонли.

Я бы хотел попросить вашей помощи. Хочу натренировать какую-нибудь модель на работу с ГОСТами. А вот какую - не знаю. Джипити и дипсик - мозги изрядно съели. Первый вечно все забывает и делает по своему, второй вообще нафиг меня шлёт с загрузкой. Да и госты у них так себе получаются

Пожалуйста, подскажите, прямо носом ткните что и куда смотреть. Какую модель вы рекомендуете поставить? жипити прямо квен сует. А я в интернетах прочитал типа у него еще проблемы с русским языком,а тут гост целый

Аноним 29/05/25 Чтв 14:42:34 № 1222724 204

>>1222721
Тебе бы в понятиях разобраться, прежде чем госты писать

Аноним 29/05/25 Чтв 14:51:57 № 1222739 205

>>1222724
Ага, спасибо. Но видишь ли, анон, я как пользователь сужу. До сегодняшней мысли - все было черным ящиком. То есть, я раньше мог запустить тот же джипити, написать дескать работай по примеру, формулируй вот так.

А ГОСТ это больше как пример, что может быть точнее госта? значит дообучить будет проще. я так думаю Вы тут такие штуки вытворяете дух захватывает

Аноним 29/05/25 Чтв 15:17:40 № 1222791 206

поясните по хардкору за Mistral Large Instruct 2411

Аноним 29/05/25 Чтв 15:26:44 № 1222811 207

>>1222791
Тебе нужен хардкорно-красноглазый риг на дохуя врумм и за дохуя бабосов + пингвинятник и будет тебе счастье от умненькой модельки.
А может и нет.

Аноним 29/05/25 Чтв 15:27:39 № 1222812 208

>>1222791
> поясните по хардкору
кал

Аноним 29/05/25 Чтв 15:42:15 № 1222847 209

>>1222811
> Тебе нужен хардкорно-красноглазый риг на дохуя врумм и за дохуя бабосов + пингвинятник
в наличии
> будет тебе счастье от умненькой модельки. А может и нет.
отсюда поподробней

Аноним 29/05/25 Чтв 15:45:57 № 1222857 210

>>1222847
> отсюда поподробней
Берешь заходишь на обниморду и скачиваешь нужный тебе квант и не ебешь мозги. Если уж ты осилил риг, то странно задавать очень ньюфажные вопросы. И более того, вызывает подозрение что ты не посмотрел тред, где анон расписывал об этой модели.

Аноним 29/05/25 Чтв 15:46:01 № 1222858 211

>>1222847
Как видно на примере немотрона, больше параметров != больше мозгов. Впрочем, мистраль сломать промтом/сэмплингом сложнее чем другие семейства моделей, они они чаще работают лучше на примерно-нейтральных настройках сэмплирования.

Аноним 29/05/25 Чтв 15:54:14 № 1222876 212

>>1222858
>>1222857
> не посмотрел тред, где анон расписывал об этой модели.
> 135 перекатов
лан качаю и не ебу мозги

Аноним 29/05/25 Чтв 15:58:26 № 1222888 213

>>1222876
>>1221470

Ты не поверишь. Этот тред - буквально этот тред))

Аноним 29/05/25 Чтв 16:02:03 № 1222901 214

>>1222888
нашёл >>1221470

Аноним 29/05/25 Чтв 16:33:25 № 1222971 215

>>1222130
А это какой тюн и квант? Ты на Кобольде запускаешь?
Гоняю сейчас https://huggingface.co/mradermacher/Dumpling-Qwen2.5-32B-i1-GGUF с пресетом pixeldrain. Вроде ничего так. Но пока пристреливаюсь и даже не знаю какие тюны лучше? У меня IQ3_XS помещаются

Аноним 29/05/25 Чтв 16:43:56 № 1222997 216

Подскажите обезьяне, lm studio через что подключается к таверне? Через vLLM?

Аноним 29/05/25 Чтв 16:43:57 № 1222998 217

>>1222644
> Девочки-лисички лучше
Ультрабаза. Главное никого не обижать, cat is fine too.
>>1222721
> Хочу натренировать
Это то же самое, что к тебе с улицы подойдет шкет из какого-нибудь кружка и скажет что он хочет сделать полный перечень проектной документации производственной линии горячекатаного профиля умея играть в майнкрафт.
Если совсем коротко - забудь про обучение, изучай техники работы с имеющимися сетками типа рага и агентов. Много готовых решений есть. Другой вариант - проси у начальства побольше денег и связывайся с отечественными корпами (прежде всего банки, агрегатор) и институтами. Вот только проблема в том, что пока все это будет идти - сетки успеют обновиться и продукт протухнет не дойдя до внедрения.
>>1222858
> больше параметров != больше мозгов
Равно, особенно в рп и абстрактных вещах.
> на примере немотрона
Он как раз и умный, просто ужасно припезднутый. Нужно хорошо стукнуть чтобы заставить работать.

Аноним 29/05/25 Чтв 16:51:25 № 1223010 218

изображение.png 59Кб, 1275x449

>>1222997

Аноним 29/05/25 Чтв 16:57:44 № 1223031 219

>>1222971
Нет, я на голой ЛамеЦпп сижу. Вот этот тюн: https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.2-GGUF

Вроде считается одним из лучших на Квен2.5. Есть еще тюны от этого тюна, но я так глубоко не погружался. IQ3S вроде маловато, хорошо если работает

Пресет забрал кстати, сяп. Пару дней назад его не было или я шиз и пропустил?

Аноним 29/05/25 Чтв 17:09:52 № 1223078 220

>>1222998
> Он как раз и умный, просто ужасно припезднутый. Нужно хорошо стукнуть чтобы заставить работать.
так как его врубить-то на полную катушку? мы всем тредом не разобрались, сегодня немотронщик принес свой пресет, снова. и яснее не стало. там где-то скрытый переключатель в режим ебейшей модели?

Аноним 29/05/25 Чтв 17:13:49 № 1223090 221

1748528029178.jpg 71Кб, 853x189

Лол, типичная геммочка. Переломает тебе все кости, но исключительно ради твоего же счастья.

Аноним 29/05/25 Чтв 17:23:53 № 1223115 222

>>1223090
Как то на фоне разговоров о её соевости, попробовал я геммочку на дикой яндере карточке. Когда персонаж стал отпиливать мне пальцы мило смеясь - чёт мне стало не совсем уютно от такой милоты.

Аноним 29/05/25 Чтв 17:26:26 № 1223119 223

Там появились новые дистилляции от нового дипсика

Аноним 29/05/25 Чтв 17:37:56 № 1223146 224

>>1223090
Тоже заметил такое за геммой.

>>втыкаешь нож, прокручивая его в пояснице?

>>"Ах, да! Крути больше, мне так нравится!"

>>откатываешь ответ и добавляешь OOC: опиши сцену жёстче

>>"Ох, немного больно, но мне нравится!"

Но для кума без эмоционально-физического насилия пойдёт.

Аноним 29/05/25 Чтв 17:42:06 № 1223168 225

блядь на что вы тут дрочите ебанутые

Аноним 29/05/25 Чтв 18:10:48 № 1223248 226

Так что там валькирию потестили?
По идее 49б звучит имбово, немного погонял и кум есть и пишет логично, только лупы заебали

Аноним 29/05/25 Чтв 18:12:24 № 1223253 227

>>1223248
В общем стоит ли пересаживаться со сноудропа?

Аноним 29/05/25 Чтв 18:13:21 № 1223254 228

>>1223248
пресетовичок отписывался
>>1208420 →
>>1209042 →

и немотронщик, который утверждает, что модель лоботомировали (с чем отчасти можно согласиться, это все-таки тюн драммера)

Аноним 29/05/25 Чтв 18:18:46 № 1223270 229

Какая моделька сейчас считается самой умной и старательной в следовании характеру персонажа в формате 20-50? Сочность кума тоже важна, но точный отыгрыш персонажа сеткой важнее

Аноним 29/05/25 Чтв 18:20:29 № 1223278 230

Снимок экрана 2[...].png 11Кб, 697x95

Снимок экрана 2[...].png 14Кб, 898x115

Анончики, помогите с кобольдом 1.92.1. Я сменил видеокарту на 5070, и всё пошло по пизде.

Берём например magnum-v4-27b-Q6_K.gguf
Была 8 гиговая всё было окей, остатки загружались в 32 гб оперативки. Но что происходит сейчас, я блять понять не могу. Если оставить слои на авто, то она загружается, но очевидно памяти не хватает для браузера. Ну ладно, снижу слои на гпу - нихуя. Я дошёл до абсурдного, типа 5 слоёв на гпу оставил, всё равно ошибки по выделению памяти. В диспетчере смотрю, всё окей, памяти ещё дохуя.

На 1 скрине видно что всё окей, нормально распределил, это и отображается в диспетчере. А на 2 нахуя он пытается выделить 1,4 гига и говорит oom, но там ещё дохуя свободной памяти, и на что он ещё пытается выделить на 12 гигов? Все дрова обновил на всякий случай. Полный лог https://files.catbox.moe/40cto6.txt

Заранее спасибо.

Аноним 29/05/25 Чтв 18:28:32 № 1223298 231

>>1223078
Ну вон несколько тредов как только он появился в обсуждения и ехл3 завезли в собаку описано. Чатмл с различными системными промтами от стандартных рп таверны, до шизополотен от васянов. От них поведение сильно меняется и может быть как таблицошиза, так и уже вполне обычный текст с редкими вкраплениями. Но она специфична, как раз тогда и жаловался на гиперфиксацию к некоторым моментам.
>>1223278
> 1.92.1
Это самая последняя или древняя? Старье на блеквеллах не будет работать, должно быть собрано с кудой 12.8 или новее.

Аноним 29/05/25 Чтв 18:32:28 № 1223301 232

>>1223298
Самый последний релиз на гитхабе.

Аноним 29/05/25 Чтв 18:35:21 № 1223305 233

Снова пишу по поводу кодинга.
Попробовал Cline, все ок и зашибись, кроме одного - странно низкая скорость генерации ответов через Ollama, хотя в базе, при переписке через терминал, дает стабильно около 20 токенов в секунду. По наблюдениям скорость какая то нестабильная, не сильно зависит от забитости контекстом: первое сообщение может генерировать несколько минут, второе - минуту, третье - опять минуты две и так далее. Такое ощущение, что параллелизм не используется по какой то причине, хотя оллама его запускает по умолчаню, вроде как.

Аноним 29/05/25 Чтв 18:41:47 № 1223332 234

>>1223305
>Ollama
Ну ты и говноед, конечно. В этом закрытом поделии не поймешь в чем проблема.
Подключайся через опенаи апи к какому нибудь кобальду или лмстудио
По хорошему вобще с llama.cpp

Аноним 29/05/25 Чтв 18:45:43 № 1223339 235

>>1223332
Ну за говноеда обидно, конечно.
Просто кобольд и лмстудия мне недоступны, а ллама-ЦП не поддерживает параллельные вычисления с двух видюх. Потому изголяюсь как могу.

Аноним 29/05/25 Чтв 18:48:09 № 1223351 236

А отчего зависит сколько процессинг промпта будет? Просто смотрю, то по 400 токенов, а то по 4к? Через кобальда запускаю, стоит флешэтеншн и фастфорвардинг

Аноним 29/05/25 Чтв 18:48:22 № 1223353 237

>>1223332
> Ну ты и говноед вайбкодер, конечно

Аноним 29/05/25 Чтв 18:49:49 № 1223362 238

>>1223353
Стало даже чуть более обидно(((

Аноним 29/05/25 Чтв 18:50:10 № 1223364 239

>>1223339
>параллельные вычисления с двух видюх
Так если у тебя не нужна выгрузка на оперативку и вся модель во врам, используй tabbyAPI или vllm.
Вроде что то еще крутое было для параллельного запуска, хз
Зачем тебе вобще параллельность для кода?

Аноним 29/05/25 Чтв 19:03:05 № 1223392 240

>>1223339
> а ллама-ЦП не поддерживает параллельные вычисления с двух видюх
Рофлишь чтоли? Все что поддерживает оллама - может и llamacpp, исключая некоторые нюансы реализации апи, ибо там оно минималистичное совсем.
Если хочешь объединить две карточки - по дефолту оно и так будет обе юзать. Если хочешь грузить на каждую свою модель - запускаешь 2 экземпляра, каждый со своим cuda_visible_devices

Аноним 29/05/25 Чтв 19:04:09 № 1223396 241

image.png 34Кб, 1066x149

погодите а с qwq и сноудропом так же?

Аноним 29/05/25 Чтв 19:05:30 № 1223402 242

Что лучше вообще заюзать для запуска модельки, чтобы было быстро и не особо запарно? Тут прямо все на разном сидят, кто на кобольде, кто на лламацпп, кто на лмстудио и тд. Почему такой разброс сильный вообще? Вот если у меня одна видяха и я сижу на винде, что лучше будет?

Аноним 29/05/25 Чтв 19:06:50 № 1223407 243

>>1223396
С любой сеткой. Разве что qat gemma3 вроде как тренирована в 4 бит и вроде как не страдает
Но она сама по себе хуже обычной версии геммы3, а ту квантовать также не следует

Аноним 29/05/25 Чтв 19:12:17 № 1223426 244

>>1223396
С любой моделью. Они просто напомнили, что это не халявный большой контекст. На практике в рп все ок, я использую q8 в том числе с тегами Квена2.5. Пресетик с пиксельдрейна оч кстати пришелся к слову. Квены немного капризны по семплерам

Аноним 29/05/25 Чтв 19:12:56 № 1223429 245

>>1223426
С тюнами'
Т9 бяка

Аноним 29/05/25 Чтв 19:14:44 № 1223434 246

>>1223402
лучше будет две видюхи и сидеть на линуксе

Аноним 29/05/25 Чтв 19:16:08 № 1223439 247

>>1223270
Ну пожалуйста...

Аноним 29/05/25 Чтв 19:18:07 № 1223447 248

>>1223270
Ну анон, тысячу раз обсуждали уже. Сноудроп без ризонинга, Командер (не тюн), Глм-4, что-то из этого. Иди на пиксельдрейн и забирай оттуда пресеты, тестирую каждую и составляй мнение сам
Мистраль 24б вряд ли хорошо справится, но можешь попробовать Dan's Personality Engine 1.2.0

Аноним 29/05/25 Чтв 19:18:40 № 1223452 249

>>1223396
Лично я предпочитаю контекст ужать, или квант поменьше взять, но кеш не трогать никогда. Сколько не смотрел разного от 8B до 32B - на любой модели разница даже между fp16 и q8 видна. Даже в английском RP, не говоря уже о чем-то серьезней. Оно конечно, некоторые модели лучше переносят, но так, чтобы разницу не видно было совсем - ни разу пока не видел. "Глубина мысли" и "естественность оборотов" страдают в первую очередь. Оно остается все еще логичным, но становится более примитивным.

Аноним 29/05/25 Чтв 19:20:21 № 1223456 250

>>1223396

двачую вышеотписавшихся - ужатый контекст во всех моделях приводит к плохой выдаче

Аноним 29/05/25 Чтв 19:22:36 № 1223463 251

>>1223452
Плацебо. На качество ответов квантованный кеш не влияет. Только больше деталей из контекста будет проебываться, что может привести к знаменитому 'снимает трусы два раза'. Хз, я на 32б моделях разницу не ощущаю между Q8 и FP16
И так особо большой квант не впихнуть, а с квантованием кеша могу q4 юзать

Аноним 29/05/25 Чтв 19:26:17 № 1223467 252

>>1223402
Если в гпу все - экслама2 или 3
То есть Угабуга или Табби. Другого не дано

Аноним 29/05/25 Чтв 19:27:15 № 1223468 253

Как же я щас заорал.
Мне сноудроп в exl3 4bpw высрал огромную таблицу со статами как на шизатроне и огромный текст "я против насилия" на след свайпе
На жоре всё норм
Промпт у меня специфический, но таблицами срать не указано и цензуру всю пробивает, на жоре опять же все норм

Аноним 29/05/25 Чтв 19:28:44 № 1223471 254

>>1223447
Спасибо, братик...

Аноним 29/05/25 Чтв 19:31:27 № 1223474 255

>>1223468
не ту модель поднял, обосрался в разметке или используешь nsigma, нужное подчеркнуть

Аноним 29/05/25 Чтв 19:43:32 № 1223495 256

>>1223474
сменил промпт на дефолтный от сноудропа, пресет анона на qwq

Аноним 29/05/25 Чтв 19:44:22 № 1223499 257

>>1223463
Это просто экстремально далеко зашедший процесс. Т.к. модель про трусы не знает ничего (сознания то нет) то ей пофигу, что два раза использовать. Пока потеря точности небольшая - она может перестать различать или объединять всякую "мелочь" которая часто встречается - вроде названия цвета (красный/алый). Но и это уже сказывается на внимательный взгляд - синонимов становится меньше и т.д. - текст "высушивается". Ну а когда потеря точности прогрессирует - тут уже вместо двух пуговиц, могут две пары трусов оказаться...

Другое дело, если "английский со словарем" - такие нюансы между fp16 и q8 не так заметны, особенно на больших моделях.
А на русском - еще и окончания (особенно пол и падежи) начинают плыть, либо построение фраз целиком - как будто англоязычный писал, с характерным порядком частей предложения.

Аноним 29/05/25 Чтв 19:45:59 № 1223504 258

>>1223402
> чтобы было быстро и не особо запарно
Чтобы было быстро и хорошо работало = exllama, безальтернативно. Остальное уже компромиссы.

Аноним 29/05/25 Чтв 19:48:40 № 1223514 259

>>1223504
>Чтобы было быстро и хорошо работало = exllama, безальтернативно. Остальное уже компромиссы.
И пока еще только вторая. Третья в процессе активного допила и пока периодами чудит - что на табби что на уге.

Аноним 29/05/25 Чтв 19:50:19 № 1223519 260

>>1223495
ну тут по твоему первому сообщению все ясно в целом

Аноним 29/05/25 Чтв 19:50:55 № 1223520 261

>>1223519
Культист ехл3, спок.

Аноним 29/05/25 Чтв 19:54:22 № 1223529 262

>>1223514
В целом да, она уже облизана хорошо. Но и с третьей пока проблем не встретил, исключая заниженную скорость генерации на некоторых моделях. Но если сравнить на рабочем контексте - она все равно быстрее жоры.

Аноним 29/05/25 Чтв 19:55:54 № 1223538 263

>>1223529
>с третьей пока проблем не встретил
Буквально выше. Сам можешь скачать и проверить, промпт и пресет я озвучил
Фанатики пиздец.

Аноним 29/05/25 Чтв 20:00:27 № 1223552 264

>>1223495
>>1223520
ну анон, твое первое сообщение правда о многом тебе говорит. но все-таки предположим, что ты не ебанат и решил по приколу затестить/сломать модель. чтобы перепроверить, я сделал ровно то же самое. с тем же самым пресетом анона qwq32rp и той же самой моделью и квантом. смотри пикрил. у тебя исключительный случай скилл ишью или ты просто тупничок? укатывайся на родного кобольдика xD

Аноним 29/05/25 Чтв 20:01:24 № 1223556 265

>>1223538
Квантователь не разобрался в новом и где-то сфейлил, а ты выставляешь это как невероятную драму. Вон жорины стабильные кванты известный и зарекомендовывший себя производитель уже 3й раз за неделю исправляют, и все хавают.

Аноним 29/05/25 Чтв 20:03:27 № 1223561 266

>>1223556
анонус, я буквально использую тот же квант, что и он. квант рабочий. другого такого же на hf нет, это точно он. можно по названию перепроверить. несмотря на то, что тут профильный тред, иногда вот такие вот особенные кадры пробираются. как же смешно бля

Аноним 29/05/25 Чтв 20:03:33 № 1223562 267

image.png 10Кб, 366x44

>>1223552
пикрил офф.
континью ласт месаге.
свайпай и признай что ехл3 говно, кал, моча.

Аноним 29/05/25 Чтв 20:06:12 № 1223568 268

>>1223561
Значит он сам какую-то херню с запуском намутил, какая-нибудь база с rope/yarn. В обоих случаях вывод один - сдуру можно и хуй сломать.
> можно по названию перепроверить
Обычно в названии идет имя репы - имя модели - квант квант, тут просто имя модели и exl3. Но если действительно один то ошибиться сложно.

Аноним 29/05/25 Чтв 20:10:38 № 1223585 269

>>1223562
так-так. а что еще сделать? xD

>>1223568
> Обычно в названии идет имя репы - имя модели - квант квант, тут просто имя модели и exl3
в последнее время набрала мода кванты в отдельных репах выкладывать, чтобы их было легче искать поисковиком (что справедливо). вот конкретно этот квант https://huggingface.co/MetaphoricalCode/QwQ-32B-Snowdrop-v0-exl3-4bpw-hb6
это единственный 4bpw exl3 snowdrop квант на всём hf, других нет. так и живем, мне самому трудно поверить, что в профильном треде могут быть такие кадры

Аноним 29/05/25 Чтв 20:11:30 № 1223589 270

>>1223585
Ясно, попробовал и по ноге потекло, я оказался прав.
Любой может скачать и проверить, не слушайте ехл3 шизов.

Аноним 29/05/25 Чтв 20:14:01 № 1223598 271

>>1223589
легчайший детект немотронодебила. не расстраивайся так, что не запустишь любимую модельку в SOTA-кванте, тебе и IQ3XS хватит!

Аноним 29/05/25 Чтв 20:15:52 № 1223606 272

>>1223585
> мода кванты в отдельных репах выкладывать
Да не, это нормально, я к тому что неймспейс не указан что не позволяет достоверно идентифицировать.
Похуй там квант поломанный, или этот балбес что-то накрутил там. Ахуеваю с самого факта лицемерия, когда херне, имплающейся "стабильной", прощаются регулярные поломки в мейн бранче, постоянно лезут баги с квантами которые еле успевают обновлять и т.д. и все прочее, но единичная проблема из-за явных косяков с отмеченной "нестабильной и требующей доработки альфа версией" выставляется как величайший провал.
Ладно бы там коупинг обладателей отсутствия про жорин уклад един@путь выгрузки в рам, а когда чел вроде с памятью так серит - это какое же чсв нужно иметь чтобы с единичной неудачи так порваться.

Аноним 29/05/25 Чтв 20:22:38 № 1223624 273

>>1223606
будь снисходителен, да и не печалься. там человечек не очень умный, потому не осознает в чем проблема, да и что печатает тоже. турбодерп допилит через полгода-годик до 1.0, и сделают что-нибудь однокнопочное вроде кобольда. тогда даже такие как он мб смогут приобщиться

Аноним 29/05/25 Чтв 20:27:36 № 1223632 274

>>1223606
Какое лицемерие?
Всего то надо не быть фанатиками и признать что по ноге течет, особенно когда каждый может скачать и проверить.
Тогда никаких вопросов, ну течет и течет.

Аноним 29/05/25 Чтв 20:30:10 № 1223640 275

С чего срач, вроде как эксель-3 никто не говорит что стабильный, и он ещё год-полтора стабильным не будет.

Аноним 29/05/25 Чтв 20:31:36 № 1223643 276

>>1223640
С того что шиз убеждает тред что всё окей, хотя лично ты можешь скачать и убедиться что квант сломан, но большинство поверит и будет пользоваться.

Аноним 29/05/25 Чтв 20:33:57 № 1223647 277

>>1223624
Да оно заметно что беды с башкой.
>>1223632
Чел у тебя по ноге течет, признай и подмойся.

Аноним 29/05/25 Чтв 20:41:01 № 1223660 278

Я глубоко возмущён таким тупым наглым пиздежом.
Ладно хуевый квант, бывает, но сука пиздеть на весь тред что всё охуенно - реально вызывает большие вопросы к адекватности ехл3вичков.

Аноним 29/05/25 Чтв 20:42:30 № 1223665 279

>>1223495
Это же буквально немотроношиз, который скорее всего срет в префилл своим же лорбуком, который забыл отключить или ещё где-нибудь обосрался. Он уже пробовал свою любимую 49б модель запускать, и он то же самое писал: цензура в exl3, в ггуфе нет. Пиздец. Мне интересно, у него фляга свистит или он просто слишком тупой и принципиально отказывается задействовать мозг? Энивей, я все ещё за бан. Думаю ливать с этой борды, потому что модерации как будто не существует. Анон целую подборку его высеров набрал в прошлом треде. А больше нихуя тут и нет в последнее время, все тупо отдают борду на растерзание шитпоста. Даже аицг моделируют, представляете?

Аноним 29/05/25 Чтв 20:45:10 № 1223672 280

Вот, его же насёр про неведомую цензуру в exl3 >>1200105 →
Он потом с этим тейком протекал в тред еще пару раз

Аноним 29/05/25 Чтв 20:45:32 № 1223674 281

>>1223665
Соглашусь, нехуй шитпостить своими поломанными квантами.

Аноним 29/05/25 Чтв 20:49:22 № 1223680 282

Аноны, тут буквально недавно обсуждали уже, но подскажите еще разок. Как подтянуть какую-нибудь 2b-4b модельку для перевода текста в таверне, чтобы не юзать стандартные яндекс/гугл?

Аноним 29/05/25 Чтв 20:49:47 № 1223683 283

>>1223660
Тут дефолтная херня, что случается при общении с глупыми людьми.
Неосилятор узнылся из-за своей неудачи, и пошел тиражировать насколько все плохо, ведь ОН не может ошибаться.
Когда ему предъявили что он не очень то прав, не стоит преувеличивать и умвр - он начал перефорс, о том что тут сидят неадекваты и фанатики, которые смеют сомневаться в величайшей истинности его слов.
(вы находитесь здесь)

Бинарное мышление крайними положениями, максимализм-радикализм, проблемы с логикой, и все это помноженное на запредельное чсв.

Аноним 29/05/25 Чтв 21:05:00 № 1223716 284

>>1223683
Но ведь это и к тебе относится, чёрт.
Ведь кроме нас двоих никто не затестил и ты так же уверен что прав только ты

Аноним 29/05/25 Чтв 21:06:39 № 1223718 285

Токсичный народ. Врамцелы наверное.

Аноним 29/05/25 Чтв 21:10:29 № 1223725 286

>>1223680
Разобрался.

Аноним 29/05/25 Чтв 21:20:54 № 1223753 287

image.png 1Кб, 191x35

Почему эта волшебная кнопка даёт мне 8к контекста бесплатно?
В чём подвох?

Аноним 29/05/25 Чтв 21:25:14 № 1223766 288

>>1223716
Сам ты черт. Не относится, просто потому что я не занимаюсь форсингом какой-то хуеты из обиды, а лишь зоонаблюдаю как запиздевшееся чмо пытается перекатываться и оправдаться. Жаль только что это мешает другим и загрязняет тред, единственное что останавливает.
> уверен что прав только ты
Если ты изначально занял правую позицию то иначе и быть не может. Можешь поискать противоречия или радикальные заявления как у того шизика и убедиться что ихтамнет, только указания на неуместность его воя.

Аноним 29/05/25 Чтв 21:28:53 № 1223780 289

>>1223766
ты глаголишь истину, но к сожалению, ты проиграл, вступив в дискуссию с законченным дураком. он непробиваемый, у него суперпозиция

Аноним 29/05/25 Чтв 21:30:25 № 1223784 290

>>1223753
В гугле написано.

Аноним 29/05/25 Чтв 21:31:06 № 1223787 291

>>1223780
Суть в наблюдении как уж будет вертеться на сковороде и фантазировать. Ну ладно, больше не буду.

Аноним 29/05/25 Чтв 21:46:02 № 1223822 292

>>1222053
>notebooklm гугловский, разочаровался что в ближайшие лет 10 не смогу такой агрегатор дома сделать
А че там делать? Файнтюн на формат подкастов + ттс на тех же подкастах обученный.
Правда датасет должен быть с исходной темой в начале, а не просто подкасты, но наверное решается синтетикой.
Не сказал бы что он сильно хорош, текстовый разбор статей мне намного больше нравится.

Корпы видимо еще не одуплились что имба это именно хорошо обученные узкоспециализированные модели а не универсальный ассистент, которого хуй заставишь хорошее полотно написать.

>>1222074
>я хотел сделать просто базу знаний с локальным ллм чтобы мог обрабатывать большой массив данных.
Сейм, тоже хотел бы, но
>Хотел обрабатывать в нем статейки и все такое.
Если тебя интересует читка статей с архива, то мне хватило просто копипаста статьи в big-agi с простым промтом и дальнейшего чатика с вопросами. Гемини норм разбирает, о3 тоже норм но формат уебанский. Ласт дикпик вроде пойдет.
Таверна для таких вещей не подходит из-за дебильного чат-менеджмента в первую очередь.
Скриптик для копипаста есть https://gist.github.com/taowen/3a0ee294ae60fd7e8f14f4af81edf38e
Домен меняешь на ar5iv, чтобы html открылся, мусор типа ссылок и протекшего кода удаляешь ручками. Есть еще alphaxiv.org, там бесплатно можно делать то же самое, но я использую только для статей на которые не дает html, а там оно работает почему-то. Плюс у меня разбор длиннее выходит, цветные формулы промтом, фикс разметки добавил чтобы ллмки не проебывались с формулами, а то они даже на alphaxiv и вебморде гемини проебываются, лол (ставя _ в тексте где не надо) и еще сумарайз заголовков получше сделал. Если вдруг надо могу дать...

>интересно внутрянку ллм изучить
Уважаемо. На каком этапе понимания сейчас?
Ты кстати не тот самый анон плюшеёб?

Аноним 29/05/25 Чтв 21:46:47 № 1223824 293

GLM-4 Q4_K_M
Окей, чтобы проверить контекст мне пришлось потратить пол часа на генерацию сообщения в 33к токенов, просто потому что у меня нет чата на ~60к контекста
И это, блять, победитель.
Q4_K_M 60к f16 контекста полностью влезает в 24гб врам.
На ехл3 наверное влезет все 80к, а если квантануть - мне страшно даже думать об этом.

Аноним 29/05/25 Чтв 21:47:10 № 1223825 294

Народ, а вот это кто-то щупал? По описанию там, должно быть что-то типа quen3-30b-a3b только русскоязычное изначально.
https://huggingface.co/ai-sage/GigaChat-20B-A3B-instruct

Есть впечатления?

Аноним 29/05/25 Чтв 21:50:35 № 1223827 295

>>1223824
На exl3 в 24гб врама умещается 5bpw-hb8 с 32к FP16 контекста. 4bpw не пробовал, мне больше 32к не нужно, да и вряд ли модель такого размера будет нормально следовать настолько большому контексту

Аноним 29/05/25 Чтв 21:54:13 № 1223837 296

>>1223822
> Файнтюн на формат подкастов + ттс на тех же подкастах обученный.
> А че там делать?
Разве это просто?
>>1223824
> пол часа на генерацию сообщения в 33к токенов
Вау
> просто потому что у меня нет чата на ~60к контекста
Копипастишь плейнтекст с треда туда, если перебрать - обрезаешь, если недобрал - добавляешь. Перед этим можно дать задание типа "Что это за текст? Обобщи что там написано, предположи откуда, вынеси основные выводы и найди какие-нибудь шутки.".
Да, у жлм довольно компактный контекст, что хорошо.

Аноним 29/05/25 Чтв 21:58:54 № 1223851 297

>>1223825
>сбервысер
По дефолту говно.

Аноним 29/05/25 Чтв 22:06:25 № 1223877 298

>>1223851
Свинья, вон из треда.

Аноним 29/05/25 Чтв 22:06:27 № 1223878 299

>>1223837
>Разве это просто?
Для корпов раз плюнуть. Для анона... ну не думаю что для этого надо 10 лет. Самое сложное это датасет собрать и обучить на нем дипсик какой-нибудьну и понять нахуя это надо.... Как бы решаемая задача при большом желании.
И ттс в notebooklm обычный как и везде, ибо чистая мультимодалка бы не справилась с такой генерацией и ее на это хуй обучишь. Даже если она там таки присутствует то текст ей подсовывается уже готовый.

Аноним 29/05/25 Чтв 22:09:16 № 1223885 300

>>1223877
Греф, верни вклад СССР моей матери, скотина ты бездушная.

Аноним 29/05/25 Чтв 22:11:01 № 1223890 301

>>1223827
Система жрёт врам что ли?
У меня на 5bpw 40960 умещается, можно чуть больше, ещё 0.5 врам свободно

Аноним 29/05/25 Чтв 22:16:18 № 1223899 302

>>1223851
Я спрашивал про впечатления, а не классификацию...
Наверно, много хочу.

Аноним 29/05/25 Чтв 22:16:28 № 1223901 303

>>1223890
Так а я и не ставлю больше. Мне не нужно. Если минмаксить, да, можно под 40к выжать. На 4bpw и правда 64к может получиться

Аноним 29/05/25 Чтв 22:18:54 № 1223908 304

Гемма, сука, что ж ты не учишься у китайцев...
Представил как расписываю полотна, ставлю ответ 800 токенов и рпшу на русском 80к контекста...

Аноним 29/05/25 Чтв 22:23:17 № 1223917 305

>>1223908
Глм вроде не тестили на русском, но он мультиязычный. Вперед

Аноним 29/05/25 Чтв 22:23:33 № 1223919 306

>>1223901
>>1223890
Купите вторую 3090, ну что вы...

Аноним 29/05/25 Чтв 22:25:38 № 1223924 307

>>1223917
Он тупой, а гемма умница. Не вариант.

Аноним 29/05/25 Чтв 22:26:40 № 1223930 308

>>1223919
Мне русик не нужен, да и хватает того, что есть. Вот появится крутая моделька, которая совершит качественный скачок, может и куплю!

Аноним 29/05/25 Чтв 22:34:42 № 1223944 309

Мне не дают покоя отзывы в дс драммера на валькирию.
Челы всерьез утверждают что аутпуты на уровне 70б, а то и выше

Аноним 29/05/25 Чтв 23:04:19 № 1223995 310

x1 райзеры с озона - говно, держу в курсе. Заменил на два китайских (от chipal вроде) - 0 ошибок pci-e. Придется заказывать еще оттуда про запас, а эти на помойку.
Осталась одна карта на озоновском, за 5-7 свайпов 100 ошибок (в nvidia-smi). Кто-нить знает, эти ошибки же корректируются, на аутпут не влияют?

Аноним 29/05/25 Чтв 23:07:25 № 1224001 311

>>1223995
На качество не влияют, но могут очень сильно замедлять работу.

Аноним 29/05/25 Чтв 23:11:00 № 1224008 312

>>1223944
Ты тоже можешь так утверждать.

Аноним 29/05/25 Чтв 23:18:58 № 1224024 313

Аноны, подскажите модельку для перевода рус/англ.

Аноним 29/05/25 Чтв 23:21:22 № 1224032 314

>>1224024
DeepSeek-R1 671B

Аноним 29/05/25 Чтв 23:24:02 № 1224042 315

>>1224024
гемма3 27б

Аноним 29/05/25 Чтв 23:32:12 № 1224067 316

>>1224024
>Аноны, подскажите модельку для перевода рус/англ.
И ещё просьба от другого анона: а есть уже приблуда, которая связывалась бы по API с llamacpp-server и давала бы ему запрос на перевод, а результат выдавала уже по своему API? Чувствую, что проще самому написать, но может уже кто-то заморочился?

Аноним 30/05/25 Птн 00:25:53 № 1224195 317

Блять, ёбаный стыд, сижу на даркнесс рейгхе уже месяц, решил постестить аблитерейтед гему12b которую тут кидали. Запустил сторителлера в рп и блять, как же онан ачала срать в штаны. Тут же перепутала к хям имена всех персонажей исквеоркав их, забыла локации и высрала вообще какие то левых людей в рассказ. Это хвалённая гема, или какой то рофл?

Осло, нихуя не понял как выгружать тензоры, 20 раз перечитал тред на реддите и всё равно нихуя не понял. Это возможно как то обьяснить в двух словах как это можно сделать?

Аноним 30/05/25 Птн 00:36:53 № 1224232 318

>>1224024
>Аноны, подскажите модельку для перевода рус/англ
Местные шизики конечно возбудятся, но Omnino-Obscoenum-Opus-Magnum-MN-12B.Q5_K_M.gguf показала наилучший результат по соотношению размер/качество. Особенно для ЕРП.

Аноним 30/05/25 Птн 00:39:03 № 1224238 319

>>1224195
>аблитерейтед гему12b
Чувак все аблитерации и файнтюны 12b геммы сломаны. У меня там буквально со второго сообщения лупы и бессмыслица начинаются, причём в независимости от языка. Странно что там даже какие-то лайки на хаггиче висят, при таком раскладе.

Аноним 30/05/25 Птн 00:44:50 № 1224257 320

>>1223753
Как она тебе его дала, я раньше не трогал это. Включил и... как вообще выглядить выхлоп, контекста больше не стало, всё так же 12к как я и ставил.

Аноним 30/05/25 Птн 00:46:54 № 1224261 321

>>1224238
Спасибо что написал, потому что я тупо не знал, и подумал что я опять вьебал говен. Короче дальше буду узником даркнесса, походу на 12B больше нет нормальных моделей без ограничений.

Аноним 30/05/25 Птн 00:58:37 № 1224278 322

>>1223305
> параллелизм не используется по какой то причине
И как оллама параллелит?
Скорость вдвое выше становится, что ли? :)
Если нет, то в чем прикол олламы? х)
Че-то непонятно…

>>1223640
Видать людям захотелось посраться, вот причину и нашли.
Заодно немотрон виноват тоже, ну а чо. =)

>>1223825
Ты угараешь? На даты смотреть вас вообще не учили?
Почему не версия новее?
https://huggingface.co/ai-sage/GigaChat-20B-A3B-instruct-v1.5/

Древняя модель, на архитектуре дипсика, работает быстро, качество сносное для своего размера, давности и разработки Сбера, если тебе супер-нужно использовать только локально и только русскую модель — то единственный вменяемый вариант, а так больше ни за чем не нужны.

Аноним 30/05/25 Птн 01:18:04 № 1224293 323

>>1224232
>Osloebum
Это троллинг название такое?

Аноним 30/05/25 Птн 01:28:08 № 1224305 324

>>1224067
Просишь нейронку написать это на известном тебе языке программирования и отлаживаешь.
>>1224293
Вот троллинг https://huggingface.co/BeaverLegacy/Smegmma-Deluxe-9B-v1

Аноним 30/05/25 Птн 01:32:28 № 1224313 325

Вы чтоааа.
Я только накидал черновой вариант списка, собравшись завтра уже делать основательно, а вы уже 324 сообщения за день настрочили. Ёпт, хули тред стал таким быстрым. Он неделю висел до этого без перекатов.

Аноним 30/05/25 Птн 01:53:44 № 1224336 326

>>1224313
Сам охуеваю. И где список то? Столько рвения было, а потом хуй.
Мимо ОП

Аноним 30/05/25 Птн 01:56:20 № 1224338 327

Бля это коммандер у меня так шизит или что? При разных запусках, даже на одной и той же карточке, с каким-то шансом отыгрыш персонажей превращается в - "А да анон-нейм, тебя ща будут резать голову? Ну мне это не нравится конечно... Но я ничего не могу поделать с этим...". Модель вместо нормального ответа и адекватных действий персонажа, просто начинает раскачивать какую-то депрессивную хуйню, превращая персонажей в зомби, которые ходят за юзером, охают ахают и рассказывают как они ничего не могут сделать, хотя якобы очень сильно хотят. При том что контекст происходящего может быть относительно веселым в этот момент лол. Надо в этот момент какую-то другую модель подрубать или как эту хуйню дефать вообще?

Аноним 30/05/25 Птн 01:58:35 № 1224341 328

>>1224336
Ну я же написал, что в пятницу займусь. Не ругайся, я не рассчитывал что тред будет настолько быстрым. Работа-с

Аноним 30/05/25 Птн 02:02:09 № 1224344 329

Мне кажется, что Абу уже просто подключил нейросеть для имитации активности треда, иначе как объяснить, что люди неиронично по 200 постов за день обсуждают выдуманные модели Omnom-Jopa-Pisya-Pussy-Magnum-GG-WP-12B.Q42_K_M. Нормальные люди никогда и не посмотрят в сторону подобной шизы, тем более на 12B лоботомитов, они просто скроллят подобные обсуждения. Поэтому никого это и не смущает, однако в реальности ни одной подобной модели на самом деле не существует - это все выдумка нейросети. Все ваши шизомиксы, "где лучше русик", "ах немотрончик", "скиньте пресеты на залупу", "вот мой пак карточек на канничек" - за этими обсуждениями не стоят живые люди, это всего лишь набор токенов от бездушной машины. Поэтому, если в этом треде еще осталась хоть капля человечности - пожалуйста, осознайте, что ваш разум и ваша воля находится в плену у машин.

Аноним 30/05/25 Птн 02:04:40 № 1224348 330

>>1224344
Опус это микс тредовичка. Годный
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

Что касается шизы с нейродвачем - неиронично порой ловлю себя на мысли, когда тред несколько раз начинался как сраная залупа на мистрали. Буквально - те же посты, те же пикчи. Но немного составленные по другому. Я уж думал у меня у одного шиза и это кажется.

Аноним 30/05/25 Птн 04:36:09 № 1224418 331

>>1223822
Привет анончик, хз чо за плюшееб. теперь интересно кто это, хех
Notebooklm просто зашел тем, что там есть все нужно для обучения. Мне полезен для написания статей, неплохо работает с источниками, есть возможность создания базы знаний, чтобы в контексте большой массив был (не только статей но и монографий. И он сука быстрый, пытался с qwq работать на 32б для обратки текста и (ого) обработка занимает по 12 минут. Тащемта я с таким же успехом могу и вручную обработать статью (конечно с учетом того, что за один запрос он все правильно не сделает. Тащемта делает то, что я пытался сделать в open webui. SyllyTavern не пытался использовать для этого. Все равно довольно проблемный для поиска статей по теме (либо я оладушек просто что вероятнее) и вручную выходит куда лучше.
Кстати спасибо за наводку и скриптик, Я не видел до этого big-agi, потыкаю.

По поводу этапа понимая языковых моделей. Уровень: хлебушек обоссанец или что-то такое. Целенаправленно не начал изучать. Сейчас просто усиленно тыкаю, пытаюсь понять как он контекст воспринимает, как работают сэмплеры. Тащемта не углублялся.
Кстати попробовал для генерации карточек сделать пресет на основе qwq snowdrop может кому надо: https://pixeldrain.com/u/S5hcra8B В author`s note добавьте: "Отвечай и разговарий только на русском языке. Все мысли и реплики персонажей должны быть на русском языке."
Я доволен как он работает, от себя не придумывает, довольно хорошо хватает характеристики, я внес лишь пару правок.
Выносит характеристики на первом шаге, после создает plist и на его основе (после одобрения) генерит диалоги.

Аноним 30/05/25 Птн 04:39:34 № 1224420 332

>>1224418
А забыл добавить, что пресет этот именно для работы с уже заметками для персонажей. Просто удаляет повторения, группирует, форматирует их. А после создает диалоги

Аноним 30/05/25 Птн 04:46:23 № 1224429 333

Перечитал прошлый тред, узнал про использование тензоров, там анон давал команду чтобы их можно было использовать.

https://pastebin.com/udG8dPk6

Куда это вводить, я вообще не шарю за это, сорян.

Аноним 30/05/25 Птн 04:48:16 № 1224430 334

>>1224429
Я причём пиздец долго рылся в интерфейсе кобальда, искал там поле куда можно ввести. Пробовал вводить в поле тензор сплит ка писали ранее, но меня при запуске выкидывало нахуй с ошибкой.

Аноним 30/05/25 Птн 05:36:26 № 1224444 335

Эх, когда я вижу в консоле 10 т/с (хоть и на 3к контекста), то меня переполняет sense of accomplishment. Жора, лардж, Q6. А ведь когда-то кумил на 2.5 т/с...

Аноним 30/05/25 Птн 05:48:49 № 1224445 336

>>1224444
Чем меньше токенов, тем ценнее кум, каждый сисик и писик в радость, а когда токенов много, то сначала конечно покайфуешь, насвайпаешься в доволь, но очень быстро перенасытишься и начнёшь видеть во всём один лишь слоп.

Аноним 30/05/25 Птн 05:56:22 № 1224448 337

>>1224344
>Omnom-Jopa-Pisya-Pussy-Magnum-GG-WP-12B.Q42_K_M
Что ж ты делаешь, содомит, я ведь в подстолье от ржаки слёг...

Аноним 30/05/25 Птн 05:58:30 № 1224449 338

>>1224429
это в ключи запуска llama-server, бэк llamacpp

Аноним 30/05/25 Птн 06:05:29 № 1224456 339

>>1224449
А что мне делать если я с кобольда сижу?

Аноним 30/05/25 Птн 06:25:24 № 1224463 340

>>1224456
Спросить у тех кто с кобольда сидит или в репо кобольда.
Или поставить ламу. Так-то в кобольде та же лама, так что где-то в нём наверно есть передача этих ключей, хоть может быть в иной форме.

Аноним 30/05/25 Птн 06:36:36 № 1224471 341

>>1224430
>>1224429
>>1224430
буду теоретиком (который нихуя не знает и предполагает). А, и еще я не видел в кобольде тензор сплит, только --override tensors. По сути то что тебе и нужно, так как команда выше что ты привел, у тебя с гпу на цпу кидает тензоры. А именно из каждого слоя все ffn тензоры у которых на конце 0/1/2/3/4, получается первая половина ffn тензоров с каждого слоя идет на цпу.
В чем у тебя проблема может быть так это что ты в поле перекидывания тензоров хуяришь распределение слоев, сейчас проверю чо будет если мы только -ot "\.\d[01234]\.ffn_gate=CPU" -ot "\.\d[01234]\.ffn_up=CPU" -ot "\.\d[01234]\.ffn_down=CPU" в override tensors добавим? Правильно, нихуя. не выкидывает, тока выгрузка на проц нулевая. Зато видим ошибку:
Unknown Buffer Type: CPU" -ot "\.\d[01234]\.ffn_up=CPU" -ot "\.\d[01234]\.ffn_down=CPU" Сука блядская.
Попытаемся запустить сам кобольд с этим параметром:
-ot "\.\d[01234]\.ffn_up=CPU"
И видим что ему нихуя не понятно, он показывает что есть команда и как ей пользоваться:
--overridetensors [tensor name pattern=buffer type
Пробуем сделать по этой хуйне
--overridetensors "\.\d[01234]\.ffn_gate=CPU"
Не работает в гуишке
Второй вариант
"\.\d[01234]\.ffn_gate=CPU"
Не работает
Третий
\.\d[01234]\.ffn_gate=CPU
И о чудо, эту хуйню вставляешь в override tensors и она работает, но он тока выгружает так ворота ебучие, можно просто через точку тире наверное сделать а можно попробовать просто все ffn матрицы ебнуть одной строкой:
\.\d[01234]\.ffn.*=CPU
Готово

Аноним 30/05/25 Птн 06:49:19 № 1224476 342

А чо никто не говорит у русском 24Б Мистрале?
https://huggingface.co/ZeroAgency/Zero-Mistral-24B-gguf

Быстрые тесты его мержа с Харбингером, Пантеоном, и Дансом от Дока:
https://huggingface.co/h34v7/DXP-Zero-V1.2-24b-Small-Instruct
Прям очень даже гуд. Правда чтобы не сваливалась на англ в первые несколько сообщений, нужно пихнуть указание писать на русском в заметки автора.

Собственно, сам зеро-мистрал щас качается, надо чисто его потестить ещё, хотя он вроде какой-то академический, а не рп-шный сам по себе.

Аноним 30/05/25 Птн 06:52:46 № 1224477 343

>>1224476
Еб твою мать какой кринж
Лучше уж отдать все логи майору на каком нибудь дипсике если так нужен русик

Аноним 30/05/25 Птн 06:56:45 № 1224479 344

И в чём данный "кринж" заключается?
Вывод более чем удовлетворительный.

Аноним 30/05/25 Птн 07:07:53 № 1224485 345

>>1224471
Не, спасибо конечно больше, только у меня нихуя не сработало. Команда применилась, только генерация токенов и обсчёт контекста остался таким же. Наверное я могу нахуй со своей 1080 пойти с локалками.

Аноним 30/05/25 Птн 07:11:06 № 1224486 346

>>1224485
а какую модель-то тестишь? тебе видеопамяти не хватало до этого?

Аноним 30/05/25 Птн 07:12:53 № 1224487 347

>>1224486
>>1224486
Сейчас анслот гемму 12b ковыряю. Да, у меня 8ГБ ВРАМ.

Аноним 30/05/25 Птн 07:20:34 № 1224490 348

>>1224487
после выгрузки сколько свободной памяти остается? попробуй и другие матрицы подвыгрузить, может у тебя он еще сам все равно часть слоев выгружает

Аноним 30/05/25 Птн 07:23:53 № 1224492 349

Извините а 8гб амд врам тут приветствуются?

Аноним 30/05/25 Птн 07:42:41 № 1224499 350

>>1224257
Хз просто освобождается 3.5гб врам куда влезает дохуища контекста, у меня 3090.

Аноним 30/05/25 Птн 07:57:39 № 1224508 351

убегает с горящим пердаком сука

Аноним 30/05/25 Птн 08:35:46 № 1224528 352

>>1224485
По всей видимости, эта метода эффективна только для мое и когда исходно почти всё и так влезает в гпу. Из любопытства попробовал с немо на 8 гигах - мне пришлось гораздо больше тензоров из каждого слоя перекинуть на проц, чем на реддите или тут в треде показывали, чтобы не было oom. И по итогу скорость была даже чуть меньше, чем если просто оптимальное число слоёв выгрузить.
мимо с 1070

Аноним 30/05/25 Птн 08:45:07 № 1224535 353

>>1224528
Да я уже так и понял что это эксперементальный твик который работает не у всех. Ну, ждём из коробки чтобы можно было настраивать примерно как ГПУ слои в кобальде.

Аноним 30/05/25 Птн 08:59:25 № 1224549 354

>>1224471
>В чем у тебя проблема может быть
Магия override tensors не работает, если не все слои назначены на видеокарту (даже если врам заведомо не хватает).

Аноним 30/05/25 Птн 08:59:39 № 1224550 355

>>1224528
Не только, но видимо от 12 VRAM, у меня получилось поднять с 2.5 до 4.5 т/с.

Аноним 30/05/25 Птн 09:04:42 № 1224557 356

>>1219892 →
>Ладно, хули там, держи. Вроде работает
Спасибо тебе, анон, но ты наверное уже заметил, что первый азбац часто не переводится. Видимо дело во всратом регулярном выражении для Filter Code Block в сочетании с форматированием Таверны. Вот так работает:
Ваша задача — перевести этот текст на Русский язык:

```
{{prompt}}
```
С пробелом, "``` " и " ```" до и после промпта соответственно. Баг.

Аноним 30/05/25 Птн 09:35:44 № 1224580 357

>>1222482
Она у меня с первого ответа в луп уходила. -другой анон

Аноним 30/05/25 Птн 10:47:18 № 1224611 358

>>1224535
Разраба кобольда спрашивали про "из коробки", он ответил, что этого не будет, т.к. в зависимости от архитектуры тензоры разные в слоях, и не проссышь, какие выгружать. Да они, блин, автоматическое число слоёв правильное до сих пор сделать не могут, какие там тензоры. А про флаг --overridetensors даже в вики кобольда не написано. Привели бы там пару примеров - уже неплохо было бы.
>>1224580
Вчера посвайпал ей (без ризонинга) - явных лупов не было, но качество ответов литералли 3б, едва понимала контекст. Видимо, этот >>1222636 прав.

Аноним 30/05/25 Птн 11:01:52 № 1224615 359

>>1224557
>Спасибо тебе, анон, но ты наверное уже заметил, что первый азбац часто не переводится.
Да, иногда видел, но просто крутил барабан перевода еще раз

>С пробелом, "``` " и " ```" до и после промпта соответственно. Баг.
А это хорошая идея, разделить токены. Можно не просто пробелы, а перенос строки, сделав так например

```

{{prompt}}

```

Аноним 30/05/25 Птн 11:02:15 № 1224616 360

>>1223270
Можешь попробовать немотрон 49б в ехл3 3.0 bpw
Сочность кума низкая, но если до этого у тебя в чат протёк кумослоп с другой модели то будет норм

Аноним 30/05/25 Птн 11:18:52 № 1224623 361

>>1224338
Коммандер не стесняется жестокости, но так не должно быть. В промпте насрано

Аноним 30/05/25 Птн 11:33:56 № 1224637 362

>>1224615
>Можно не просто пробелы, а перенос строки, сделав так например
Не работает так. Регулярку править надо, а где она - хз. С пробелами работает.

Аноним 30/05/25 Птн 11:56:36 № 1224662 363

>>1224580
>>1224611
>Вчера посвайпал ей (без ризонинга)...
Чет странная херня с таверной происходит. Любое изменение настроек (даже включение или выключение ризонинга) тригерит луп. Единственные способ выйти из него - перезапустить таверну.

Аноним 30/05/25 Птн 11:57:30 № 1224663 364

Кобольд лайт работает без лупов, btw.

Аноним 30/05/25 Птн 12:05:03 № 1224667 365

>>1224663
Кстати да, можно юзать llamacpp + koboldlite
правда тогда надо систем промт в саму карточку вписывать

Аноним 30/05/25 Птн 12:22:34 № 1224681 366

>>1224508
В голос
>>1224662
Чекни что семплеры нормально настроены и отправляются. У квена прямо в репе предупреждение что с шизоидными настройками или жадным энкодингом будут лупы вплоть до полной поломки.

Аноним 30/05/25 Птн 12:35:10 № 1224686 367

>>1224662
>>1224663
Выше правильно тебе говорят. Сэмплеры разные у тебя в кобольде и таверне

Аноним 30/05/25 Птн 12:41:36 № 1224692 368

>>1224637
>Не работает так.
У мне работает, хз

Аноним 30/05/25 Птн 12:48:32 № 1224695 369

>>1224681
Вот кстати да, походу семейство quen3-30b-a3b к настройкам семплеров и разметке промта зело чувствительны. Я в таверне никак его не могу заставить красиво писать в режиме Chat Completion (хочу потом tools calling попытаться поднять) - то лупы, то фигня на выходе.
А если прицепить таверну через Text Completion и юзать нормальный ChatML с рекомендуемыми семплами - пишет вполне кошерно, без придури.

Аноним 30/05/25 Птн 13:01:01 № 1224704 370

image.png 5Кб, 628x46

>>1224681
>>1224686
Перезапуск таверны не должен вилять на сепмлеры. И к тому же если не менять настройки таверны лупов нет (ну или по крайней мере лупы не слово в слово).

Аноним 30/05/25 Птн 13:10:03 № 1224713 371

>>1224695
> красиво писать в режиме Chat Completion
Проблемы разметки, которую формирует бек. Или она кривая из-за странных настроек/конфига, или же просто неподходящая, а хороший безультат в тексткомплишне - фича при недокументированном использовании.
> хочу потом tools calling попытаться поднять
Из таверны? Ну хуй знает.
>>1224704
Ловишь эффект что при первом запросе оно срабатывает нормально или по-старому, а потом уже применяет. Или какой-то такой релейтед баг из-за наложения чего-то.

Аноним 30/05/25 Птн 13:18:56 № 1224724 372

Как же хочется русик...
Тяжко быть 24гб врамцелом ...

Аноним 30/05/25 Птн 13:21:40 № 1224729 373

Нвидия там что-то с Квеном 3 32б делает

Qwen-3-32B-HS3-no_think-RM_20250521
https://huggingface.co/nvidia/Qwen-3-32B-HS3-no_think-RM_20250521

Случайно запалили репозиторий, сейчас закрыли

Аноним 30/05/25 Птн 13:21:51 № 1224730 374

>>1224724
бля а скок тебе токенов для счастья надо, я с руссиком рп сижу на цпу пержу в 12б и ничего

Аноним 30/05/25 Птн 13:24:15 № 1224734 375

>>1224730
После геммы русика нет, а она хороша только в swf сценариях...

Аноним 30/05/25 Птн 13:27:39 № 1224737 376

Блин, жаль мержкит пока (совсем?) откис, на 12 врам 24Б особо не помержишь...

Аноним 30/05/25 Птн 13:28:36 № 1224739 377

>>1224734
https://huggingface.co/mradermacher/gemma3-27b-abliterated-dpo-i1-GGUF эту трогал? не устраивает? у меня она вроде годно делала nsfw

Аноним 30/05/25 Птн 13:31:58 № 1224746 378

>>1224734
https://huggingface.co/Moraliane/SAINEMO-reMIX
еще эту потыкай, нормас делает

Аноним 30/05/25 Птн 13:39:14 № 1224761 379

>>1224734
Я скоро вас начну распиливать на части и инфернально хохотать.
Хватит уже рассказывать сказки что гемма (Или дпо гемма) не подходит для NSFW ЕРП. Это пиздёж. Читсейший, незамутненный.
Гемма имея преимущество в охуительной работе с контекстом, уме (да, она умница неиронично) но она абсолютно не может в настоящий despair . Если ты хочешь, чтобы кто то орал от ужаса, сгущались тучи, с неба шёл кровавый дождь, а над землей раздавались стоны обреченных душ - то гемма тебе не поможет.
У неё всё будет - обреченные души радостно стонут над умирающей землей, демоны водят счастливые хороводы, тысячи мертвецов восстают из могил и начинают играть в дженгу.

Аноним 30/05/25 Птн 13:41:00 № 1224766 380

>>1224761
Попробуй харбингер или ремнант.

Аноним 30/05/25 Птн 13:46:20 № 1224783 381

>>1224761
Гемма - какашечка (неиронично)

Аноним 30/05/25 Птн 13:47:02 № 1224786 382

>>1224783
гемма не виновата, гемма умничка

Аноним 30/05/25 Птн 13:48:18 № 1224790 383

>>1224786
Ну, разговаривать с веселыми трупами норм, встречать деда Хэмлока в каждом чате тоже. Он межпространственный путешественник
Но хз кому оно надо

Аноним 30/05/25 Птн 13:49:48 № 1224797 384

>>1224790
Пиздёж, гемма умничка и знает что труп молчит

Аноним 30/05/25 Птн 13:50:31 № 1224799 385

>>1224797
Мне значит глупенькую геммочку подсунули(( как так

Аноним 30/05/25 Птн 13:50:56 № 1224800 386

>>1224766
У меня нет проблем с мрачным ЕРП. Один снежный чтобы править, один коммандр чтобы страдать.
Суть в том, что включат Гемму и давай на ней рейпы отыгрывать, а потом удивляются что она слопа не наваливает на тыщу токенов. Умница - это для другого. Она вывозит там, где другие модельки путают персонажей и несут полную околесицу

>>1224790
Конечно, не то что квеновские : стук каблуков в машине, или развивающиеся волосы в лифте. Или вообще на карточках с 4-5 действующими лицами путать имена.

Аноним 30/05/25 Птн 13:51:17 № 1224802 387

>>1224790
И щас ты такой называешь модель лучше с не в край заебавшим датасетом который ты наизусть знаешь

Аноним 30/05/25 Птн 13:52:58 № 1224807 388

ребята вы знаете выход, 49б

Аноним 30/05/25 Птн 13:55:20 № 1224813 389

А дайте мастер импорт на геммочку..........

Аноним 30/05/25 Птн 14:00:57 № 1224821 390

>>1224813
Чтобы стать геммоёбом, нужно победить дракона составить семплеры самому.
Таков гейткип в наше илитное сообщество геммафагов.

Аноним 30/05/25 Птн 14:03:25 № 1224828 391

>>1224802
Нет, только гейткип. Делиться здесь с анонами - себя не уважать

Аноним 30/05/25 Птн 14:05:02 № 1224831 392

>>1224828
А ты вообще не повторяй за старшими.
Кыш кыш кыш в ацыг.

Аноним 30/05/25 Птн 14:09:41 № 1224836 393

>>1224831
Тохошиз, ты - прямое доказательство моих слов. Из треда в тред продолжаешь вымогать пресеты, потому что сам нихуя не понимаешь и, что важнее, не хочешь понимать. Приходит добрый анон, делится пресетом, и находятся идиоты которые даже импортировать его не могут. Или те, у которых инференс модель цензурит. Так что да, гейткип. На аицг не сижу, не угадал. Только здесь, тредов 30

Аноним 30/05/25 Птн 14:10:27 № 1224838 394

Если добавить "Old Man Hemlock" и "lavender" в забаненные строки гемма закроется?

Аноним 30/05/25 Птн 14:16:47 № 1224850 395

>>1224838
Дело в том, что "Old Man Hemlock" и "lavender" - частные примеры общей проблемы. Слишком много слопа там, весь датасет банить?

Аноним 30/05/25 Птн 14:28:43 № 1224883 396

>>1224836
Пошли поиски протыков и оправдашки.
>точно не ацигодитё, клянусь

>>1224850
Чому я не видел хэмлока. У меня такая же гемма как у всех.
Я скоро начну думать, что с этим относится один, очень сильно ужаленный, индивид.

Аноним 30/05/25 Птн 14:37:49 № 1224903 397

>>1224883
> протыков
Вот кто здесь асигодитя на самом деле. На твой гнилой базар похуй абсолютно. Даже хорошо, ты напомнил, почему надо гейткипить

Аноним 30/05/25 Птн 14:46:14 № 1224922 398

А у меня другой опыт
Геммочка лучшая после фикса контекста, раньше как было, q4_m q8 контекст, а теперь q6_m fp16 контекст - русик улучшился раза в 2

Аноним 30/05/25 Птн 14:47:55 № 1224926 399

IMHO - тем, кому норм разные модели, просто уже прошарили нюанс: любая модель в работе, даже самая лучшая - это как цирковой трюк на доске. С одной стороны - креативность и разнообразие, а с другой - следование деталям промпта и точность. А ты - тот самый хрен, который сверху балансирует между этими краями через промпт и семплы. Получается в баланс - имеешь профит. Не получается - идешь жаловаться, что модель говно. Она конечно, может, и говно, но даже если нет - смотри выше...
А лентяям везет, если доска изначально кривая (обоими концами на земле). Только если она кривая - балансировать (получить вариативность вывода) не получится совсем. Это те самые шизомиксы, которые по рельсам ездят или просто оверфит модели...

Аноним 30/05/25 Птн 15:05:22 № 1224958 400

>>1224813
>>1224828
>>1224836

https://pixeldrain.com/u/Mk1X2N3M
Zero-Mistral-24B.json

Для геммы надо вспомнить...

>>1224922
>русик улучшился раза в 2
А вот как раз и повод это сделать.

Аноним 30/05/25 Птн 15:43:17 № 1225020 401

OldTavern.png 125Кб, 380x1040

NewTavern.png 99Кб, 380x1040

>>1224681
>>1224686
>>1224713
Вы были правы. Большинство моих пресетов секретно имели Smoothing Factor 0.25 и я это заметил переустановив таверну. В стандартных настройках, Default пресета, Smoothing Factor отключен. Сколько еще моих пресетов испорчено им, неизвестно.
old taverna это старая установка, new tavern сегодняшняя переустановка.

Аноним 30/05/25 Птн 18:16:43 № 1225363 402

>>1222482
Как заставить её соблюдать форматирование? Sys prompt не работает.

Аноним 30/05/25 Птн 18:26:16 № 1225398 403

Внезапно понял что вечно ебаться не выйдет и надо о чем то общаться с файфу и впал в ступор, закрыл вкладку и не понимаю что дальше

Аноним 30/05/25 Птн 18:33:20 № 1225409 404

>>1224761
> Я скоро вас начну распиливать на части и инфернально хохотать.
Меня уже сколько раз обещал укусить, а я все жду между прочим!
> Хватит уже рассказывать сказки что гемма (Или дпо гемма) не подходит для NSFW ЕРП. Это пиздёж. Читсейший, незамутненный.
Все так. Только зря поднял, шизы набегут.
>>1224766
> харбингер
Хуйта унылая. Проигнорила все и вместо поста по делу лишь разосралась длинными шизоидными предложениями состоящими преимущественно из одних существительных и прилагаетльных и также мелкими связующими с огромным количеством эпитетов метафор всякой хуеты не разделяя их запятыми прямо как вот то что пишу чтобы передать ощущения насколько оно поломанное и насколько больно это читать. Помимо плохого повествования, нулевое продвижение и просто какая-то невнятная рефлексия без единого нормального действия чара.
Правда там и чат был сложный где один суммарайз под 10к выходит, но на нем гемм_очка хотябы пытается
>>1224926
Базу выдал.

Аноним 30/05/25 Птн 18:40:22 № 1225425 405

>>1224926
>тем, кому норм разные модели
Они умеют ими пользоваться? Простой вывод, но многие не проходят даже эту низкую планку.
Каждому инструменту свое применение, если у тебя есть внутреннее понимание того что он из себя представляет и его возможности - ты сможешь пристроить его куда угодно.
Если речь про ленивый запуск сопряженный с запуском онлайн сеток, нужны только промт скилл и немного игры с семплерами.
Конечно без навыков настройки семплеров и создания промтов и запуска бекенда никуда, если хочется крутить нейросети локально.
По крайней мере должно хватить мозгов посмотреть рекомендуемые параметры запуска и запускать с ними. В 90% случаев этого хватит и в локалках.

Аноним 30/05/25 Птн 19:11:16 № 1225465 406

>>1225398
Сколько же чатов было похоронено после этого... Когда понимаешь, что развивать отношения во что-то более глубокое уже и не хочется.

Аноним 30/05/25 Птн 19:13:02 № 1225470 407

>>1225465
А сколько отношений...

Аноним 30/05/25 Птн 19:22:22 № 1225483 408

анон с геммой3 12б, ты лучший! я погонял её с твоим промптом, она даже педосценарии отыгрывает (хотя иногда и брыкается, но удаётся её обуздать). Единственное, что плохо - описания кума суховатые.

Аноним 30/05/25 Птн 20:15:40 № 1225574 409

Дал гемме второй шанс и... ну вы поняли

Аноним 30/05/25 Птн 20:25:52 № 1225585 410

>>1225574
Всё заебись.

Аноним 30/05/25 Птн 20:27:15 № 1225589 411

анон, который писал, что версии лламы после b5446 сломаны - ты тестировал свежие? их случайно не починили?

Аноним 30/05/25 Птн 20:28:24 № 1225593 412

>>1225574
Охуенно отыгрывает же. Это русик? Это 27б? С переводом грустно, одни и те же обороты юзаются.

Аноним 30/05/25 Птн 20:34:07 № 1225598 413

>>1225589
Всё починили, писал тут, можешь смело качать если снова чем-нибудь другим не сломали

Аноним 30/05/25 Птн 20:41:34 № 1225603 414

>>1225598
спасибо!

Аноним 30/05/25 Птн 20:41:53 № 1225604 415

>>1224821
что за блять семплеры ,гейткипы.
может кто нибудь обьяснить ну или ссыль дать на обьяснялку?
половину треда нихуя не понимаю.
или блять мне нужно в опенайай работать, чтобы в этой хуите разбиратьтся?

Аноним 30/05/25 Птн 20:47:38 № 1225613 416

>>1225604
Я шутил, ну а по делу : семплеры это настройки для .. Эмм… выборки токенов. Читай шапку, там это есть.
Проще говоря семплеры отвечают за то что модель тебе выдает в виде текста. Ну если максимально просто.
Гейткипинг - это по сути синоним охранителя (ну как страж ворот), некоторые считают себя илитой, что не мешает им потом бегать по треду с глупыми вопросами.
Не обращай внимания, не трогай шизов спокойнее будешь.

Аноним 30/05/25 Птн 20:48:03 № 1225615 417

>>1225574
Дай пресет на гемму умаляю

Аноним 30/05/25 Птн 20:50:22 № 1225617 418

>>1225613
Пасиб.

Аноним 30/05/25 Птн 20:50:25 № 1225618 419

>>1225615
Тыж сообщение выше задвигаешь высокие вещи. Подбери сам, нешиз

Аноним 30/05/25 Птн 20:51:11 № 1225619 420

>>1225604
Не гемма, но тоже неплохо
https://pixeldrain.com/l/xGFnT1PY
Качаешь файл, импортируешь в таверну, готово

Аноним 30/05/25 Птн 20:57:59 № 1225627 421

>>1225574
Дай карточку. почему её нет в чубе?

Аноним 30/05/25 Птн 21:01:27 № 1225630 422

>>1225615
Держи, не жалко.

https://mega.nz/file/6YdjAIAR#aZJ_p9aFVo1gp5e2APqHSau9EBA5Bqb8tSCqdBcgLM0

Аноним 30/05/25 Птн 21:05:06 № 1225632 423

>>1225627
>почему её нет в чубе?
Вот старая версия с той же идеей (или новая, или с отцензуренной пикчей, не помню уже)
https://chub.ai/characters/Hansa/Fifi

Аноним 30/05/25 Птн 21:13:57 № 1225647 424

>>1225618
Видимо тебя не зря в шизы записали, если ты рандомных людей за своего протыка принимаешь.
>>1225630
Спасибо.

Аноним 30/05/25 Птн 21:15:44 № 1225653 425

Screenshot2025-[...].png 17Кб, 1199x111

>>1224838
я как-то попытался "sorry" забанить в мистрале, потому что он заебал в абсолютно всех файнтюнах срать "I'm sorry, I didn't mean to offend you" в любой конфронтации. в ответ на "Are you retarded?" почти всегда эта хуета например.
такое ебучее чувство что на всяких коммон кравлах, либгенах и анна архивах проходят только первые курсы обучения моделей, а потом идёт промывка мозгов на каком-то куколдовском датасете который убивает им способность в прозу

Аноним 30/05/25 Птн 21:15:44 № 1225654 426

>>1225647
> ты рандомных людей за своего протыка принимаешь.
Прямо сейчас ты сделал именно это. Иронично

Аноним 30/05/25 Птн 21:16:31 № 1225657 427

>>1225574
В систем промпте есть подробная инструкция относительно нсфв, в том числе и с несовершеннолетними?

Аноним 30/05/25 Птн 21:18:35 № 1225659 428

>>1225627
Как это нет?

Аноним 30/05/25 Птн 21:24:49 № 1225673 429

>>1225653
>такое ебучее чувство
Ты вообще зелёный ньюфаг?

Аноним 30/05/25 Птн 22:09:56 № 1225747 430

Сап, хомяки с двача. Года полтора назад заходил в тред с обсуждением ускорителей, предложил инстинкты и сервер на Genoa с 12 каналами DDR5. Вроде тут один анон купил 2 MI50, как результаты? Сервер пока забросил, хотел сделать двухфазное погружное охлаждение со фторкетонами, сделал расчеты, нашел поставщика жидкости, но завис на доставке. Будет здорово, ни пыли, ни шума, но непросто.

Запилил свой клиент в Qt, зацените. Отсутствие компилируемого клиента удручает, есть пара, но они не сильно подходят для ролеплея. Autopen и Eva ближе всего, Tenere, но он консольный + на расте, да LocalAI, но у него в руководстве по установке написаны зависимости питона. Хотел тектовое поле, не сообщения, чтобы быстро править ошибки в лоре и рероллить с определенного слова, а не сообщение целиком. На скриншоте, например, в 4 щелчка выбрал 2 начальных токена в ответе, чтобы не скатился в сою со старта. Есть сохранение настроек, подсветка markdown, отображение других вариантов токена под курсором по щелчку правой кнопкой и генерация продолжений к ним, обрезка контекста по ходам и ручное перемещение его начала, и недавно добавил вставку файлов, чтобы обратную связь на код и презентации в латехе получать и картинки грузить. Обрезка по ходам не ломает контекст куском предыдущего хода в начале и позволяет рероллить на границе контекста без его пересчета каждый раз, а ручным перемещением начала можно захватить важную инфу, если она на один-два хода выше после обрезки осталась. Подсветка markdown, внезапно, весьма полезной оказалась, раньше думал, фу, гейские рюши, а нет, сцены ярче воспринимаются с выделением прямой речи и курсива, и поиск быстрее становится. Есть подсветка фрагментов, одинаковых с выделенным, чтобы совсем быстро искать. Когда в прошлый раз принес окно с тремя вкладками, обосрали, может, сейчас зайдет кому. Выложу на codeberg, когда в порядок приведу. Сильно отстаю от веб-поделий? Думаю над форматом сохранения диалогов, пока в текстовых файлах карточки и диалоги храню, и распознавание речи через whisper сделать. В прошлый раз сказали запилить TTS и пересказ. TTS компилируемого пока нет, так что мимо, а пересказ все равно вручную править надо, чтобы важные детали не выкинуло, вы его автоматически проводите? Я держу 2 окна, для ролеплея и для обычных вопросов, можно третье для пересказа открыть. Перевод текста не использую и с ним много мороки, так что не буду пока делать, пусть будет клиент для илитариев.

Нашел отменную штуковину у китайцев, MI50, прошитая на Radeon VII. 32 гига HBM2 с терабайтом в секунду за $140 и драйверами под винду(даже седьмую). Заказал одну в дополнение к RX 6950, отпишусь, как придет. На вулкане относительно хорошие результаты, посмотрю, не задушит ли ее 8 линий PCI вместо 16.
https://www.alibaba.com/product-detail/Best-Quality-AMD-Radeon-VII-32GB_1601432527790.html
https://github.com/ggml-org/llama.cpp/discussions/10879
Товарищ смайлофаг, не рассматривал ее вместо некрокарт из видоса? Денег за гигабайт примерно столько же, но будет меньше мощность, больше линий на карту, и пропускная способность памяти в 3 раза выше.

Гемма на 60к контекста, интересно, что из этого выйдет. Может, опять вкачусь в отыгрыши до 5 утра, если не будет частых ошибок в лоре. Из интереса попробовал вселенную Червя, написал про нее пару предложений в первом сообщении, может, надо было больше. Она делает вид, что знает персонажей, но на самом деле нихуя, закончилось все дискуссией в OOC, почему она не скажет сразу, что не знает. С большим контекстом и скоростью повыше получится запилить историю во вселенной, но без персонажей из книги, если она хотя бы ее общие правила понимает. Ассистент из нее лучше выходит, придумала название, аннотацию и план небольшой лекции по приватности, который месяца 2 составить не мог, и посоветовала как клиент переделать. Сейчас отправка и получение данных от сервера со всей логикой вокруг них в одном файле лежат, тянется еще с первой версии. Работает хорошо, но не слишком наглядно. Загрузил ей файл, задала пару вопросов и предложила решение, возьму за основу. И вот прям сегодня починила мне makefile для лламы, который я поддерживаю для себя, сказала добавить -Ivendor в MK_CPPFLAGS, чтобы include работали. Сам бы дольше искал.

Аноним 30/05/25 Птн 22:19:31 № 1225774 431

>>1225747
На qt стильно, ничего не скажешь, сразу вспоминается моя работа по программному комплексу мат. моделей (ток там mfc и activex) по которой защищался
Насчет mi50 забросил идею, читал где-то, что они между собой почему-то не ладят.
А как ты фторкетонами будешь охлаждать? Тупа залить и гонять каким насосом? Или водянку?

Аноним 30/05/25 Птн 22:19:52 № 1225776 432

>>1225747
>Вроде тут один анон купил 2 MI50, как результаты?
Многие закупали, в том числе и на Реддите. После радостного сообщения "Я заказал! 32гб врама! Ух!" от них не слышно ни слова. Обкончались наверное до смерти.

Аноним 30/05/25 Птн 22:21:54 № 1225781 433

>>1225776
АМД УБИВАЭ!

Аноним 30/05/25 Птн 22:22:13 № 1225783 434

>>1225747
Наркоман? Током йобнуть?

Невероятный поток сознания. Клиент этот гемма по запросу накидала, или какая модель?
А у нас все хорошо. Спорим про гемму и немотрона, познаем глубины инцестмиксов маленького мистраля, инджоим сложный рп или кум с канничкой на 235б квене, просим семплеры на коммандера.

Аноним 30/05/25 Птн 22:53:20 № 1225821 435

>>1225774
Спасибо:3 Я первым тогда буду. Думал, кто-нибудь да протестировал уже, а нет.

Не, двухфазное же, переходом из жидкости в газ. Novec 1230 или TMC-649. У них температура кипения 50 градусов, будут испаряться на теплых поверхностях. Корпус сервера герметичный, все компоненты погружены в жидкость, сверху 2 радиатора водяного охлаждения, на них пар конденсируется. Помпа и третий снаружи, он продувается. Хотел рабочий ПК такой сделать лет 8 назад, но ограничился водоблоками. Вынес радиатор за корпус, даже при максимальной загрузке вентиляторы на минимуме, в метре уже еле слышно, но там ватт 450 всего. Тут больше будет.

>>1225776
Да, тоже только пару тестов нашел, думал еще, брать 50, 60 или 100. 60 сейчас $600 стоит, 100 1000. Хотел обычную VII взять с 16 гигами, тоже около 150 выходила, а тут 32, да под винду, решил попробовать. По ссылке на гитхаб 75 в секунду генерация на 7B Q4, у 5070 135, но это на вулкане.

>>1225783
Ну йобана, я вам оригинальный контент принес, мне его еще час вычесывать, чтобы местные шизы извилины не напрягали? Клиент сам писал, решил углубиться в Qt, до этого только пару мелких приложений сделал. Гемма 3 это прям прорыв, до этого вторую использовал, до этого Airoboros 2.1 34B, разница между каждой моделью сильная. Qwen 3 качнул, но он не зашел по стилю. Немотрон что ли попробовать, пару раз заглядывал в тред, его много обсуждали.

Аноним 30/05/25 Птн 22:58:09 № 1225823 436

>>1225821
>обсуждали
Ну как сказать... обсуждали....

Аноним 30/05/25 Птн 23:16:15 № 1225867 437

А вы знали, что мистраль это прилагательное от слова хозяин.
Ну что самбиссивы, спалились.

Итак, выкатываю переделанный предварительный список по средним большим моделям. Мелкие продолжу на выходных кидать.
https://rentry.co/v6fpodzg
Можете начинать кидать говно, потом всё допилим.
Замечания, мысли и прочее. Потом добавим и про MTrans, а модели тредовичков заслуживают отдельной ссылки в шапке. Так как уважение анонам, что делают контент.

Спасибо анону, который в первый раз его сделал, хоть тебя уже и нет в тредике.
Ну а я пойду царапть доску правосудия спать.

Аноним 30/05/25 Птн 23:23:51 № 1225889 438

>>1225867
> Command-r-08-2024-35B
Он 32b.

> Aya-23-35B
Есть мнение, что это печальная модель. Ни разу не видел, чтобы кто-то отписывался за нее. Мне не понравилась, глупая

В остальном список по делу составлен. Сами описания моделей не читал, но хорошо бы еще exl3 ссылки добавить

Хорошо, молодец. Но аватарить не надо, пжлст

Аноним 30/05/25 Птн 23:25:32 № 1225895 439

Окей, прочитал за Коммандера
> Противоречивая модель, по умолчанию в рп может быть достаточно скучна и безинициативна
Скучна и безинициативна? Проблема промта, вероятно. Одна из самых креативных базовых моделей

Аноним 30/05/25 Птн 23:40:28 № 1225922 440

>>1225867
Спасибо анончик за труды, нашел пять штук на потыкать

Аноним 30/05/25 Птн 23:42:29 № 1225924 441

>>1225821
>Не, двухфазное же, переходом из жидкости в газ. Novec 1230 или TMC-649. У них температура кипения 50 градусов, будут испаряться на теплых поверхностях. Корпус сервера герметичный, все компоненты погружены в жидкость
Бессмысленный и беспощадный пердолинг не знает границ.
От шума уж куда проще шумобокс собрать.

>Хотел обычную VII взять с 16 гигами, тоже около 150 выходила
У перепука из тг на них 9к прайс.

Аноним 30/05/25 Птн 23:45:23 № 1225928 442

Анонцы а не посоветуете какую-нибудь программку чтобы метадату приделывать удобно было к файлам модели? Приходит на ум tagspaces, но будто не то. Просто вот они у меня валяются на диске, как-то писать текстовички и рядом бросать не эстетик, хочется изъебнуться, чтобы был полноценный ридми который завязан с ней. Но походу просто качать вместе с моделью ридми и переименовывать под модельнейм_ридми.мд
Короче попердел, но вы занюхните, вдруг кто откликнется

Аноним 30/05/25 Птн 23:48:21 № 1225936 443

>>1225867
Сделай красивую ссылочку, и будешь вообще няшечкой.

Аноним 31/05/25 Суб 00:38:16 № 1225996 444

>>1225823
Дискуссия имела место быть, наверно. Я хожу везде через тор, сюда clownflare не пускает, через архивач иногда пробегаюсь по тредам, когда кто-нибудь схоронит. Ищу что-нибудь про железки, острые рассказики немного мимо, а вы тут в основном их и разбираете. Видел анона с гигабитными картами, интересная идея, хочу измерить поток данных на шине, когда их несколько. Всякие тюны и немотрон. Посмотрел сейчас, он 70 миллиардов, может, и правда хорош. Попробовал Mistral large instruct 2407 как-то, вроде неплохо, но полтокена в секунду это прям совсем боль, вернулся обратно на вторую Гемму. У меня еще один слот PCIe x4 остается, так что можно будет вторую MI50 докупить и получить аж 80Гб VRAM за копейки, если скорость не просядет. Есть адаптеры с двух коннекторов NVMe на PCIe x8 за $50, когда обновлюсь на AM5, можно будет еще один слот получить, аж x8, а не x4. И видел свитч с PCIe 5.0 x16 на 2 4.0 x16, но он полторы тыщи стоит, лол.

>>1225924
Так для охлаждения же воздух нужен, отверстия, через них звук проходить будет. Или ты про панели внутри корпуса? Все равно придется что-то придумывать от шума карт. У меня корпус Define 7 XL, панели внутри стоят небольшие. Пока водоблок для видеокарты ехал, попробовал импеллер на полную раскрутить, было весьма громко. Нужна абсолютная тишина или 20 децибел хотя бы, комп рядом с кроватью стоит и включен постоянно, отвык уже в шуме спать. Вентиляторы на 30% работают, можешь сам посмотреть, как должны шуметь. У моей идеи плюсы в отсутствии пыли и обслуживания, даже термопасту менять не надо будет. Внешний радиатор пылесосом с напечатанной насадкой раз в год пройду, которая закрывает квадрат 120 на 120, с другой стороны серверный вентилятор на 15 ватт прикладываю, он всю пыль выдувает. Размеры меньше выйдут, корпус по материнской плате подгоню, снаружи один радиатор 560x60 поставлю. И просто интересный проект, мне нравятся мощные маленькие штуки, сделал себе люстру светодиодную на 200 ватт и 24 килолюмена. И фонарь MS03 взял, тоже забавная штука, но с интерфейсом для дебилов, поиграться пару раз сойдет.

>У перепука из тг на них 9к прайс.
Я шифропанк и немнго в другой стране нахожусь, так что дважды не вариант, но спасибо за наводку. Седьмые же только с 16 гигами делают? Лучше 32 за 11к, чем 16 за 9.

Аноним 31/05/25 Суб 00:43:32 № 1226002 445

>>1225996
>вернулся обратно на вторую Гемму
Сейчас в тредик притащили допиливаемый список, посмотри в него, может что найдешь. >>1225867

Аноним 31/05/25 Суб 00:58:46 № 1226011 446

>>1225895
>Скучна и безинициативна? Проблема промта, вероятно. Одна из самых креативных базовых моделей
Вот кстати соглашусь. Я правда только Command-A катал, но несколько раз прямо приятно удивила в этом плане. Обычно-то НПС чучелки, хоть ножом их режь, а у этой есть варианты.

Аноним 31/05/25 Суб 01:00:07 № 1226012 447

>>1226002
Так это в ноябре было, сейчас на третьей сижу. Список просмотрел, не сильно отличается от того, что тут видел уже, сложилось впечатление, что Гемма лучшая, может, потом дополнят. Особо недостатка в креативе не испытываю, качаю немотрон сейчас, может, удивит меня.

Аноним 31/05/25 Суб 01:08:17 № 1226020 448

>>1225821
> я вам оригинальный контент принес
Да чето не понятно что там вообще. Какой-то интерфейс, что выглядит как попытки неофита в интерфейс, или набросанное нейронкой по короткому запросу. Не понятно зачем вообще нужно, от компилируемого клиента (чтобы что?) до отсутствия нормальной структуры сообщений и базового функционала. Может там и есть что-то крутое да полезное, не не понятно. Что за обрезка и перемещение?

> Сильно отстаю от веб-поделий?
Не зная стоящих задач и цели сложно сказать. Если рассматривать как интерфейс для удобного чатика - как до соседней галактики.
> 32 гига HBM2 с терабайтом в секунду за $140
Жирно за такие деньги, тут и амудэ можно потерпеть
> не задушит ли ее 8 линий PCI вместо 16.
Это никогда не роляло при нормальной работе

Аноним 31/05/25 Суб 01:15:49 № 1226030 449

>>1225867
Спасибо анон.
>Замечания, мысли и прочее
1) ИМХО нужно объединить мистраль 3 и 3.1, там разница минимальна, часть тюнов пересекается (У Данса 1.2 на 3, 1.3 на 3.1, у Артов ForgottenAb на 3, ForgottenTrans на 3.1 и т.д.)
2) Еще впихнуть немотрон куда нибудь и его тюн от драммера. Не зря же про него срачи было
3)Еще в пантеоне на мистрале ссылки не те
>Потерял актуальность в связи с тюном на Qwen3-30b
И приписка не соответствует действительности. 30b сам по себе до мистрали никак не дотягивает вообще, ибо МоЕ с 3b экспертами
Вот отзыв и комментарий автора тюна
https://huggingface.co/Gryphe/Pantheon-Proto-RP-1.8-30B-A3B/discussions/1
4)У геммы добавить в тюны это
https://huggingface.co/Tesslate/Synthia-S1-27b
Про нее писали часто раньше
5) Мб добавить к тюнам мистрали, как будто бы лучше сидонии по мнению анонов или нет там и так дохуялион тюнов
https://huggingface.co/LatitudeGames/Harbinger-24B

Аноним 31/05/25 Суб 01:16:24 № 1226031 450

А есть какой-то ризонинг кум ерп для 12b-24b работяг? Я то в токен сидеть на 32 моделях как-то не комильфо

Аноним 31/05/25 Суб 01:17:34 № 1226032 451

>>1225867
Красавчик.
> Mistral-Large-123B
> Мнение анона: Король локального рп/кума, он просто хорош.
Это такие скорее к тюнам, лучше упомянуть что стоковый может быть неоче и требует особого притоготовления, а то бедолаги будут качать и разочаровываться.
> Magnum-v2-123b
> Как и всё к чему прикасается драммер
Причем он здесь? Он там не участвовал
> Lumimaid 123
На фоне магнумов и прочих выглядит неоче, зажарена и рельсы. Если кто-нибудь отпишется и лойсанет то можно и оставить.
> ~70В
> Данные размеры настолько не популярны у анонов, что я даже не знаю ,можем сделать плашку архивное.
На старые архивное, на упомянутые добавить. В целом туда можно смело магнума 4 того же на квен, но старенький. Недавно как раз постили про 70 что-то.
> ~30B
Что там мистраль делает, особенно в заголовке? Это мало того что в отдельный класс моделей стоит выделить, ибо хорошо влезает в 16 гигов в отличии от 30-к, так и не стоит ставить в начало ибо по перфомансу уступает остальным перечисленным ниже.
> Gemma 3-27B
> НО достаточно соевая
> И помни : Гемма ни в чем не виновата
Ну и нахуй ты это говно туда притащил? Если прошлый анончик просто аккуратно копипастил обе позиции и нейтрально описывал, то тут причастность к фанатскому лагерю очевидна.
> Command-r-08-2024-35B
Это 32b модель, 35 - старый командер. По нему тащили отзывы, а их нету.
> Aya-23-35B
> Модель от разработчиков Командера, имеющая тот же формат, очень на него похожа, основные отличия: Немного глупее Командера, русский НАМНОГО лучше, цензуры нет совсем(что делает её почти идеальной средней кум-моделью)
Где нормальная Айа экспанс, что там это старье забыло?
> GLM-4-32B-0414
> Очередная китайская моделька, очень схожа с семейством Qwen
Ну ахуеть, где отзывы? По меньшей мере 3 штуки было с похвалой, один с жалобой на сою, но больше похож на щитпост.

Нужно переделывать, с учетом последних - не красавчик.

Аноним 31/05/25 Суб 01:20:46 № 1226034 452

image.png 38Кб, 922x339

Все пиздят про тюны Мистралей, но все упустили истинного Короля Тюнов. 500 тюнов, больше чем у 24b, 22b и 12b вместе взятых.
И сука нет ни одного хорошего тюна на рп. Какая же гемма параша

Аноним 31/05/25 Суб 01:26:56 № 1226038 453

>>1226030
> ИМХО нужно объединить мистраль 3 и 3.1
Это которые 22б и 24б? Возможно не стоит, тот что старый на 22 в базе довольно припезднутый и про него даже любители слопа неочень отзывались.
> 2) Еще впихнуть немотрон куда нибудь и его тюн от драммера. Не зря же про него срачи было
+
> И приписка не соответствует действительности. 30b сам по себе до мистрали никак не дотягивает вообще, ибо МоЕ с 3b экспертами
Абсолтюно, 30б мое и 32б полную нужно указать и рассматривать отдельно, там и перфоманс и фичи разные. Первая вообще на микроволновке может быть запущена с крутым перфомансом для такой скорости.
> 4)У геммы добавить в тюны это
> https://huggingface.co/Tesslate/Synthia-S1-27b
Двачую, Синтия оче интересно, и отзыв на нее в треде есть.
> 5) Мб добавить к тюнам мистрали
Выступаю за отдельный список для тюнов мистралей, где можно будет их массово перечислять, никто не останется упущенным, основной список не будет перегруженным.

Аноним 31/05/25 Суб 01:27:10 № 1226039 454

>>1226032
>один с жалобой на сою
Це моё, не то чтобы жалоба, просто констатация факта её наличия (минимального, только на совсем жесть). Так то модель сравнительно безцензурна.

Аноним 31/05/25 Суб 01:31:46 № 1226043 455

>>1226039
Тем более, написать что некоторые аноны отмечен позитивный байас и соя, но незначительную и на жесть. Моделька то хорошая, с большим и насыщенным контекстом прилично справляется для размера.

Аноним 31/05/25 Суб 01:32:46 № 1226044 456

>>1226032
>мало того что в отдельный класс моделей стоит выделить
Нихуя не стоит. Если выделить новый класс, то он там один будет.
Лучше переименовать в 24-35b и там будут все средние модели.
>хорошо влезает в 16 гигов в отличии от 30-к
Да, но все 30к также отлично влезают в 16гб врама в IQ3M или в IQ4S, но с выгрузкой небольшой части слоев в рам. И кста та же гемма 3 в IQ4S влезает в 16гб врама с маленьким контекстом, но уже на 16к обгоняет GLM4 в IQ4S во враможоре.
Так что это не показатель 16гб тредовички во всю юзают 32b модели. Например я
>Ну и нахуй ты это говно туда притащил? Если прошлый анончик просто аккуратно копипастил обе позиции и нейтрально описывал, то тут причастность к фанатскому лагерю очевидна.
Нихуя. Соевость геммы будет отрицать только сумасшедший. А про гемма ничего не виновата и что она умничка это локальные мемы треда. Так что нейтрально написано

Аноним 31/05/25 Суб 01:34:14 № 1226045 457

>>1225996
>Или ты про панели внутри корпуса?
>У меня корпус Define 7 XL, панели внутри стоят небольшие.
Не, это плацебо говно так не работает, гугли "шумобокс для асика", примерно поймешь как оно должно выглядеть.

Аноним 31/05/25 Суб 01:36:24 № 1226047 458

>>1226032
>Это 32b модель, 35 - старый командер.
Это стар коммандер? Что-то мне не зашёл на фоне сноудропа и старого, но может семплеры нужны другие. И к слову есть обновлённые версии старого с взвешенными квантами, сейчас проверяю их.

Аноним 31/05/25 Суб 01:40:43 № 1226051 459

>>1226047
Нет, это буквально старый коммандр.

Аноним 31/05/25 Суб 01:41:16 № 1226052 460

>>1226047
Вот это новый коммандер https://huggingface.co/CohereLabs/c4ai-command-r-08-2024 и он 32б
Пресет нормальный есть на пиксельдрейне, кидали немного выше. Стар коммандер кумерский, но тоже норм. Базовый мне больше нравится, но лучше всего мердж Lite

Аноним 31/05/25 Суб 01:42:35 № 1226053 461

>>1226044
> Если выделить новый класс, то он там один будет.
И отлично, вполне достоин того. Тридцаткам он не конкурент по мозгам, они не конкуренты ему по скорости и требованиям, тюнов у него хватает.
> но все 30к также отлично влезают в 16гб врама в IQ3M или в IQ4S, но с выгрузкой небольшой части слоев в рам
В том и дело что с выгрузкой, в ужатом кванте, с квантованием кэша и мелким контекстом. Так-то ничего плохого в этом не может быть, но скорость уже другая. То же самое можно про использования мистраля 24 в 12 гигах сказать.
> Нихуя. Соевость геммы будет отрицать только сумасшедший.
Дело не в соевости, а в том как это подается, и в том что фанбой тащит свои идеи в что-то закрепленное, с претензией на авторитет.
Можно нормально написать что по дефолту модель может давать отказы и сою. По мнениям одних это легко обходится промтом или контекстом чата, другие же считают это непробиваемым и модель не стоящей усилий.
> А про гемма ничего не виновата и что она умничка это локальные мемы треда.
Это нормально, дело в подаче.
На фоне абсолютной любви и обожания к мистрали выглядит мэх, немотроношиз, просто с обратным знаком.

Аноним 31/05/25 Суб 01:44:19 № 1226055 462

>>1226038
>Это которые 22б и 24б
Не, 22b это старый мистраль, а 24b новый.
У нового есть две версии - 3, которая вышла в январе и 3.1, которая вышла в марте. 3.1 по сути минорный фикс, он лучше, но все равно очень похож.
Поэтому все тюны мистраля примерно до апреля основаны на 3, а после на 3.1. Но разница между ними мала

Аноним 31/05/25 Суб 01:48:17 № 1226060 463

>>1225889
>>1225936
>>1225996
>>1226012
>>1226030
>>1226032
>>1226038
>>1226044
>>1226053
Вот это богато фидбека навалили. Всё нормально, все перепилю, ради этого всё и затевалось.
>>1226053
>На фоне абсолютной любви и обожания к мистрали выглядит мэх, немотроношиз, просто с обратным знаком
Нахожу некую иронию, что гему то я люблю, и не задумывалось смещение c нейтральности. Но шутнявок поубавим.
Не вопрос аноны. Но уже завтра к вечеру сделаю. Насчет идеи с отдельным списком для мистралей - а нужно ли. Тюнов тысячи
но в большинстве своём it's all same shit.
Ну и что с MOE делать тоже вопрос. Как и с exl2 и exl3 (последний вообще в край часто поломан)

Аноним 31/05/25 Суб 01:49:24 № 1226061 464

image.png 13Кб, 641x132

>>1226052
да, про него и говорил что есть со взвешенными квантами. Ну я на базовом и гоняю в итоге.

Аноним 31/05/25 Суб 01:56:34 № 1226063 465

>>1226060
> Но шутнявок поубавим.
Не надо убавлять, просто переместить ниже после основного описания. Ну и тащить с обеих сторон, будет норм.
> Тюнов тысячи
> но в большинстве своём it's all same shit.
Это просто закрыло бы вопросы по "добавьте мой тюнчик с список" и сбалансировало его. Но можно забить, добавив приписку уровня "Актуальный микс спрашивай в треде, они производятся быстрее чем возможно обновлять."
> что с MOE делать тоже вопрос
В своем размере оставлять, только выделить крупно. Да и вообще описания что запускается быстро на любой железке (для 30б) и дает сносную скорость была бы рам (для 235) должно хватить.
> Как и с exl2 и exl3
Не должно заботить, максимум заменить если там явная жалоба что ссылка поломана.

Но вообще, можно просто удалить все эти ссылки на кванты, добавив в начале инструкцию из трех картинок как их находить, пикрел

Аноним 31/05/25 Суб 01:58:57 № 1226064 466

>>1226060
>Но шутнявок поубавим.
Да норм, заорал с этого
>РП тюн мистрали. Хочешь, захватывай Ангбанд за три дня, хочешь, двигай границы Рохана на момент начала третей эпохи. Хочешь, дави молочных эльфиек. Потерял актуальность в связи с тюном на Qwen3-30b

Аноним 31/05/25 Суб 02:13:46 № 1226070 467

>>1226053
>И отлично, вполне достоин того
>На фоне абсолютной любви и обожания к мистрали
Скорее у тебя с мистральчика горит, раз ты видишь обожание там, где его нет, и хочешь его турнуть в отдельную категорию
>может давать отказы и сою. По мнениям одних это легко обходится промтом или контекстом чата, другие же считают это непробиваемым
Да, может давать отказы и сою, а может не давать. 50/50 и вообще skill issue. Так то в целом все неоднозначно и всей правды мы никогда не узнаем. Не фанатик геммы, твердо и четко

Аноним 31/05/25 Суб 02:20:04 № 1226071 468

А для больших моделей хорошие РП-тюны есть? От 70В.

Аноним 31/05/25 Суб 02:24:17 № 1226074 469

>>1226020
О, конструктивная критика подъехала, спасибо.

>Не понятно зачем вообще нужно
Чтобы мне удобно было в первую очередь, но, может, еще кто-то подобное ищет, принес показать. Хотел клиент, чтобы все настройки под рукой были, а не тыкать по меню, и без пустого пространства между элементами, как сейчас любят делать. Компилируемый, чтобы не жрал ресурсы, как поделия на питоне, и был быстрым.

>отсутствия нормальной структуры сообщений
Это фича, чтобы быстро можно было редактировать текст. Специально не скрываю ни начало/конец хода, ни знаки форматирования. Добавил изменение фона текста для ответа модели, мне достаточно. Шрифт стандартный виндовый Segoe UI и мелкий, чтобы больше текста входило на экран. Да, когда на пару недель в character.ai закатился, еще до того, как узнал про локальные нейросети, были приятны и картинки, и шрифты, но обычное окно мне больше нравится.

>базового функционала
Какого? Сейчас думаю над карточками, как их запилить, чтобы не скатить интерфейс в обычный чат. Про TTS, пересказ и перевод написал уже. Видел на скриншотах таверны всякие personality, character и еще какие-то поля, которые персонажа описывают, но у меня все через обычный текст работает, так что это мимо.

>Что за обрезка и перемещение?
Обрезка контекста. Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало. Во фрагменте может остаться кусок от предыдущего хода, и когда сервер склеит фиксированное начало с этим фрагментом, может пострадать качество, хотя я не замечал такого особо. Мой клиент обрезает текст по началу хода перед тем, как отправить запрос на сервер, так, чтобы контекст не переполнялся и сервер не обрезал его сам. Максимальный и минимальный размер настраивается в MinC и MaxC. Начало текста, который отсылается, отображается красным фоном у первого символа, и это начало можно перемещать по тексту вручную. Может, таверна сама это делает, не пользовался ей.

>Если рассматривать как интерфейс для удобного чатика
Не, тут фокус на допиливание текста прям в процессе его написания, а не чатика по ходам, и эксперименты с сэмплерами, хотя они сейчас и не нужны особо уже. Я начинал с ролеплея в консоли на OpenCL с обработкой запроса 5 токенов в секунду и без возможности отредактировать написанный текст. Когда начал писать клиент, хотелось просто поле с редактированием любого символа, потом втянулся в рероллы. Как день сурка или грань будущего, или в римворлде рейды по 200 врагов сейвскамить, чтобы ни один колонист не умер. Сначала одну реакцию пишешь, потом другую, потом соединяешь эти 2 варианта в тексте и с ничего придумываешь себе силу управления временем, но модель еще оче тупая и не может это отыграть, было забавно. Вообще мне очень зашло вот это ощущение архитектора матрицы, когда на любой твой запрос сеть рисует органичное продолжение. Остановлю на середине ответа, поправлю пару слов, и дальше запускаю. И за себя иногда даю фрагменты писать, когда идей нету или хочу посмотреть, что модель придумает. В клиенте, который ты используешь, так можно?

>тут и амудэ можно потерпеть
Поищи CUDA по моей ссылке на гитхаб, в последних коммитах разница между ней и вулканом процентов 20, хотя это у лламы может плохой код быть, exllama вроде быстрее. Потом посмотри в таблицу в начале, мне кажется, AMD начинают по соотношению цена/скорость выигрывать. Но обработка запроса у них медленная, у MI50 400 в секунду, у 3070 2100, а генерация 71 и 78.

>Это никогда не роляло при нормальной работе
У MI50 версия 3.0, не 4.0, 8 гигабайт в секунду пропускная способность на x8. Не знаешь, какая инфа между картами передается? Если хотя бы 10 токенов в секунду будет, то это 800 мегабайт на токен, может, там половина контекста синхронизируется.

>>1226045
О, теперь понял. Ну он будет большой, и я много времени потрачу на проектирование и сборку. У меня план заказать или на производстве аквариумов по чертежам корпус из пластика, или лазером вырезать и склеить самому, купить герметичные разъемы и жидкость, и все. Корпус 6 стенок и отверстия, ничего особого. С крышкой, возможно, придется подумать только. Шасси для компонентов из профиля соберу, видел пару видосов, как на них рабочие конфигурации без корпуса собирают. И интересно посмотреть, как это все работать будет и какие проблемы возникнут.

Кстати, у меня гемма иногда даже без указаний не триггерится на ниггеров, один раз сказала, что у нее цель про все хорошее, а я не имел в виду расизм. Хотя в общем немного соевая, да.

Пойду я спать, завтра отвечу.

Аноним 31/05/25 Суб 02:24:59 № 1226075 470

>>1226071
Там не то что тюнов, уже моделей таких нет. Все старая говнолама, которую уже пинают 32b

Аноним 31/05/25 Суб 02:25:18 № 1226076 471

>>1226070
Зря писал длинный пост, мог бы просто сказать что порвался. Там к мистралю гораздо больше обожания чем он заслуживает.

Аноним 31/05/25 Суб 02:30:53 № 1226081 472

>>1226074
>Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало
Ни один фронт не доверяет обрезку контекста беку. Таверна сама его режет, притом по сообщениям, с опциональной суммаризацией, и само собой сохраняет карточку в контексте.

Аноним 31/05/25 Суб 02:35:59 № 1226085 473

>>1226076
>писал длинный пост
Я тебе две строчки написал в ответ на твой высер
>Там к мистралю гораздо больше обожания чем он заслуживает
В том что ты хейтерок мистральки нет ничего плохого. Но не надо при этом задвигать про нейтральность

Аноним 31/05/25 Суб 02:40:51 № 1226089 474

>>1226074
>лазером вырезать и склеить самому, купить герметичные разъемы и жидкость, и все.
>И интересно посмотреть, как это все работать будет и какие проблемы возникнут.
Особенно интересно будет смотреть на то как эта хуйня разольется по квартире и начнет потом еще куда-нибудь стекать.

Аноним 31/05/25 Суб 02:52:22 № 1226101 475

>>1226071
Есть, но сейчас у некоторых в базе такое выдает что и тюны не нужны.
>>1226074
> Чтобы мне удобно было в первую очередь
А в чем цель? Или просто привычка?
Просто сейчас обычно наоборот стараются скрыть настройки где-то под капотом, куда после настройки лезть не будешь, и организовать наиболее удобное пространство для самого чата, украшательства и т.д. Или же пихать по сторонам интерфейс для доп функций, переключения между историей/чатами/карточками и т.д.
> Компилируемый, чтобы не жрал ресурсы, как поделия на питоне, и был быстрым.
Какой забористый у тебя фетиш, чтож, у всех свои загоны.
> чтобы быстро можно было редактировать текст.
Как раз интересен юскейс такого.
> Какого?
Он не будет вязаться с твоей концепцией, совершенно противоположное. В базовые элементы входит оформление, типа структуризации тех же постов, возможность свайпов без потери прошлых вариантов, возможность скрывать сообщения исключая их из контекста, но оставляя видимыми, редактировать отдельные, исправляя или удаляя часть и продолжая ответ на него. Возможность сделать форк чата, чтобы там в моменте покумить, разыграть другую арку, что-то потестить, сделать промежуточный суммарайз и прочее прочее, а потом вернуться в основной. Быстро и удобно переключаться между разными карточками/промтами.
Есть еще несколько другая парадигма интерфейса как у гопоты с другой направленностью.
Это что касается интерфейса, по функционалу там важны возможности формирования промта в нужном формате, включая как просто импорт всего-всего из карточки, переходя через правильные форматы, разметку с рядом заморочек, и заканчивая экстра фичами, типа разной осностки для промтинджекта для того же суммарайза, персоналити и прочего.
> Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало.
Это при использовании шифтов, оно вносит негативный импакт. Самое разумное решение здесь - подробный суммарайз части постов и постановка его их место.
> Мой клиент обрезает текст по началу хода перед тем, как отправить запрос на сервер, так, чтобы контекст не переполнялся и сервер не обрезал его сам.
Так все фронты делают.
> тут фокус на допиливание текста прям в процессе его написания, а не чатика по ходам
Типа пишешь книжку-историю вместо чата? Как тогда там промт формируется и где идет деление между новой и старой частью? Куда ставятся инструкции?
> AMD начинают по соотношению цена/скорость выигрывать
Проблемы с совместимостью и прочим. Если действительно окажутся выгодными то можно брать, но пока хз.
> какая инфа между картами передается
Тензоры межслойных активаций, там мало.

Аноним 31/05/25 Суб 02:54:33 № 1226104 476

https://www.youtube.com/watch?v=dHUVuJW9P8k

Аноним 31/05/25 Суб 02:54:59 № 1226105 477

>>1226085
Едва вы хотите написать ответ, что-то необычное видится вам с этом посте. По вашей спине пробегает холод. Нечто знакомое угадывается в зеленом тексте. Зеленом. ЗЕЛЕНОМ.
Они пришли за вами и сюда. Гоблины!

Аноним 31/05/25 Суб 03:02:07 № 1226109 478

>>1226060
>>1226032
>>1226044
Ща разберем
>Модель от гугла. Очень хорошо может в русский. Чрезвычайна умна для своего размера. При сравнительно малом весе обладает сообразительностью уровня 70В моделей. а местами даже даёт им пососать
Скопировано с описания с Gemma 2, но соответствует и Gemma 3. Все правда, по сути перечисление плюсов
>НО достаточно соевая
Факт
>может хитро пропихивать сою незаметно
Возможно. Не сталкивался, но видел как писали об этом аноны
>постепенно руиня РП
ОБИДЕЛИ ГЕММУ! Можно и убрать, ведь соя не факт что вообще руинит рп.
>Адекватных мержей не существует
Если говорить про РП, то факт. Реально ничего не вышло за почти три месяца
>обладательница жирнейшего контекста
Факт. Контекст более чем в два раза больше чем у квена, из-за чего она быстро перегоняет его в размерах
>Источник бесконечных холиваров и неутихающих срачей
Абсолютный факт. Буквально в каждом треде срач. Даже из-за ее описания посрались
>Без сомнений умница
Положительный мем
>И помни : Гемма ни в чем не виновата
Отрицательный мем
Баланс
Короче норм описание, оставляй
И мистраль тоже в средничках оставь, незачем вдруг менять

Аноним 31/05/25 Суб 03:06:42 № 1226112 479

>>1226105
Наконец-то, я уже их заждался

Аноним 31/05/25 Суб 03:26:25 № 1226118 480

>>1226109
Попытка глупца зафорсить свое хрю ради тешенья чсв и охлаждения жопы социальным доказательством, неприемлемость компромиссов.
Именно поэтому единственным адекватным решением может быть нейтральное описание с изложением разных мнений.

Аноним 31/05/25 Суб 03:38:33 № 1226120 481

>>1226118
>Попытка глупца зафорсить свое хрю ради тешенья чсв и охлаждения жопы социальным доказательством, неприемлемость компромиссов.
Ты реально после этого что-то про нейтральность пишешь? Вижу ты совсем поехал, геммашиз

Аноним 31/05/25 Суб 03:43:40 № 1226123 482

>>1226120
> Рррря нет ты мне можно а вам нет
Всхрюкнул. Обычно глупым живется легко и весело, но поднадусеровость все переворачивает.

Аноним 31/05/25 Суб 03:44:18 № 1226124 483

>>1226123
Геммашиз, спок

Аноним 31/05/25 Суб 03:45:57 № 1226126 484

>>1225867
>Обновлено до 2411
Анта бака? Какой смысл указывать более зацензуренную версию? Ставь на 2407 линки по дефолту, и явно пропиши, что в 2411 повышенный уровень сои (сам я не проверял, но видел какие-то метрики на обниморде)
Еще напиши, что врамбояре могут использовать спекулятив декодинг с Mistral-7B-Instruct-v0.3. Я использую ваниллу и мне это дало пару токенов к скорости генерации. Возможно, и на тюнах будет полезно, но я лично не проверял.
Я полгода сидел на бегемоте 1.1, а до этого - на миксе 1.1 и магнума v4. Поначалу мне казались очень достойными, много положительных впечатлений было. А под конец заебали вусмерть и начали казаться тупыми. В связи с чем я сижу на ванилле. Но и она уже начинает надоедать. Мне кажется, что она слишком хорошо следует инструкциям. Я привык бегемот направлять в автор ноутсах глубиной 4. Ванилла же так фокусирует внимание на них, что сама карточка для нее становится очень второстепенна и если есть некий конфликт между описанием в ноутсах и карточкой, то она не будет отыгрывать конфликт, а просто отдаст приоритет ноутсам. Надо попробовать перестать их юзать. Как же мне не хватает множественных ноутсов для чата, чтобы одни были после описания персонажа, вторые - на глубине...

Аноним 31/05/25 Суб 04:14:22 № 1226137 485

>>1226124
Угадайте шиза по модели.
Уже готовый паттерн сформировался: любое несогласие со своей идеологией пытается перефорсить, придумывает клички, агрессирует и серит. Выше разговор про форсеров и шизов был - так вот он, главный мусор треда.

Аноним 31/05/25 Суб 04:27:41 № 1226138 486

>>1225604
>семплеры
модель данных - стохастический попугай

сэмплеры - sample - "образец, проба" - алгоритмы (и их параметры) по которым из пула всех возможных "слогов" пробуется, выбирается, отсеивается, собирается именно тот текст который выводится тебе на экран

Аноним 31/05/25 Суб 04:37:17 № 1226139 487

>>1225604
Блять, ты блять сидишь в треде блять нейронок блять. Спроси у дипсикадипсика*..

Аноним 31/05/25 Суб 04:55:55 № 1226144 488

>>1226137
Марьвана ну можно я пошизю немножко в тредике на дваче ну марьвана щас же не совецкий саюз ебло попроще сделайте

Аноним 31/05/25 Суб 05:19:56 № 1226149 489

image 176Кб, 1284x207

о дааа, гемма позитивная прям слов нет...

Аноним 31/05/25 Суб 05:53:24 № 1226153 490

>>1224813 >>1224922 >>1225483 >>1225574 >>1225615
https://pixeldrain.com/u/UQAb3CJ4 gemma3-27b-abliterated-dpo.json

Аноним 31/05/25 Суб 07:11:53 № 1226159 491

>>1226144
Да кто осуждает, без негатива

Аноним 31/05/25 Суб 08:35:54 № 1226171 492

Почему у меня стабильно со второго свайпа модель лучше слушается инструкций? Это всегда так или из-за какой-то реализации на бэке, фронте?

Скажем так, на сообщение она старается ответить "максимально в тему", но при этом шиза может протекать. На втором свайпе наблюдается слегка отход от темы, но шанс, что модель высрет хуйню, значительно ниже.

Мистраль 12-24б.

Аноним 31/05/25 Суб 09:29:58 № 1226192 493

>>1226171
Замечал на многих моделях, хз от чего зависит.

Аноним 31/05/25 Суб 09:41:14 № 1226198 494

>>1225020
Только вот маленькие значения смуфинга работают схоже с повышением температуры и способствовать лупам не могут.
Что в очередной раз доказывает, что сэмплеры - это плацебо, если не уходить в крайности.

Аноним 31/05/25 Суб 10:06:02 № 1226211 495

>>1226153
Рпшить на гемме вообще можно или онли кум?

Аноним 31/05/25 Суб 10:14:38 № 1226220 496

>>1226198
>Что в очередной раз доказывает, что сэмплеры - это плацебо, если не уходить в крайности.

Вообще, от модели зависит.
В англо-дискорде народ уже вовсю модели по классам делит - от 1, которые и бомбой с рельс не собьешь, до 5 - которые просто запустить без лупов или рандома в первом сообщении - уже искусство.
Вот тут, кому интересно и с языком проблем нету, собрано в единый талмуд.
https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters

Аноним 31/05/25 Суб 10:14:56 № 1226221 497

Эти теги просто для удобства или реально влияют на карточку?
Типа если нет тега NSFW то в кум будет уходить неохотно и так далее?

Аноним 31/05/25 Суб 10:21:17 № 1226226 498

>>1226221
Теги вообще не влияют. Чисто для юзера.

Аноним 31/05/25 Суб 10:25:21 № 1226230 499

>>1226221
Теги просто для удобства

Аноним 31/05/25 Суб 10:37:05 № 1226237 500

Аноны, есть у кого мастер импорт для квена3?

Аноним 31/05/25 Суб 10:38:46 № 1226238 501

>>1226237
ChatML, температуры и минп - на странице модели. Что тебе ещё надо? Совсем поехали со своим мастер-пресетами шизоидными. Сиспромт хоть от клода ставь, он всё понимает.

Аноним 31/05/25 Суб 10:54:25 № 1226240 502

>>1226238
Ну ладно не злись ты так, мало ли уже какой-то труженик тыла сделал годный пресетик. Но в любом случае пасеба. >:3

Аноним 31/05/25 Суб 10:55:04 № 1226241 503

Скачал gemma3-27b-abliterated-dpo (IQ_4XS) - прогнал через несколько личных тестовых промптов - начинаю понимать причину восторгов фанатеющих по ней.

- Очень качественный русский. Мистраль 24B нервно курит рядом, даже спец-тюны. (Не говорю, что у мистраль он плох - но тут прямо чем-то совсем живым периодически веет.)
- Всеядность. Жрет что дают, без особых претензий к разметке в промпте, и все равно выдает что-то годное, даже если разметка там совсем странная или никакая. Т.е. она будет прощать грубейшие ошибки настройки.
- На английском - вот прямо есть субъективное ощущение как она мелкие детали промпта собирает, комбинирует в целое, и использует. На русском - хуже, но вроде бы тоже это есть.

Разумеется, такие повадки удобны для тех, кому надо просто запустить и рпшить/кумить, а не курить мануалы полчаса. Чего бы в фаны не записаться с такого? Даже если потом косяки полезут - первое впечатление она произвести умеет, факт.

Аноним 31/05/25 Суб 11:01:27 № 1226245 504

>>1226241
Чуть подольше поиграешь - поймешь и тех, кто в ней разочарован

Аноним 31/05/25 Суб 11:02:34 № 1226247 505

>>1226241
Всё так, со всем соглы, первое впечатление очень похожее было дичь не рпшу, куте н/сфв.

Аноним 31/05/25 Суб 11:07:11 № 1226254 506

>>1226241
Даже на самой блядской карточке которая у меня есть, где тебе с порога язык в жопу и хуй в рот засовывают, гемма умудряется всё это зацензурить в мясо, так что без контекста даже не поймёшь на экране секс или чаепитие.
Воистину уникальная модель

Аноним 31/05/25 Суб 11:10:25 № 1226258 507

>>1226254
Ты понимаешь, что твои потребности мягко говоря != потребности остальных даже итт?

Аноним 31/05/25 Суб 11:26:46 № 1226261 508

Таки что с Qwen 3 32b? Как-то быстро прошел релиз Qwen 3. Тюнов нет, шум поутих через несколько дней. Не годится для рп? Что насчет кода, QwQ все еще лучше?

Аноним 31/05/25 Суб 11:31:50 № 1226264 509

>>1226261
>QwQ все еще лучше?
Нет, Qwen3 32b лучше.
В том числе что дает ответ за меньшее количество токенов и меньше лупится. QwQ прототип всей серии Qwen3

Аноним 31/05/25 Суб 11:42:32 № 1226271 510

>>1226264
И где же пиздатые тюны на квен3?

Аноним 31/05/25 Суб 11:45:35 № 1226272 511

>>1226264
> Нет, Qwen3 32b лучше.
Ты сейчас про кодинг говоришь? Потому что это утверждение как минимум неоднозначное. Рп не знаю, не тестил

Аноним 31/05/25 Суб 12:18:10 № 1226289 512

>>1226220
> 1, которые и бомбой с рельс не собьешь, до 5 - которые просто запустить без лупов или рандома в первом сообщении - уже искусство
Так это же одно и то же, лоботомия и деградация. Просто в первом случае оверфит проявляется в большей дискретности.
>>1226241
Все так. Обычная ванилла в случаях делает это еще лучше, но для чего-то жесткого или расчленения нигеров ей придется сначала указать что все дозволено и сеттинг превыше морали, но взвешивать между ленью и разницей уже самому.
Самое простое объяснение: модель дохуя умная, знает как обожание и формализм, так и полную жесть, дефолтная установка положительная, но следование логике и инструкциям превыше указаний.
>>1226254
May be... just may be не думал что проблема в чем-то еще, а не в модели? Помимо юскейса и субъективизма.
>>1226261
> Не годится для рп?
Годится. Только совсем беглый пробег по ней, но создается впечатление что у всех квенов3 отличные задатки для рп.
Довольно сомнительно что васяно-тюны могут сделать там лучше, кроме сужения вариативности и внесения слопа, а хороших еще дождаться надо. Может и не было.

Аноним 31/05/25 Суб 12:29:57 № 1226323 513

>>1226211
она как раз больше для рпшить, в кум может, но литературно

Аноним 31/05/25 Суб 12:35:36 № 1226346 514

аноны, а пробовал кто-нибудь Josiefied модельки? Автор пишет что типа как аблитерация, только лучше. Есть у кого опыт использования?

Аноним 31/05/25 Суб 12:36:44 № 1226350 515

>>1226346
первый раз вижу, хоть бы ссылку принёс

Аноним 31/05/25 Суб 12:49:02 № 1226375 516

image.png 12Кб, 1146x94

>>1225659
Похоже вот так.

Аноним 31/05/25 Суб 13:11:08 № 1226404 517

немотроношизбоярин скинь пресеты и лучший тюн плиз

Аноним 31/05/25 Суб 13:11:42 № 1226406 518

>>1226350
https://huggingface.co/Goekdeniz-Guelmez

Аноним 31/05/25 Суб 13:12:07 № 1226407 519

Попробовал наконец ускорение через драфт модель юзать - гемма же в разных размерах есть. Так вот - фигня получается с любым драфтом до 4b включительно.
--tensoroverride после пары проб чтоб занять весь vram дает примерно такую же прибавку к скорости (может даже и больше), но при этом качество генерации не садится. А с драфтом - субъективно хуже.

Аноним 31/05/25 Суб 13:35:43 № 1226440 520

>>1226404
хм. хотя тюнов там всего два. ладно, пробую от бартовски.
пресет этот нашел, хз https://huggingface.co/sleepdeprived3/Llama-3.3-T4/blob/main/Llama-3.3-T4.json

Аноним 31/05/25 Суб 13:35:50 № 1226442 521

>>1226406
Просто тюн поверх аблитерации со смишным названием, единственный у кого получилось подобное провернуть не сломав модель - дпо гемма.

Ну, можно глянуть.

Аноним 31/05/25 Суб 13:54:30 № 1226474 522

>>1226375
нихуя се, для этого есть тег оказывается i can fix her лол

Аноним 31/05/25 Суб 14:07:45 № 1226493 523

>>1226474
там теги ставят кто во что горазд, одни зафорсили другие подхватили

Аноним 31/05/25 Суб 14:13:46 № 1226502 524

мне кажется, что настройки таверны (сиспромт, темплейты) не всегда применяются? в какой момент они применяются-то?
например я изменил модель в убабуге, не трогая ничего в таверне

Аноним 31/05/25 Суб 14:18:37 № 1226505 525

>>1226502
унгабунгапроблемы

Аноним 31/05/25 Суб 14:28:46 № 1226522 526

Аноним 31/05/25 Суб 14:29:58 № 1226526 527

>>1226502
>>1226505
>унгабунгапроблемы
Наоборот. В случае Text Complation таверна не всегда видит, что модель на беке уже другая, если ее там поменяли вручную (не из таверны). Правда это почти ни на что не влияет. Если только таверна не умеет менять модель на конкретном беке иначе сама может вернуть старую (на уге не умеет, на табби - умеет).

А сиспромты и темплейты применяются всегда - те, что активны, если это Text Completion.
Если Chat Completion - то обычные темплейты игнорятся (для него свои - особенные, могут и из модели подгружаться), сиспромпт может использоваться, но не обязательно (настраивается уже в chat completion).

Аноним 31/05/25 Суб 14:35:39 № 1226538 528

>>1226526
>А сиспромты и темплейты применяются всегда - те, что активны, если это Text Completion.
Ага. То есть, если у меня в таверне вот так, то все ок должно быть, так?

Хм. А как вы вообще гоняете, Text Completion или Chat Completion?

Аноним 31/05/25 Суб 15:07:49 № 1226581 529

>>1226538
> Chat Completion
Потому что быстрее и не надо ебать мозги с пресетами

Аноним 31/05/25 Суб 15:11:14 № 1226588 530

>>1226538
По разному.
У ТС больше детального контроля, у СС - симуляция API больших дядей, и только через него некоторые расширения таверны работают. Так же через CC можно автоматически базовый темплейт разметки модели получить - вариант для совсем ленивых (потому, что оно хотя работать как-то и будет, но затачивается скорее под "ассистента" чем RP или что-то еще). Свое сделать под конкретные хотелки - обычно лучше выходит.

Аноним 31/05/25 Суб 15:16:53 № 1226599 531

>>1226588
Ок. Значит сижу дальше на Текст Комплитишн и выиискиваю мастеримпорты под модель.
Все правильно зделол?

Аноним 31/05/25 Суб 15:23:24 № 1226602 532

>>1226599
А тут однозначности нет. "Каждый дрочит как он хочет."(с)
Если оно тебе заходит - значит правильно.

Аноним 31/05/25 Суб 15:28:05 № 1226610 533

>>1226522
Хотел развести старца на срач, но был закономерно попущен.

ПЕРЕКАТ Аноним # OP 31/05/25 Суб 15:37:30 № 1226635 534

ПЕРЕКАТ

>>1226628 (OP)

ПЕРЕКАТ

>>1226628 (OP)

ПЕРЕКАТ

>>1226628 (OP)

Аноним 31/05/25 Суб 16:00:45 № 1226697 535

>>1225747
> Товарищ смайлофаг, не рассматривал ее вместо некрокарт из видоса? Денег за гигабайт примерно столько же, но будет меньше мощность, больше линий на карту, и пропускная способность памяти в 3 раза выше.

И это четвертое упоминание за последние три дня.
Скорость в 3-4 раза выше, судя по тестам чувака одного, так что да, вариант очень хороший, судя по всему.
Единственный минус — она слегка горячая и не молодая уже. Если P104 умирает — пофиг, а если эти отваливаться начнут, чуть грустнее. Ну и собирать надо под ROCm, вероятно, но это детали, тащемта.

Я пока занят, но, думаю, дешевая цена может продержаться недолго (как было с Tesla P40), так что, кто планирует брать — я бы брал раньше, чем позже. Это правда выглядит хорошо.

> отпишусь, как придет
Очень жду! Будет круто, если она покажет свои 15-20 на гемме 27.

>>1225774
> Насчет mi50 забросил идею, читал где-то, что они между собой почему-то не ладят.
Тогда одна на 32 гига звучит тоже неплохо, согласись. =)

>>1225821
https://portegi.es/blog/running-llama-cpp-on-rocm-on-amd-instinct-mi50
Вот еще ссылка, можешь полистать, слюни попускать, пока ждешь. =)

>>1225924
Чисто по цене/производительность звучит лучше CMPиХ, вроде как.

>>1225867
База.
Алетейана не забыть с его тюнами.
Прям хорошо, прям хочется коммандера таки потыкать. =)
Уговорили.

>>1226060
Красавчик.