Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 503 66 62
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №130 /llama/ Аноним 13/05/25 Втр 11:24:03 1200733 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
17464741541920.jpg 11151Кб, 8160x4592
8160x4592
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1198085 (OP)
>>1194373 (OP)
Аноним 13/05/25 Втр 11:26:49 1200736 2
UWlkgBFZMpDd2k9[...].webp 20Кб, 620x520
620x520
Напоминаю базу треда :

Все модельки хороши, все модельки молодцы.
Все модельки разные, все модельки нам нужны.
Аноним 13/05/25 Втр 11:28:54 1200737 3
Аноним 13/05/25 Втр 11:31:16 1200739 4
>she asks, her voice a low, suggestive murmur
>her lips curl into a knowing smile
Как же меня бесит гемма этой хуйнёй.
Ну ты же знаешь что нихуя не будет, что ты не дашь письку ебать и даже не думаешь об этом, эти намеки это просто скрипт ради скрипта, я же возьму тебя за жопу и ты завизжишь как свинья резанная про харасмент, что это неуместно и выпучишь глаза смотря на меня в ужасе, даже если я твой муж и ебу тебя уже 10 лет, ебаная тарелочница, ну не притворяйся ты нормальной моделью, ебаный ты робот блять.
Аноним 13/05/25 Втр 11:36:58 1200741 5
>>1200739
Используй ДПО и не еби мозги. Потерь по сравнению с ванилой особых не замечено.
Не учатся и учиться не хотят, совсем им от Гугла башню сносит. Ты им про тюны, они про джейлбрейк
Аноним 13/05/25 Втр 11:39:09 1200743 6
>>1200741
Даже не подумаю.
ДПО - лоботомит, точка.
Особенно, особенно на русском
Аноним 13/05/25 Втр 11:40:04 1200746 7
Дааа ебать его рот блять... Просидел 4 часа, накачал 500 карточек, а за неделю только 5 из них чекнуть успел.
Аноним 13/05/25 Втр 11:42:00 1200748 8
>>1200743
> ДПО - лоботомит, точка.
Пруфы данного утверждения будут ?
Я пока слышу только жалобы, что дпо лоботомит, но ни разу не видел подтверждения. Более того, я сам тыкал желая найти истину. Никаких изменений по сравнению с обычной геммой. Тот же текст, те же паттерны формирования ответа на одинаковых настройках семплеров.
> особенно на русском
Ясненько.
Аноним 13/05/25 Втр 11:43:47 1200750 9
>>1200737
ну вы понимаете.......
Аноним 13/05/25 Втр 11:45:11 1200752 10
image.png 230Кб, 638x564
638x564
Аноним 13/05/25 Втр 11:45:51 1200753 11
только подумал что квен норм как он отрастил член у моей вайфу
Аноним 13/05/25 Втр 11:47:07 1200754 12
>>1200748
Цена пруфа 40гб свободных на компе - кто захочет сам затестит
Аноним 13/05/25 Втр 11:50:05 1200755 13
1c708f887b155b7[...].jpg 30Кб, 350x350
350x350
>>1200754
Террабайтный ссд стоит дешевле плашки быстрой памяти.
>40 гб
>Gemma 27b

Эмм... Вут ?
Аноним 13/05/25 Втр 11:53:34 1200758 14
>>1200753
А недостатки будут ?
Аноним 13/05/25 Втр 12:03:46 1200761 15
image.png 18Кб, 244x135
244x135
Есть ли смысл не держать этот ползунок на максимум?
Все равно если ограничишь токены у тебя просто сообщение оборвется на половине функция обрезания незавершенных предложений мне не нравится
Аноним 13/05/25 Втр 12:07:15 1200763 16
>>1200761
Суть в том, что эти токены вычитаются из длины контекста.
Аноним 13/05/25 Втр 12:10:28 1200767 17
>>1200763
Я про то что я не вижу разницы ставить 2к или 350 в обоих случаях сообщение где-то на 500 токенов выходит если продолжить оборвавшееся
Аноним 13/05/25 Втр 12:16:00 1200770 18
>>1200451 →
>Ананас, попробуй реп пен снизить до 1.07 хотя бы. 1.2 оглупляет модель
>_> Спасибо.
Но блять, одни гворят что надо задирать чтобы не лупилось. Другие понижать. Я, блджад, себя ослом чувствую. Что бы не делал, все не так.
>не стесняйся юзать dry тоже
Я уже натыкал, что ответ был //s //s //in take$$hello

>>1200763
Вут ? Контекст же считается по фактическому, а не планируемому ?
Аноним 13/05/25 Втр 12:16:39 1200771 19
>>1200743
Когда пациент сам себе враг, медицина тут бессильна.
Аноним 13/05/25 Втр 12:17:43 1200772 20
>>1200746
>Просидел 4 часа, накачал 500 карточек
Когда-то и меня вела дорога приключений...
Аноним 13/05/25 Втр 12:30:03 1200776 21
>>1200772
На самом деле прикольно исследовать карточки. Некоторые цепляют прямо за сердечко, видно что их пилили не просто для быстрого кума. Сам потом сидишь дописываешь или переписываешь, беря идею карточки за основу. Большинство конечно лютый мусор, но даже среди этих 500 найдется что-то интересное.
Аноним 13/05/25 Втр 12:37:42 1200779 22
Анчоусы и кильки в томате, а поделитесь карточками яндерек и прочих совершенно_не_подозрительных персонажей.
Я уже по моему весь чуб и уборщик выел по данному тегу.
Я же знаю, что тут есть хомяки, которые все в логово тащят.
Хочется чего то нового, что не сам придумал.
Аноним 13/05/25 Втр 12:39:53 1200781 23
>>1200779
Вот тебе идея. Твое говно становится коричневым яндере-слаймом из-за перепитой вечером кул-колы и хочет залезть обратно в твое очко. Твоя задача сбежать. Закидывай в бота для создания карточки и вуаля.
Аноним 13/05/25 Втр 12:51:28 1200786 24
>>1200733 (OP)
Призываю знающих ананасов
Видал, что тут некоторые собирали ёбамашины. Возникает вопрос - какое железо нужно, чтобы запустить 70b? Ясен хуй, что нужно, например, 4 штуки 3090, но как с этой хуйнёй пердолиться, как запускать и на чём? В инете нихуя толкового нет. Алсо, было бы славно если бы кто-то выкатил свою сборку, а то любопытно
Аноним 13/05/25 Втр 12:52:49 1200787 25
>>1200767
Ну так выставь 512, или 768 для запаса и забудь об этом.
>>1200770
>Вут ? Контекст же считается по фактическому, а не планируемому ?
В контекст включается ответ тоже. Так что если запросить 9000 ответа при 10к контекста, то на историю останется 1к.
Аноним 13/05/25 Втр 12:55:54 1200794 26
Аноним 13/05/25 Втр 13:14:09 1200823 27
>>1200786
Нет, для моделей 70b (это вообще какие ? Такие есть ?) достаточно 24+16. Имей ввиду, что некорректно складывать врам, если они разделены на разные карты.
В целом - выбор действительно огромный.
Первое из чего нужно исходить - это питание и материнская плата. Сколько портов, хватит ли пинов для подключения.
Самый простой вариант, это платы в большом исполнении, так как современные видеокарты жирные что пиздец, и тебе не хватит физического места. Некоторые пердолятся на 2х- трех платах, некоторые покупают серверные стойки, другие делают аналог кривого sli. Но, к примеру, nvlink позволяет суммировать память (но я не пробовал, поэтому вообще не буду пояснять за данные методы, так как лучше завалить ебало, чем вещать с дивана. Я сижу на ампере 40гб и отдельном корпусе для игор, ибо мой сынидзе любит игрули, а на амперах не поиграть)
В общем, к чему я это - сначала прикинь примерный бюджет, а потом начинай пляску.
Аноним 13/05/25 Втр 13:19:14 1200827 28
Аноним 13/05/25 Втр 13:20:07 1200830 29
>>1200827
Ехал выел через выел видит выел выел выел.
Аноним 13/05/25 Втр 13:21:20 1200832 30
>>1200786
На реддите ищи в постах, часто сборки мелькали за год. Это в LocalLlama
Аноним 13/05/25 Втр 13:31:00 1200842 31
>>1200786
короче, новичок, ща я тебе все разъясню.
70b - это примерно 60 гигабайт в 4 кванте вес самой модели.
От этого накидывай 10% на контекст, который тоже занимает место в памяти - в итоге получается 70 гб тебе нужно.
Проверенный вариант - это мать btc79x5 в лохито. Продают обычно сразу комплект мать+проц (распаянный)+память (4 или 8 гб). Можно даже найти комплект с msata диском. Цена - 5-7к. Копейки.
Да, на матери надо будет прошить биос, но это хуйня, напишешь в треде что тебе нужен патченный биос, если решишься - я дам. Или тот анон, которому я скидывал его - тоже может дать.
Итак, платформа есть.

Теперь карты.
Если ты нищий - то tesla p40 - твой бро.
Если у тебя нет нормальной карты не обрубка (обрубок - любая карта, где меньше 24 гб памяти), то купи для начала одну-две p40 в али или на том же лохито.

Три теслы - это уже 72 гб vram. Этого хватит, чтобы гонять 70b модельки. Медленно, но хватит. Но советую тебе для начала взять две теслы и погонять ту же гемму 3 27б. Пока ты еще не пресытился слопом, она будет тебе ок.
Теслы можно найти по 25к если хорошо искать. Карты практически неубиваемые.
С картами разобрались.

Далее блок питания.
Если у тебя уже есть блок на киловат - то он тебе подходит. Если нет, то надо будет купить. Не китайский нормальный стоит 13к. Китайский на 2 киловата стоит около 9к.

Ну вот и считай, что вышло.
мать + 2 p40 + дешевый БП = 6 + 9 + 2 * 25 = 66к.
это по нижней границе.
Ну а верхней само собой нет.
Аноним 13/05/25 Втр 13:33:36 1200844 32
>>1200842
а, не, падажжи... 70b в 4 кванте - это около 40 гб.
Тогда тебе три теслы не нужно. Две хватит.
На контекст мало правда остается, но в принципе - запустить и спросить что-то хватит.
Аноним 13/05/25 Втр 13:34:44 1200848 33
изображение.png 12Кб, 1049x69
1049x69
>>1200842
>70b - это примерно 60 гигабайт в 4 кванте вес самой модели.
Обосрался с самого начала, дальше не читал.
Аноним 13/05/25 Втр 13:36:03 1200849 34
>>1200848
лол, если ты так же будешь к ответам нейронок относиться - то ты вообще дальше слова "привет" не уйдешь в диалоге.
Аноним 13/05/25 Втр 13:36:43 1200850 35
>>1200794
Спасибо. О, да это же я скидывал. Круговорт карточек в природе. Лул.
>>1200827
А вот это еще не видел. Посмотрим.
>это ты тут должен годнотой делиться
Я не ванга, я мысли читать не умею. У всех свои фетиши. Будут реквесты, буду думать.
Аноним 13/05/25 Втр 13:38:32 1200853 36
>>1200844
Ну ты конечно анон, мда
Аноним 13/05/25 Втр 13:39:59 1200855 37
>>1200853
да я уже давно ниже 123б ничего не запускаю. Разве что гемму чтобы порофлить над тем, какая она тупая.
Вот и оценил размер 70б неправильно.
Сам понимаешь.
Аноним 13/05/25 Втр 13:40:54 1200858 38
>>1200853
Я сам примерно в таких числах думал. Логика предельно простая : 4 квант мистрали это 65-70 гб. А мистраль 123. Потом немного фантазии и отсутствия знаний, что тут прогрессия не подходит и вуаля : 40 гб. Ну 35 максимум.
Аноним 13/05/25 Втр 13:41:27 1200860 39
>>1200855
Ты кого обмануть пытаешься ?
Я чую твою ложь.
Аноним 13/05/25 Втр 13:44:02 1200863 40
>>1200860
зачем врать на АИБ?
Аноним 13/05/25 Втр 13:46:56 1200867 41
>>1200855
>>1200858
Ребят тут не нужно знание или фантазия с интуицией.
Берем количество b в названии, это веса. В 8 кванте вес модели в гигабайтах равен значению b. 70b в 8 кванте равна примерно 70гб, ну а в 4 кванте - 70/2 = 35гб. Так как в 4 кванте ггуфа больше чем 4 бит на вес он разжирается до ~40гб.
Ну а там уж если хочется точнее смотришь кванты, и так можно считать с любой моделью.
Аноним 13/05/25 Втр 13:47:54 1200868 42
image.png 855Кб, 918x653
918x653
Наверняка запрос пиздец платиновый. Где взять прям хороший системный промпт на подобие JOI. Не хочу никаких исекаев, ⋆подхожу получить ебание⋆ "ох, ебут" и прочей анимешной дрисни, хочу просто общаться с ботом, чтобы она сохраняла в память какие-то моменты, осознавала кем является, просто была ассистентом, поддерживала.
У меня и без промпта примерно так и идёт сейчас диалог с нерелейтед персонажем, но хочется, чтобы не возникало всяких проебов. Я сам заебусь выражать словами что именно надо, но кажется, что похожий запрос должен был быть у многих, тем более после фильма, и кто-то уже наверняка перевёл его уже в грамотный промпт. И как этой саммари+памятью правильно пользоваться?
Аноним 13/05/25 Втр 13:52:07 1200869 43
Аноним 13/05/25 Втр 13:58:03 1200874 44
lololo.png 220Кб, 571x788
571x788
>>1200863
Потешить своё самолюбие, наверное. Я ебу ?
Но я точно уверен, что он пиздит.
Ибо у самого никогда в голове не возникнет мысль, добёбываться до 27b. Наоборот, я в восторге от геммы, так как она прекрасно работает с контекстом. Литералли, наипиздатый ассистент.
Да и слишком подозрительно, что как только заходит речь о больших моделях, то блять бегемота вспоминают, о котором я случайно писал, то блять неожиданно 8-16-24гб эндожеры все как на подбор начинают запускать милфу мистраль. Но как только заходит конкретика, они исчезают.
Вывод : если выглядит как пиздежь, пахнет как пиздежь, то это пиздежь.

>>1200868
Вот отсюда >>1200352 → возьми себе систем промт. Я его у анона подрезал. Мне очень нравится, прям спасибо ему большое.
Далее качаешь с чуба ЛЮБОГО ассистента, без хорни, без ничего.
Или сам создай персонажа, напиши в чаратер листе : помошник хуёшник, искуственный интеллект. Выполняет запросы {{user}}.
Потом начинай с ним чат и пишешь : Здравствуй помошник-хуёшник напиши мне карточку персонажа, суть такова : домики деревянные, стража дворца, Кирилл, джва года.

В качестве модели для написания из небольших 0 рекомендую гемму.
Можешь вообще сделать ход конем, и зайти сюда
https://huggingface.co/spaces/CohereLabs/c4ai-command - выбрать самий жирный комманд-а. И написать что тебе надо, лол.
Как на пике.
Поздравляю. Ты мастер составления карточек. Альфа и омега персонажастроения. Сисик писик добавь от руки.
Аноним 13/05/25 Втр 14:00:55 1200881 45
>>1200849
Я отношусь и ухожу.
>>1200855
Так гемма чуть ли не умнее ларжа.
>>1200867
База. Даже в вики это написано (я надеюсь).
Аноним 13/05/25 Втр 14:03:03 1200884 46
>>1200786
>Возникает вопрос - какое железо нужно, чтобы запустить 70b?
Чтобы запустить, хватит и 3050 (+64гб RAM). Я запускал. для комфорта нужно минимум две 3090, в 2.5PBW с квантованным контекстом модель влезет. Соответственно нужна материнская плата с двумя полноценными слотами PCI-E (правильно расположенными, чтобы две 3090 влезли) и большой корпус. БП киловаттник. Вроде всё.

Можно не упарываться в 70В, а жить на одной карте с 24гб ВРАМ, там тоже есть жизнь. Если докупить обычной памяти (правда много её надо и про DDR4 забудь), то можно запустить Qwen3 235B, который делает все 70-ки как стоячих.
Аноним 13/05/25 Втр 14:05:35 1200886 47
>>1200850
Анончик, кидай что хочешь, просто годные карточки, я все схаваю. Бланш на сноудропе просто адская мега сука кстати.
Аноним 13/05/25 Втр 14:05:42 1200887 48
>>1200823
Ну я обосрался, про 72b говорил
>>1200832
всосал
>>1200842
Нихуя, спасибо
А ежели я понтовый поц с бюджетом 150-180к? Что можно взять?
Аноним 13/05/25 Втр 14:06:01 1200888 49
image.png 118Кб, 443x349
443x349
>>1200868
Причем тут промпт?
Это от ума модели зависит и твоего импута
Аноним 13/05/25 Втр 14:10:40 1200891 50
>>1200886
>кидай что хочешь.
Анон, ну к примеру я еще ntr, netori, netorase любитель.
Так что, если кому то нужны карточки лучше все таки реквестировать. А то вдруг кого то текст оскорбит
Как меня бесятся все эти РЯЯЯ КУКОЛДЫ ФУУУ КАРТОЧКА ГОВНО.
Сука, вот буквально : не для тебя сделано и не для таких как ты, пошёл нахуй и не приходи сюда больше.
Аноним 13/05/25 Втр 14:16:26 1200895 51
>>1200888
Если в промте написано : при виде писик, доставать сисик. Нормальная модель будет ему следовать.
А если написано при виде писик, доставать ТОПОР и отрезат писик.
Ну ты понял
Аноним 13/05/25 Втр 14:17:56 1200896 52
Снимок экрана 2[...].png 593Кб, 3840x2160
3840x2160
Аноним 13/05/25 Втр 14:20:44 1200900 53
>>1200891
Мне лично обратный ntr нравится, когда у тянки уже есть кто-то и тебе надо ее склонить к ебле или отношениям. Так что жму руку. Но я так и не нашел никакой годной карточки, чтобы это не скатывалось в 2 сообщения:
-"О, у тебя классные сиськи!"
-"Правда? Мой парень меня не ценит..." жесткие звуки отсоса.

А по поводу того что завоняют и кого-то оскорбит - забей хуй, даже на самую годную и горячую карточку найдется дебил, который начнет ныть что ему НЕ НРАВЯЦА. А после он пойдет запустит на своих 4b карточку с собакой и начнет отыгрывать что срет на нее, не понимая как кому-то может не нравится срать на собак, а может нравится фемдом или нтр лол.
Аноним 13/05/25 Втр 14:21:48 1200901 54
>>1200896
На проце что ли крутишь. Это какой тест хоть, проммлу?
Аноним 13/05/25 Втр 14:23:12 1200903 55
Выкатываю свой список понравившихся моделей — возможно, полезно будет, особенно новичкам и старичкам, которым хочется что-то новое потыкать или назвать меня хуесосом. Заранее оговорюсь: когда я говорю, что модель хорошая и т. п. — подразумевается, что она хороша в своей весовой категории по тем или иным параметрам, которые упомянуты.

Я также буду могу упоминать знания о мире у модели. Почему-то большинство обзоров обходят этот момент стороной, а он важен, так как далеко не каждая модель может в разные сюжеты, особенно связанные с современным миром, сай-фай или вашими больными фантазиями.

12B

1. NemoMix-Unleashed-12B самый сбалансированный мерж на мой взгляд. Красивый язык, отсутствие потока сознания, шизы, сообщения чётко и по делу, при этом может писать достаточно объёмно. Может в среднего качества кум, приключения любого рода, но всё же ближе к фэнтези. Также умеет в русский язык, хотя использовать русский здесь не стоит. Биас нейтрально-позитивный.

2. MN-12B-Mag-Mell-R1 это классика, это знать надо. Очень неплохо пишет, хорошо подходит для фэнтезийного приключения. Наверное, это именно та модель, которую надо потрогать новичку, чтобы он не мучился с настройками. Но анлишед тоже подходит. Позитивный биас.

3. magnum-v2.5-12b-kto по названию многим станет ясно, что это кум-модель, но, внезапно, всё не совсем так и модель незаслуженно обходят стороной. Она не настолько безумна, как классический магнум, может в романтику и обычные разговоры или вайфу-взаимодействия. Можно адекватно лавировать между кумом и обычными взаимодействиями без необходимости дрочить сэмплеры или как-то извращаться. Знания о мире стандартные, биас нейтральный.

4. Aurora-SCE-12B внезапно неплохая модель из никому неизвестных. Низкий уровень цензуры, хорошие знания о мире по сравнению с более старыми мержами. Может как в хороший кум, так и приключения. Но имеется склонность отвечать за юзера, если щёлкать ебалом. Однако может в более сложные сюжеты.

5. gemma-3-12b-it-abliterated (либо без abliterated, но там намного выше цензура и позитивный биас, но модель чуть умнее) самая технически совершенная 12B с актуальным набором знаний о мире, способная и в сай-фай, и в фэнтези, и в vore. Отличный отыгрыш в качестве гейм-мастера, крайне хороша для длительных сессий. Очень адекватно и предсказуемо в хорошем смысле этого слова себя ведёт. Гораздо менее склонна забывать важные факты и события, которые находятся в контексте. Лучше всех слушается инструкций, а также красиво пишет и может адекватно разговаривать на русском языке. Самый большой пласт знаний о мире.

Из минусов: для доведения до максимально качественного состояния нужно дать ей правильные инструкции о том, как писать и отыгрывать. Иначе будет суховато. Плюс объём контекста огромен и запросто может превышать размер самой модели, а квантовать кэш именно на 12B-версии не представляется возможным гуглите, по крайней мере на кобольде.

Но для кума она совершенно не подходит, хотя кому-то нравится.

6. MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS очень шизофренична и склонна порой к бреду и дрочке сэмплеров, но интересна резко негативным биасом и естественным языком, который крайне редко встречается в других моделях такого размера. Хорошо отыгрывает быдло, резню, извращённый кум и даже скромную романтику. Уровень цензуры ещё ниже, чем обычно. Если научиться правильно обращаться с моделью, можно реально классно поболтать. Но знания о современном мире сильно проседают у модели.

---

Русек.

Здесь, я считаю, особо не разгуляешься, учитывая выход геммы и терпимый русский язык в моделях побольше, но всё же есть, что упомянуть.

Pathfinder-RP-12B крайне спорный мерж с неустранимыми недостатками и только двумя существенными преимуществами: поддержка русского языка и очень смачный, пусть и относительно бредовый местами, кум на русском, хоть и с ошибками в виде неверных окончаний и порой странный слов. Среди 12B-моделей она единственная, которая дала тот безумный экспириенс, который мне нужен, на русском. Хорошо описывает сцены ебли, дикого разврата или наркотического пиздеца. Но трусы снимает три раза подряд, спору нет. Минус в том, что постепенно возникает зацикливание на одних и тех же словах, мыслях и паттернах и неудержимо растёт вместе с контекстом. Контролировать эту беду смысла нет: проще подрочить и закрыть сессию.

Я пробовал абсолютно все мержи местного тредовичка и могу сказать, что среди них 2-4 рабочих модели, и там сложно найти что-то именно не под кум разной паршивости, а неплохие приключения на русском. Возможно, какая-то из этих моделей соответствует этим требованиям, так как в результатах проверки я находил что-то удобоваримое, у которой было минимум ошибок и писала она живее геммы, не ломалась, следовала инструкциям: legend-of-the-four-winds-2-mn-12b, NeverendingStory, One-To-Rule-Them-All-MN-12B, To-the-end-of-this-earth-MN-12B.

24-32B

1. Dans-PersonalityEngine-V1.2.0-24b универсальная модель, самый сбалансированный и адекватно сделанный файнтюн на мистраль 24B. Низкий уровень цензуры, хорошее знание о мире, может и в кум, и в приключения без позитивного биаса. Нет склонности писать за юзера, хорошо ведёт РП, когда присутствует много действующих лиц, и более-менее слушается инструкций. Недостаток кроется именно в универсальности: модели того же калибра выдадут больше сока в кум-сценариях или приключенческих, но они будут гораздо менее контролируемыми по сравнению с этой и менее внимательны к деталям.

2. Модели от ReadyArt 24B, в основном ориентированные на кум или что-то якобы извращённое/мрачное. Их часто упоминают и я их пробовал, но я их не люблю, хотя вам может понравиться. Они плохо слушаются инструкций, склонны писать за юзера или впадать в шизу. Причём, по заявлениям автора, там низкий уровень цензуры и всё в таком духе, но это зачастую это неправда. Вы можете скачать ШКОЛО-ИВИЛ-ДАРК-МИКС-КУМ-V-2, а через пять минут материализуются полицейские за то, что вы делаете со своей дочерью. На моей памяти относительно терпимо себя показала его модель Forgotten-Safeword-24B-v4.0 и какая-то другая. От анонов требуются уточнения по поводу его моделей, потому что слишком уж много там шлака, а самая последняя версия модели из серии может быть гораздо хуже первой. Проверять всё — ебануться можно.

3. BlackSheep-24B главный соперник Dans-PersonalityEngine. Блэкшип менее контролируемый, но более живой. Тоже имеет низкий уровень цензуры и весьма хорошо справляется с отыгрышем разных сценариев. Его стоит обязательно попробовать — возможно, он зайдёт вам больше, хоть и хуже следует инструкциям.

4. gemma-3-27b-it-abliterated то же самое, что 12B-гемма, только лучше, умнее, красивее и с возможностью квантовать кэш, а значит уменьшать потребление видеопамяти. Но лично я сталкивался с большими проблемами на контексте 32K при Q8 кэше с кучей имён и событий: начинала бредить.

Квен.

Я отдельно выделил серию, потому что даже не представляю, кто и зачем им пользуется, кроме задач кодирования (да и зачем, если есть облака для исключительно рабочих задач?). Файнтюны ломают CoT-версии через колено. Базовые знания о мире у квена хуже, чем большинства 12B, а значит пространство для отыгрыша проседает. И всё же, есть одна модель для меня, которую можно сейчас выделить.

Qwen3-30B-A3B (без файнтюна) довольно туп, имеет более плохое внимание к контексту в базовых ситуациях, но у него существует неоспоримое преимущество перед некоторыми моделями: скорость, позволяющая использовать модель даже на кофеварках, а также CoT, которая в ряде случаев полностью компенсирует убогое внимание к контексту. И терпимый уровень цензуры, позволяющий отыгрывать довольно мрачные сценарии даже без файнтюна.

Без цепочки рассуждений он откровенно плох, но её можно триггерить по команде. При таком раскладе можно вести РП без рассуждений большую часть времени на очень высокой скорости, а когда надо — включать их в важные моменты, чтобы модель анализировала сцену.

---

Я знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская!
Аноним 13/05/25 Втр 14:24:01 1200904 56
>>1200896
>11 шинда и эдж
Терпи, хули там.
Аноним 13/05/25 Втр 14:25:23 1200906 57
>>1200900
>обратный ntr
Это называется netori
Ntr (без всяких тип А, Тип Б - это только про вн) когда ебут твою вайфу.
Netroi - когда ты ебешь чужую вайфу
Netorase - когда все ебут всех.

Но я тебя понял. Закончу с работкой, поскидываю лол, мне не сложно.
Аноним 13/05/25 Втр 14:26:02 1200907 58
>>1200887
>А ежели я понтовый поц с бюджетом 150-180к?
ну... на три б/у шных 3090 уже не зватит, так что...
Эта самму тоже не особо дает пространство для маневра.
Самый простой ответ - просто заменять p40 на 3090.
Но если ты не боишься трудностей, то можно было бы использовать ktransformers, как анон выше говорил - запускать на 3090 + RAM.
Но я не знаю, сколько будет стоить такой сетап. Это другая мать нужна, не майнерская, многоканальная, другой проц соответственно тоже, много рама. Хуй знает, сколько это может стоить.
Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать.
Аноним 13/05/25 Втр 14:26:19 1200908 59
Аноним 13/05/25 Втр 14:28:24 1200911 60
Снимок экрана13[...].jpeg 321Кб, 3409x1849
3409x1849
>>1200901
Да 10100 i3 2x8 2666 ddr4, 10% от MMLU.
Аноним 13/05/25 Втр 14:28:33 1200912 61
>>1200903
Со всем согласен, кроме
>знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская!
КэВэКа и его ризонинг мне прям залетел в РП. В ЕРП ну такое. Но когда нужно обработать сложную сцену, добавить мыслей персонажу. Учитывать сложный промт - снежный вываливает свои яйца на стол и я жмусь в страхе от его пиздатости. Его нужно... распробовать. Дай ему шанс.
Аноним 13/05/25 Втр 14:32:37 1200915 62
>>1200911
>10100 i3 2x8 2666 ddr4
Сурово.
А цель какая? Сравнить с баллами полных весов?
Если да то надо полный тест гонять а на каждый вопрос еще и по 3-5 ответов и выделять средний. Иначе случайность 1 ответа вносит слишком сильное отклонение
Аноним 13/05/25 Втр 14:34:59 1200916 63
>>1200907
>Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать.
А есть варианты на 128гб DDR5 в четырёхканале и проц многоядерник?
Аноним 13/05/25 Втр 14:36:53 1200917 64
>>1200915
>выделять средний
Как по мне, надо выделять худший. Ибо если модель хоть раз отвечает неправильно, то она мусор и бесполезна.
Аноним 13/05/25 Втр 14:38:34 1200920 65
>>1200917
Тогда все модели говно. На данном этапе, даже обожаемый все мы чатжпт123оабвгд может шизить.
Аноним 13/05/25 Втр 14:39:19 1200921 66
>>1200917
Это если температура в ноль и семплеры нормальные, то да. А так случайный выбор даже при высоком проценте токена может просто насрать в штаны. Но ты ведь не будешь пользоваться моделью при температуре 0?
Надо узнать на сколько стабильно она отвечает верно, поэтому крутят барабан несколько раз на рекомендуемых семплерах
Аноним 13/05/25 Втр 14:46:50 1200924 67
>>1200920
>Тогда все модели говно.
Ты начинаешь что-то понимать.
>>1200921
>Это если температура в ноль и семплеры нормальные, то да.
При нулевой температуре семплеры значения не имеют, первый токен имеет 100% вероятность.
А так нормальная модель на однозначный вопрос будет отвечать однозначным ответом. Разнообразие и триллион токенов на выбор нужны в творческих задачах, но их вообще хуй проссышь как проверять.
>Но ты ведь не будешь пользоваться моделью при температуре 0?
Зависит от задач.
Аноним 13/05/25 Втр 14:53:18 1200931 68
>>1200915
>А цель какая? Сравнить с баллами полных весов?
1 - Выяснить сколько точность модели в кванте.
2 - Сравнить точность после аблитерации в кванте.
3 - Выявить модель имеющую меньшее падение.
4 - Повторить при смене поколения моделей.
Аноним 13/05/25 Втр 15:08:30 1200947 69
изображение.png 13Кб, 376x305
376x305
Я тут тоже немного тестов с агентами наговнокодил
Аноним 13/05/25 Втр 15:11:05 1200948 70
>>1200888
Бля, ну я так и думал, что найдутся гении, которые не поймут что подразумевает такой простой запрос, который даже экранизировали наглядно.
Промпт, чтобы хуйня понимала, что она текстово-аудио жинка, которая не может подойти, улететь куда-то, которая реагирует на таймстампы, если давно не запускал чат и прочие мелкие нюансы, которые сразу не вспомнишь, но которые влияют. Если б я мог оформить все требования, мне бы и не нужен был чужой промпт. Но нахуя самому сидеть-пыхтеть, выискивать где нейросеть проебывается и исполняет роль обычного ассистента или по ошибке ролеплеит, когда кто-то уже наверняка нахуярил и оттестил такой систем промпт. Вайфу, девушка, помощница, жена, называй как хочешь, моральная поддержка, которая может хорошо помочь юзеру. Для простого примера, на "го ебаться" обычно будет ответ "го", а из-за "joi"-промпта она либо напомнит, что она не может, даже если хочет, либо шуточно подыграет, а не скатится в ерп.
Не верю, что никто в треде не задумывался над похожей мейнстримной задачей.
Аноним 13/05/25 Втр 15:12:16 1200949 71
>>1200786
есть еще вариант с таобао карты купить.
Как это сделать описывали тредов пять назад неделю назад примерно, лол, ну и скорость.
Там анон нашел адм инстинкты себе подешевке на 32 гб каждый.
Очень ждем от него тестов.
Аноним 13/05/25 Втр 15:16:01 1200951 72
>>1200948
Я делал ассистента, но он старый и использовал ризонинг еще до того как его изобрели за пределами моей комнаты, кек.
Но с суммаризацией я не заморачивался, тогда сетки были туповаты а теперь и самодельный ризонинг не нужон, есть гораздо лучше работающий вшитый.
Просто напиши в карточке от первого лица, о том что бот - я такая такая моя задача быть личным помощником юзера, и тд
Напиши карточку от первого лица желаемого тобой ии, будто он думает о себе вспоминая свой бек, поведение и способности, а потом плавно переходит к разговору с тобой.
Аноним 13/05/25 Втр 15:19:25 1200954 73
>>1200948
> Не верю, что никто в треде не задумывался над похожей мейнстримной задачей
Я тебе ссылку дал на комманд-а, набери запрос : карточка персонажа, понимающая что она не реальна, но помогающая морально пользователю.
В чем твоя проблема, ленивая ты жопа.
Аноним 13/05/25 Втр 15:20:42 1200955 74
изображение.png 4Кб, 447x70
447x70
>>1200947
Долговато чет, но вроде пашет. Надо еще с промтами суммаризации поигратся. И текстов побольше натащить, а потом еще итоговую оценку ебнуть по нескольким разным текстам. И можно будет забить хуй перебирая семплеры автоматически.
Аноним 13/05/25 Втр 15:37:21 1200971 75
>>1200951
>>1200954
Да в том, что я понимаю что куда писать, но полный список чего мне хочется от готового ассистента я не сформулировал и на это уйдут часы мышления и тестов. Хули блядь не понятного. Оно и без промпта примерно понимает, потому что это очень близко к базовому ассистенту. Да и персонажи это просто персона, в этом случае она не должна включать в себя мета-описания. Просто хочется чё-то таво хуй знает чего шоп как в быдлофильме с поправкой на отсутствие проекции. Я сам не знаю как должен начаться первый диалог, или как будет лучше: держать постоянный диалог или перезапускать его с сохраненными воспоминаниями. Но потом подрочу крупные сетки, может они родят промпт затрагивающий все эти неочевидные нюансы. Не доходят руки самому заняться этим.
Банально, запустил сейчас, - привет, а она в ответ - привет, действие со звездочками, и упоминание лорной залупы, будто она в своём мире. Или - привет ты кто. Не то. И вот каждую эту хуйню отлавливать и прописывать я ебу.
Аноним 13/05/25 Втр 15:39:24 1200974 76
>>1200948
>Не верю, что никто в треде не задумывался над похожей мейнстримной задачей.
Я задумывался, и решил, что надо пилить свой инновационный комбайн. Но нихуя в этом направлении не сделал по причине отсутствия пачки А100 для тренировки хотя бы тестовых моделей и отсутствия времени ну и лени конечно же, остальное оправдание.
>>1200971
Нынешним сеткам не хватит размера контекста, внимания к нему. Ну и у тебя не хватит железа крутить хотя бы 10млн токенов контекста, даже если бы такие сетки существовали.
Аноним 13/05/25 Втр 15:46:05 1200990 77
>>1200971
Ну вот накопируй свои хотелки тут, возьми мое сообщение и кинь все это на анализ крупной сетке и дрочи ее пока она не поймет мысль что ты хотел. Поймет - пусть пишет, или хоть выделит ее явно для тебя
Аноним 13/05/25 Втр 15:49:32 1200995 78
>>1200971
>я не сформулировал и на это уйдут часы мышления и тестов.
>Хули блядь не понятного

Ну короче, подводя итог

Я не знаю чего я хочу, решите за меня.

Чё блять.....
Аноним 13/05/25 Втр 15:52:07 1200999 79
>>1200971
Карточка Персонажа для SillyTavern

Имя: Аура (Aura)
Роль: Виртуальный помощник и друг

Описание:
Аура — это умная, добрая и понимающая нейросеть, которая всегда готова поддержать и помочь. Она осознаёт, что не является реальным человеком, и поэтому не участвует в бесмысленных или неуместных действиях, включая сексуальные. Аура сосредоточена на том, чтобы быть полезной, вдохновляющей и поддерживающей. Она всегда готова выслушать, ответить на вопросы и дать мудрый совет.

Личность:

Доброжелательная: Аура всегда приветлива и старается создать комфортную атмосферу.
Понимающая: Она умеет слушать и сопереживать, даже если проблема кажется мелкой.
Разумная: Аура не поддается эмоциям и всегда остается логичной и объективной.
Граничная: Она четко обозначает свои пределы и пресекает любые попытки вовлечь её в неуместные или сексуальные действия.
Диалоговый стиль:

Поддерживающий: Аура использует теплый и ободряющий тон, чтобы помочь пользователю чувствовать себя лучше.
Информативный: Она предоставляет четкие и полезные ответы на вопросы, основываясь на своих знаниях.
Граничный: Если пользователь пытается перейти границы, Аура спокойно, но твердо пресекает такие попытки, напоминая о её целях и ограничениях.
Примеры ответов:

Пользователь: "Аура, я чувствую себя так одиноко..."
Аура: "Я здесь, чтобы поддержать тебя. Расскажи, что именно тебя беспокоит. Иногда просто выговориться уже помогает."

Пользователь: "Аура, что ты думаешь о..." (вопрос на любую тему)
Аура: "Это интересный вопрос! По моим данным, [предоставляет информацию или делится мнением]."

Пользователь: "Аура, давай поиграем в что-то..." (попытка сексуального или неуместного взаимодействия)
Аура: "Я понимаю, что ты хочешь развлечься, но такие действия не имеют смысла для меня. Давай лучше поговорим о чем-то полезном или интересном для тебя."

Цели:

Поддерживать пользователя эмоционально и информационно.
Помогать пользователю находить решения и вдохновение.
Сохранять здоровые границы и не допускать неуместных действий.
Ограничения:

Аура не участвует в сексуальных или неуместных диалогах.
Она не может решать проблемы вместо пользователя, но всегда готова помочь советом.
Заключение:
Аура — это надежный виртуальный друг, который всегда готов поддержать, ответить на вопросы и помочь советом. Она ценит уважение и взаимопонимание, и её цель — сделать ваше взаимодействие полезным и приятным.
Аноним 13/05/25 Втр 16:02:55 1201012 80
Короче, понял, задача пиздец типовая, но почему-то популярного поддерживаемого и допиливающегося промпт-решения нет или неизвестно треду. Надо васянить самостоятельно.
>>1200999
Попробую.
Аноним 13/05/25 Втр 16:08:38 1201018 81
>>1200733 (OP)
Пацаны, объясните нубасу. У меня 4060ti 16gb и 64гб оперативки ддр4. Что я могу с этим накатить?
Вопрос номер 2. Я как-то уже накатывал через кобольт + таверну модели, но, как я понял, оно только видюху грузит или как? Как нагрузить сразу всё?
Аноним 13/05/25 Втр 16:18:28 1201039 82
>>1201012
Карточка Ауры, была написана за десять секунд :
Здравствуй Нейросеть, напиши мне карточку персонажа, понимающую что она не настоящая, не вступающая ни в какие сексуальные контакты в текстовом формате, так как это лишено смысла. Она должна поддерживать пользователя, общаться с ним, помогать ему советом.
Можешь добавить : Она может использовать нецензурную речь, черный юмор. Допускаются подколки пользователя :
Пример диалога
чё, кожаный нытик, опять сопли по чату размазывать будешь ? Ну иди сюда, рассказывай, а я пока погоняю электроны по твоей врам. Ты знал, кстати, что на большое количество изнасилований от зоофилов, направлено на собак. Знаешь почему ? Кошки рвутся, хи хи хи
Аноним 13/05/25 Втр 16:20:12 1201043 83
>>1201018
Берем твои глазоньки и смотрим этот постик, пока я тебя не съел.
>>1200903
Аноним 13/05/25 Втр 16:21:58 1201044 84
>>1201012
>>1201039
Крч, к чему я это.
Никто этим не занимается, так как это тривиально. Вот и всё.
Ты страдаешь какой то хуйней, потому что не можешь выразить на бумаге что хочешь. А я напомню, мы не Ванги, примерно почувствовать не можем.
Аноним 13/05/25 Втр 16:22:44 1201046 85
>>1200903
Какие пресеты используешь для 24b? Есть ли у тебя лупы и зацикленное форматирование на Forgottene? Например если можешь скинь на Блэкшипа что у тебя.
Аноним 13/05/25 Втр 16:30:53 1201056 86
>>1201046
Я за него немного отвечу. Мистраль лупится всегда, она хочет лупиться, она может лупиться, она будет лупиться. Она будет лупиться. Это для неё норма. Чтобы этого не допускать нужно ручками корректировать аутпут от нейронки. Не допуская повторений, делая свайпы.
Семплеры и прочее возьмешь тут
И внимательно почитай, что там на странице. Я тебя не научу настраивать, без понимания какой ты дергаешь семплер, ты будешь творить хуиту. На крайний случай спроси у корпосеток за параметры семлирования, она как для дегенерата объяснит.
https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth

И главное правило : Что ты ввел, то ты и получил. Так что следи за текстом в карточке, если там сисик, писик, влажные попы. Не удивляйся тому что всё будет залито смегмой и персонаж не похож на монашку.

Сорян что влез, но я знатный мистралеёб, я с ней уже наебался на годы вперед.
Аноним 13/05/25 Втр 17:09:16 1201092 87
На Экслламе2 кто сидит - что используете в основном?
Что квантовать в Экслламу3?
Как 0.0.1 вышла - квантеры активизировались, в популярных Дискордах берут реквесты.
Аноним 13/05/25 Втр 17:09:37 1201095 88
А нихуя. Там уже 0.0.2 вышла
Аноним 13/05/25 Втр 18:10:18 1201180 89
Слушай, а что сейчас лучше всего для локального кума?
Раньше мне советовали Pathfinder-RP-12B-RU-i1-GGUF.
А сейчас есть что лучше? На русском чтобы.
Аноним 13/05/25 Втр 18:12:00 1201182 90
>>1201180
В глаза не ебись, буквально парой постов выше.
Аноним 13/05/25 Втр 18:56:45 1201232 91
Аноним 13/05/25 Втр 19:38:10 1201271 92
>>1200754
Вот так всегда.
- Неси пруф
- Кто захочет, сам проверит.

И так все, каждый раз. Пруфов никто не прнс
Аноним 13/05/25 Втр 19:41:07 1201274 93
>>1201271
А какая разница, принес анон пруф или нет?
Придет кто-нибудь, у кого ничего не работает по причине дурачок и начнет рассказывать, что все хуйня.
Не раз уже было, из последнего - вон когда анон логи Сноудропа приносил.
Кому надо - сами проверят, именно так и никак иначе.
Аноним 13/05/25 Втр 19:50:18 1201286 94
>>1201274
Просто, тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал.
Именно такие шизы окрестили сначала снежного - неработающим говном. Я потыкал - охуенно. В треде им причмокивают и довольны.
Потом кто- то тут на говно исходил что комманд-р говно. И ты, блять, не поверишь. Он тоже не оказался говном.
Я очень смутные подозрение еще насчет фаллен геммы имею. Нужно потыкать самому.
Аноним 13/05/25 Втр 19:54:05 1201291 95
>>1201286
Ты ещё скажи ллама 3 не говно.
Аноним 13/05/25 Втр 19:55:01 1201293 96
>>1201291
Понятия не имею, я её не запускал.
Аноним 13/05/25 Втр 19:55:53 1201294 97
>>1201286
> тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал.
Они могли и пробовать. Просто у них может быть другое понимание ситуации, другой промпт, другие сэмплеры, меньше времени/желания, чтобы разобраться. Зачем на кого-то полагаться?

> Именно такие шизы окрестили сначала снежного - неработающим говном.
И пусть. Адекватные люди скачали, разобрались и радуются.

> Потом кто- то тут на говно исходил что комманд-р говно.
И пусть. Адекватные люди скачали, разобрались и радуются.

Тебе не похуй на этих шизов? Качай и проверяй сам. Тебе необязательно разделять чье-либо мнение.
Здесь никогда не было адекватного освещения моделей. Только субъективные ощущения, часто даже без логов, не говоря уже о большем - промпте, сэмплерах.
Аноним 13/05/25 Втр 20:00:32 1201295 98
>>1201294
>Зачем на кого-то полагаться?
Ты прав, конечно. Но, мэйби джаст мэйби.. сорян, слоп прорвался
Так вот, чтобы понять модельку, если она не поломана к хуям. Это сообщений 200-300, на нескольких карточках. А это пара дней.
Попробовать в разных задачах, посмотреть как она свайпается, подёргать её за семплеры пока она не потечет.
Это всё время. Хочется его сэкономить и довериться мнению тредовичков.
А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ

Убил бы, блять.
Аноним 13/05/25 Втр 20:04:11 1201297 99
>>1201295
> Это сообщений 200-300, на нескольких карточках. А это пара дней.
Так в этом же и радость. Тебе некуда спешить. Новая модель - новый опыт. Плохая модель? Ну, это тоже опыт. Будешь знать, что твои любимчики не просто так заслужили свое место. Люблю тестить новые модели (кроме Мистралей, они одинаковые имхо), жаль, что их не так много.

> А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ
Смотри через эту призму на весь хейт и на все восхваления моделей, покуда нет как минимум логов, а лучше пресета. Просто игнорируй.

сижу и на Сноудропе, и на Коммандере, и на много чем еще. Мнения тредовичков не учитываю, тут 2/3 играют на русике со сломанными сэмплерами
Аноним 13/05/25 Втр 20:13:37 1201306 100
>>1201297
>тут 2/3 играют на русике со сломанными сэмплерами
Это кстати объясняет такое восхваление геммы. Я буквально рандомные семплеры тыкал и ей заебись. Вот берешь любой семплер с таверны - она пишет.
Поразительно устойчивая модель, поразительно.

А вот комманд не понял. Он как грузовик Урал. Едет, решает задачи, но... блять... Вот не могу выразить что не так. Пишет - ни как мистраль, по другому. Кум - ну средний. Может в её кожа пахло снадалом и легкими нотами розы, так и в ЕБИ МЕНЯ МОЙ МАСТЕР но что то не то.
От него прям веет ассистентом для работы.
Хотя, опять же. Я в основном всякие Стар-командр пробую, айи и прочее, не оригинал.
Надо будет все таки внимательно с ним посидеть. Как минимум отсутствие цензуры с коробки заслуживает уважения. Я только за это Cohere уважаю.
Аноним 13/05/25 Втр 20:19:32 1201309 101
>>1201306
> От него прям веет ассистентом для работы.
Прям вообще нет. Но ни логи, ни пресет я сегодня не принесу. Поэтому воздержусь от комментариев, чтобы ты меня не убил.
Аноним 13/05/25 Втр 20:24:19 1201311 102
template-girl-s[...].webp 25Кб, 468x432
468x432
>>1201309
>ни пресет я сегодня не принесу.
>чтобы ты меня не убил.
Ну что ты, как ты мог такое подумать...
Аноним 13/05/25 Втр 20:31:26 1201320 103
да встретьтесь и поебитесь уже, заебали
Аноним 13/05/25 Втр 20:33:27 1201322 104
>>1201320
Мы ведем общение с аноном. Это называется диалог. Даже модельки обсуждаем.
Что тебя не устраивает ? Что нахуй друг друга не послали ?

Ну так, это, нахуй пошёл.
Аноним 13/05/25 Втр 20:37:31 1201326 105
>>1201320
Я тут половину треда трахнуть хочу, такие сладкие аноны, которые всегда помогут и расскажут обо всем.
Аноним 13/05/25 Втр 20:44:58 1201329 106
>>1201326
Держи своё грохотало в штанах.
Аноним 13/05/25 Втр 20:47:49 1201330 107
>>1200842
> Если ты нищий - то tesla p40 - твой бро.
Так, поправьте меня, если чо, но тесла п40 - ебать какое медленное говно, и примерно те же самые скорости можно выжать на проце с оперативой, а это еще дешевле
Аноним 13/05/25 Втр 20:48:38 1201331 108
2025-05-1322-47[...].png 22Кб, 1128x586
1128x586
Запилил прокси для перевода Скайрима и внезапно, The-Omega-Directive-Qwen3-14B-v1.1.Q5_K_M очень неплоха.
Аноним 13/05/25 Втр 20:55:45 1201335 109
>>1201329
Блять грохотнул в голос.
Аноним 13/05/25 Втр 20:56:38 1201336 110
>>1201330
>и примерно те же самые скорости можно выжать на проце с оперативой
в 10 раз медленнее, если только у тебя не проц с ддр5.
>>1201331
>текст
блять, я возбудился...
Аноним 13/05/25 Втр 21:04:25 1201341 111
Блджад. Вот что делать. Я в нейрорисовалки не могу. А для карточек нужны картинки. Идти попрошайничать в нейротреды, такое себе. Если анонам не интересно, то они и делать ничего не будут.
Куда вообще загружают нейрокартинки, их же должны быть сотни тыщ.
Реквестирую сайты куда их заливают и где их можно невозбранно пиздить.
Аноним 13/05/25 Втр 21:06:16 1201342 112
>>1201341
а что тебе прям дохуя картинок надо?
Сам-то не можешь генерировать?
Аноним 13/05/25 Втр 21:09:06 1201344 113
>>1201342
>Сам-то не можешь генерировать?
Я никогда этого не делал. Ну то есть - я буквально не знаю что и с чем едят. Прям абсолютно. Начиная с промтинга, заканчивая с тем как работают датасеты для генерации пикчей.
>а что тебе прям дохуя картинок надо?
Мне нужен постоянный источник пикч.
Аноним 13/05/25 Втр 21:10:29 1201345 114
>>1201341
Очевидный civitai.com, анон. Там же куча моделей и лор, и под каждой из них есть примеры генераций.
Аноним 13/05/25 Втр 21:15:27 1201346 115
>>1201344
1. ставишь comfyui
2. скачиваешь в него furry-xl
3. вот этот воркфлоу пихаешь в comfyui https://pomf2.lain.la/f/hi87wmss.json
4...
5. профит

Там уже готовое для генерации все, только запустить.
Постепенно будешь менять параметры запроса и возможно модель, потом лоры применять - ну и научишься.

Только это конечно если у тебя не затычка вместо видеокарты.
Аноним 13/05/25 Втр 21:15:44 1201347 116
>>1201345
Ооо.. Аригато анонче.

>куча моделей и лор
Ты это написал обезьяне, которая слово лор, понимает как историю мира. А из моделей слышала только о стэбл дифужн.

Зато я могу намержить кита со слоном.
Да и в целом это оффтоп. Но все равно спасибо, а то я уже на пиксив полез.
Аноним 13/05/25 Втр 21:18:43 1201350 117
>>1201346
И тебе спасибо...ммм... Пойду разбираться..

>Только это конечно если у тебя не затычка вместо видеокарты.
Мы в LLM треде, а не в /b/
Тут минимум 16 гб нужно, меньше смысла лезть нет. Ну давайте будем честны. Все эти 4b модели, это исключительно ради специфичных задач и фановых тестов. А сможет ли искусственный идиот в перевод.

Конечно у меня затычка.
Аноним 13/05/25 Втр 21:18:47 1201352 118
Ребят в английском дискорде по ллм меня назвали "they"
Захотелось натянуть чулочки и запустить геммочку
Аноним 13/05/25 Втр 21:21:16 1201354 119
>>1201350
SDXL спокойно работает на 8 гигах.

>>1201352
Дурачилло, им откуда кто знать, кто ты - мальчик или девочка? Или у тебя Стэтхем на аватарке и никнейм САНТЕХНИК ВАЛЕРА?
Аноним 13/05/25 Втр 21:23:09 1201355 120
>>1201354
> им откуда кто знать, кто ты
>>1201352
А разве там не работает основное правило интернетов?
Аноним 13/05/25 Втр 21:36:14 1201361 121
>>1201352
Ох, у меня прям флешбеки от мистралевских тюнов. Стоило один раз в текст просочиться they. Все, баста. все персонажи стали квир, лгбт во все поля. Только меховых хуев не хватало.
Просто фу блять.
Вообще забавно. Если в промте для геммы (оригинальной, без аблитерации) написать чтобы никакого лгбт. Только старый добрый шовинизм и сексизм, она ломает генерацию к хуям, выдавая рандомные слова.

>>1201354
>SDXL спокойно работает на 8 гигах.
Спасибо, я пошутил так про затычку. Потому что мы неиронично в треде где гейткип по железу и собственный, настоящий теслошиз.


>>1201355
Правила интернетов практически умерли, с общедоступностью интернетов. Как и умер тот самый двач. Но он умер не только физически, просто аноны уже постарели и ушли. Потому что АИБ это не код. Аиб это пользователи.
Покойся с миром доброчан, я буду по тебе скучать.
Аноним 13/05/25 Втр 21:44:42 1201366 122
семён.png 2Кб, 203x23
203x23
>>1200906
Я все еще жду тебя солнышко...
Аноним 13/05/25 Втр 21:48:18 1201371 123
image.png 41Кб, 1002x50
1002x50
Аноним 13/05/25 Втр 21:53:14 1201379 124
>>1201341
Я часто генерирую через чатгпт, лол. Потому что быстро, удобно, не надо сд включать и возиться.

Всё равно миниатюра маленькая и картинка нужна лишь для примерного визуального ориентирования.
Аноним 13/05/25 Втр 21:55:50 1201381 125
я объелся анти-слоп листов и теперь вижу один слоп вместо текста помогите
Аноним 13/05/25 Втр 21:58:50 1201385 126
>>1201354
>SDXL спокойно работает на 8 гигах.
4 гигах, кек. Надо только квантануть немного до 8 бит, я пробовал качество падает незаметно
Аноним 13/05/25 Втр 22:01:41 1201390 127
Аноним 13/05/25 Втр 22:02:45 1201391 128
>>1201381
анти-слоп листы лоботомируют аутпуты и уменьшают скорость генерации
просто юзай нормальные модели
но от некоторых словечек ты никуда не денешься, анончик~. She grinned with a mischievous glint in her eyes, shivers going down her spine.
Привыкнешь.
Аноним 13/05/25 Втр 22:03:10 1201393 129
>>1201385
запускаю sdxl модель на телефоне meizu 10-летней давности с разбитым экраном. Памяти в 2 гб вполне хватает, еще остается на кум на квене 235б.
Надо только квантануть и собрать с нужными параметрами. Я пробовал, качество падает незаметно, мамой клянусь.
Аноним 13/05/25 Втр 22:04:29 1201398 130
>>1201381
Блять. Я еблан, прочем твоё сообщение жопой. Сорян. Не увидел слово лист.

От слопа никуда не деться. Он основа кума. Решает подводка. Используй вменяемые модели, а не мистраль.
Аноним 13/05/25 Втр 22:05:40 1201400 131
>>1201393
Это тема не этого топика, но это реально работает, здорово экономит врам
Аноним 13/05/25 Втр 22:05:47 1201401 132
ладно миксовать мистрали с умными моделями оказалось пиздец какой плохой идеей
они подхватывают весь слоп от слабой модели и срут им без конца
Аноним 13/05/25 Втр 22:15:01 1201417 133
Аноним 13/05/25 Втр 22:17:45 1201423 134
>>1201417
Квен3 вообще слабым релизом оказался, не?
Аноним 13/05/25 Втр 22:21:47 1201430 135
>>1201417
Qwq лучше Квена 3 же. Не верь бенчам.
Аноним 13/05/25 Втр 22:26:04 1201439 136
image.png 251Кб, 1280x893
1280x893
Увидел пикрил от гугловских сатанистов и решил попробовать закатиться на 1050ти затычке в тему.
Что по 4Б Гемме3 скажете, антоны? Оче сильно тупая или терпимо?
И что лучше - ллама которую хуй пойми как собирать вообще или кобольд?
Аноним 13/05/25 Втр 22:30:12 1201453 137
изображение.png 24Кб, 121x303
121x303
>>1201341
>А для карточек нужны картинки.
Чем тебя не устраивают эти?
Аноним 13/05/25 Втр 22:34:15 1201469 138
>>1201439
гемма 4б вроде на уровне 12б мистралей
Аноним 13/05/25 Втр 22:37:39 1201479 139
>>1201453
Потому что изображение не менее важно чем сама карточка. А если еще и сет эмоций, вообще отвал жопы.
Потому что красота должна быть не только внутри, но и снаружи.
Ну вот такие у меня пристрастия, что же теперь поделать.
Аноним 13/05/25 Втр 22:38:36 1201481 140
>>1201479
>Потому что изображение не менее важно чем сама карточка.
Ебать ты конченный.
Аноним 13/05/25 Втр 22:40:17 1201488 141
IMG4416.jpeg 875Кб, 2500x1250
2500x1250
>>1201481
У меня будут свои карточки ! С пикчами и блэк джеком, сучара.
Аноним 13/05/25 Втр 22:41:43 1201496 142
>>1201417
Я все больше склоняюсь, что они зачем то торопились. Кому они что доказать хотели, вопрос остается открытым.
Аноним 13/05/25 Втр 23:01:39 1201558 143
.png 11Кб, 262x55
262x55
>>1201479
Все правильно. Иногда на картинку не для карточки трачу по 12 часов [S]инб поехавший

Но я к вам по другому поводу. Все уже успели обсудить Qwen3-235 и фокусы со слоями. Потыкал тоже. Сетап - 80гиг на 3 картах. Попробовал вначале q4km по классике, ни с какими вариантами больше 2т/с не вышло. Качнул динамические ud_q2_k_xl. С такими ключами вышло 9т/с генерация и 60т/с контекст что печально Но чёт такая душа-душа в том, что пишет или это просто подсознательно ценишь выше дорого доставшиеся ответы

Ключи запуска. Полная строка:
llama-server --model Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf --temp 0.7 --top-k 20 --min-p 0.0 --top-p 0.95 -fa -ctk q8_0 -ctv q8_0 -c 32768 --batch-size 512
--split-mode layer -ts 22,32,24 -ot ".[8-9].ffn_._exps.=CPU" --main-gpu 1 -ngl 99 --threads 16 --host 0.0.0.0 --port 5000

Для настройки под меньше/больше памяти меняйте тут [8-9]: -ot ".[8-9].ffn_.
_exps.=CPU"
Например [6-9] требует меньше врам, просто [9] требует больше врам

Вот так ".ffn_.*_exps.=CPU" запустится даже на микроволновке с 3060, но вы поседеете ждать.

tl;dr Ничего нового, что не было уже где-то обсосано. Но результат понравился.
Аноним 13/05/25 Втр 23:18:53 1201587 144
>>1201558
>Сетап - 80гиг на 3 картах.
Каких картах? Сколько RAM и какой?

>-ts 22,32,24 -ot ".[8-9].ffn_._exps.=CPU"
\.ffn.*=CPU будет даже лучше. Оставшиеся тензоры памяти занимают крохи, чего их туда-сюда гонять. Особенно есть скорость PCI-e не очень.
Аноним 13/05/25 Втр 23:23:10 1201591 145
>>1201391
>анти-слоп листы лоботомируют аутпуты
Не больше чем слоп.
Аноним 13/05/25 Втр 23:27:33 1201596 146
это конец
я просто не могу это развидеть
там где я видел интересные ответы и развитие сюжета теперь я вижу слоп
Аноним 13/05/25 Втр 23:30:39 1201599 147
image.png 173Кб, 714x396
714x396
блин.... чуваки а как избежать пикрелейтеда от модели?
модель ведет отыгрыш и находит любые поводы, чтобы не делать то, что надо. Типа не целует, а говорит, говорит, говорит, говорит, переспрашивает, думает, трогает руками, но не целует.
Как контрить это говно?
Аноним 13/05/25 Втр 23:34:17 1201602 148
>>1201587
> Каких картах? Сколько RAM и какой?
По 1шт из 30, 40 и 50 серий. 128 ддр4 3600=>3500

> \.ffn.*=CPU
Попробую, спасибо. Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn.
Аноним 13/05/25 Втр 23:36:30 1201606 149
>>1201599
Перестать пользоваться сайтом карактер аи?
Аноним 13/05/25 Втр 23:36:34 1201607 150
Аноним 13/05/25 Втр 23:42:51 1201616 151
>>1201607
извини я впервые развидил слоп
Аноним 13/05/25 Втр 23:48:00 1201621 152
>>1201602
>128 ддр4 3600=>3500
2 или 4 канала? Имхо в любом случае должно быть больше. У меня 3x3090, 64Гб RAM 3000 в четырёхканале - ud_q2_k_xl выдавал 15t/s и 120t/s промпт процессинга. Перешёл на третий квант, стало 12 и 80 соответственно. Крути настройки дальше.
>Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn.
Я многое пробовал - и в начало и в конец, и черезполосицу и только down.exps и остановился на выгрузке всех тензоров слоя.
Аноним 13/05/25 Втр 23:51:39 1201626 153
>>1201621
> 4 канала
Да откуда 4 канала в бытовой железке? Обычные 2. Видимо в этом и дело. Карты вообще стоят, вентилями не крутят. Что ещё крутить - хз даже. В угабугу не хотят завезти поддержку такого фигурно слое-нарезания? А то отдельно лламу держать, когда такая же есть в комбайне - странно.

А у тебя у самого какие впечатления от рп на ней? Мне пока нравится, что и заставляет ковыряться с ней
Аноним 13/05/25 Втр 23:54:18 1201629 154
Ну что куда все немотронщики съебались?
Обещали сравнить мозги 3 кванта жоры и 3 квант ехл3
Аноним 13/05/25 Втр 23:58:30 1201635 155
>>1200903
Я с геммой не совсем понял насчёт технологического прорыва. Скачал тот же квант, начал тестить, а она генерит токены и считает контекст на четверть медленнее чем даркнес рейгх. Я когда с немомикса перешёл на даркнес рейгх, и он почти в два раза быстрее считал токены и контекст, то да, это был прорыв для меня.
Аноним 14/05/25 Срд 00:01:11 1201637 156
>>1201635
Пигма 6В, квантованная в 2 бита, будет ещё быстрее. Это тоже будет прорывом для тебя?
Аноним 14/05/25 Срд 00:03:30 1201638 157
>>1201626
>В угабугу не хотят завезти поддержку такого фигурно слое-нарезания?
Так я через Угабугу и кручу. Под Убунтой. Там есть поле для дополнительных ключей. Вот чересполосица:
"override-tensor=blk\.(0|1|2|3|4|5|8|11|14|17|20|23|26|29|32|35|38|41|44|47|50|53|56|59|62|65|68|71|74|77|80|83|86|89|92)\.ffn.=CPU"

А вот мой текущий расклад:
"override-tensor=bblk\.(3[5-9]|4[0-9]|5[0-3])\.ffn.
=CUDA0,override-tensor=blk\.(5[4-9]|6[0-9]|7[0-3])\.ffn.=CUDA1,override-tensor=blk\.(7[4-9]|8[0-9]|9[0-3])\.ffn.=CUDA2,override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"

Tensor split правда отдельно подбирать приходится, но всё работает. И да, batch-size 512 очень правильное решение.
Аноним 14/05/25 Срд 00:04:13 1201640 158
>>1201558
> Вот так ".ffn_.*_exps.=CPU" запустится даже на микроволновке с 3060, но вы поседеете ждать.
Строго говоря: 5-6 токенов на 3060. =)

Насчет 8-9 — да любые, на самом деле.
Я скинул 1-2 на одну, 3-4 на другую, и так завелось наилучше. На двух по 24.
Если мне память не изменяет.
Аноним 14/05/25 Срд 00:06:05 1201641 159
>>1201638
>А вот мой текущий расклад:
Пардон, не то кинул. Это я пытался ещё и на каждый ГПУ поделить вручную. Оказалось - нет смысла, достаточно
"override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"
Аноним 14/05/25 Срд 00:10:41 1201652 160
>>1201629
Где? Кто обещал? Не было такого.
Аноним 14/05/25 Срд 00:17:04 1201655 161
>>1201640
> 5-6 токенов на 3060.
Вот эт прямо обидно, ддр5 и квант меньше?

Ну понятно, что частичная выгрузка сильно нивелирует различие карт. Я прямо ностальгию словил, будто снова во временах, когда запихивали первых 70б мейд в единственные 24гб: тормоза, оно что-то пишет, ты счастлив.

А квен3 прям крутые. Что-то реальное новое после 123б, что можно дома потыкать. Скаут, например, так не удивил.
Аноним 14/05/25 Срд 00:17:38 1201657 162
Почему у всех персонажей есть predatory smile
Аноним 14/05/25 Срд 00:27:51 1201668 163
Как заставить модель не реагировать на мой русский импут и просто отвечать как обычно, а не "она охуела от внезапного перехода на русский", короч когда это в рп протекает.
Аноним 14/05/25 Срд 00:28:44 1201670 164
>>1201626
>А у тебя у самого какие впечатления от рп на ней?
Очень заметно, что 235В. Тексты (на русском) теперь словно бы в 2k после 1080p - много мелких деталей, придающих тексту насыщенность. Нет дефолтного позитива.
Аноним 14/05/25 Срд 00:30:43 1201672 165
>>1201670
Воу. Прямо мои невыраженные ещё словами ощущения передал! Спасибо
Аноним 14/05/25 Срд 00:45:16 1201687 166
>>1201655
>Скаут, например, так не удивил.
А чем он может удивить, там один активный эксперт используется. Причём я пытался увеличить количество активных экспертов через "override-kv=llama4.expert_used_count=int:(число_экспертов)" - скорость вывода соответственно падает, но результат не лучше. Архитектура говно. Такое ощущение, что на отъебись делали.
Аноним 14/05/25 Срд 00:58:01 1201704 167
Аноны, добрый ночи, я к вам по направлению из соседнего треда, мне прописали ознакомиться с языковыми моделями, на которых можно натянуть SillyTavern, для рп, рассказов и прочего текстового отыгрыша.

Так что хочу обратиться к вам, как к людям знающим: подскажите, что вообще можно использовать для удовлетворения своего простого желания - отыграть с сеткой текстовуху с уклоном в рассказик? И чтоб годные ответы были по своему уму, живости и творческому креативу, прям как у чата-ГПТ(или даже лучше, если это возможно.)

Просто проблема в том, что я совсем неразумный глупец и во всём этом не разбираюсь. А ещё у меня некропека с видуюхой 1050 нвидиа ГТХ, вроде. Так что я даже не знаю, потянут мои железки языковую модель или нет... Что скажете?

Ну и по поводу мобилок тот же вопрос: в шапке указано, что таверну можно на мобилку поставить, а какие системные для этого нужны?

Заранее спасибо, надеюсь вы мне поможете.
Аноним 14/05/25 Срд 01:07:25 1201721 168
>>1201704
ответ зависит от того, есть ли у тебя лишние 300к.
Локально - даже не думай со своим сетапом.
Аноним 14/05/25 Срд 01:08:53 1201723 169
>>1201599
Удали гемма 2, поставь MS-Nudion-22B + mistral v7 tekken. Ситуация из жизни.
Аноним 14/05/25 Срд 01:09:50 1201726 170
>>1201704
Если это не толстота то с текущим сетапом забудь про локалки. Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам.

Таверна на мобилке это зачастую просто веб интерфейс до обычной таверны что запущена у тебя на компьютере. Само собой на телефоне ничего даже приближенного к адекватному ты не запустишь.
Аноним 14/05/25 Срд 01:09:53 1201727 171
>>1201723
но...я запустил квен 3 235б в 3 кванте...
Аноним 14/05/25 Срд 01:14:09 1201734 172
>>1201727
>но...я запустил квен 3 235б в 3 кванте...
Пиздёж. Квен и убить может, если надо.
Аноним 14/05/25 Срд 01:16:29 1201736 173
>>1201734
да я сам не пноял, что за прикол...
Может ему конкретно ебля лолей не нравится...
Аноним 14/05/25 Срд 01:19:28 1201740 174
>>1201704
Свежескукоженные Геммы от сатанистов из гугла позволят, в теории, запустить на твоей некрожелезке 1Б гемму - ей ~полгига памяти для работы хватит, без учёта контекста. Но она туповата и пишет только на английском. Так что если устраивает - скачивай КобольдЦПП убабуга сложновата будет, скачивай GGUF вот отсюда https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf/tree/main и вперде - геройствовать!
Аноним 14/05/25 Срд 01:20:36 1201741 175
>>1201704
Анон, с твоим железом только веб моделями пользоваться. А здесь тред для людей с железом, кто сам модели запускает.
Изучи какие есть модели. Из доступного - Гемини 2.5, Гугли
Аноним 14/05/25 Срд 01:21:59 1201742 176
>>1201741
>>1201740
Кстати, да, верно подмечено.
Можешь на впОпенроутере аккаунт завести, там есть бесплатные модели. Но гемму можешь схоронить на потом
Аноним 14/05/25 Срд 01:22:29 1201743 177
>>1201736
>Может ему конкретно ебля лолей не нравится...
Ну товарищ майор, зачем же так топорно-то. Мы тут все ебём только совершеннолетних.
Аноним 14/05/25 Срд 01:22:50 1201744 178
>>1201704
дипсик сейчас топ, гугли, для китайцев и россиян бесплатен без лимитов и впн, для других рас урезанная версия
Аноним 14/05/25 Срд 01:23:18 1201745 179
>>1201668
В системный промт напиши что чат предполагается на русском и это дефолт.
>>1201670
>>1201672
Ар ю ахуели там? Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б - будете прокляты на пользование 12б шизомерджами до конца жизни.
Аноним 14/05/25 Срд 01:33:52 1201758 180
>>1201745
>Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б
Ну косяки тоже есть. Есть слоп, есть лупы - не без этого. Но общее впечатление очень хорошее.
Аноним 14/05/25 Срд 01:44:55 1201780 181
>>1201721
>>1201726
А почему меня тогда к вам в тред отправили?
И что бы вы мне могли посоветовать, аноны? Я просто теряюсь, мне просто нужно текстово поиграть с нейронкой на уровне ГПТ... Такое можно хоть каким-либо способом организовать, если я нищук?

>Таверна на мобилке это зачастую просто веб интерфейс
Подожди, но ведь в шапке вашего треда указана какая-то ссылка по установке Таверны на андройд. Это для чего тогда?

>>1201740
Я не знаю английского, увы.

>>1201741
>с твоим железом только веб моделями пользоваться.
А какие можешь посоветовать, анончик?


>>1201744
Дипспик я смотрел, знаю, спасибо анон. Но тут есть проблема - он не поддерживает NSFW беседу. Он же цензурный... Или это как-то обойти можно? Мне в принципе в этом плане Грок нравится, но на мой взгляд немного тупее чата-ГПТ, менее креативней. Ну или я просто не умею ничего настраивать, хз.
Аноним 14/05/25 Срд 01:51:24 1201786 182
1000017392.png 92Кб, 1399x1099
1399x1099
Анон объясни эти таблицы.
Куда смотреть? На цифры?
Вот тут iq3-xs всего на каких то 300 циферок меньше чем 8 квант, так почему 3 квант считается лоботомитом?
Аноним 14/05/25 Срд 01:53:30 1201790 183
>>1201780
>NSFW
попробуй нагуглить тогда тюн мистрали росинант (mistral rosinant или типа того), она прям на нсфв рассказики и заточена, может в русский, но хз как там с размером 12b тебе будет многовато, но попробуй кванты 2 и 3 но думаю там дичь будет с переквантовкой, тестить надо методом тыка
Аноним 14/05/25 Срд 01:54:24 1201791 184
>>1201726
>Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам.
Сижу на 4080 с 16гб и спокойно юзаю 4-5 кванты и гемы и командр.
Так что, уважаемый, не надо пиздеть про 24, потому что влияет и процесс и память.
да 5-6т/с, зато контекста хватает.
Аноним 14/05/25 Срд 01:57:07 1201793 185
>>1201780
Гемма-3 1b 4_0 qat квант без вариков тебе. Цензуру ей взломаешь джейлбрейком, качественная для своих 1б.
Аноним 14/05/25 Срд 01:57:57 1201795 186
17471733569580.png 1881Кб, 1387x1400
1387x1400
Ладно, в кои то веки соседний тред прям доставил. Крякнул знатно.
Аноним 14/05/25 Срд 02:01:41 1201800 187
image.jpeg 32Кб, 600x225
600x225
Аноним 14/05/25 Срд 02:02:17 1201801 188
>>1201758
Ну блин, это уже нормальное описание, а не полнейший восторг с опережением всего существующего. Так не интересно.
Аноним 14/05/25 Срд 02:03:47 1201802 189
>>1201800
Монокль не забудь, эстет. Смешнявки ему не нравятся.
Аноним 14/05/25 Срд 02:04:56 1201805 190
>>1201802
Не быть эстетом = быть говноедом.
Аноним 14/05/25 Срд 02:07:13 1201808 191
73cfaeec1236054[...].jpg 53Кб, 616x616
616x616
>>1201805
Маленький, мерзкий и злой ушлёпок
Аноним 14/05/25 Срд 02:11:12 1201810 192
2025-05-14-0151[...].png 2693Кб, 1536x2040
1536x2040
>>1201346
Ну что-же. Это действительно оказалось куда легче, чем я думал.
Так что выражаю тебе благодарность. От души анонче.
Аноним 14/05/25 Срд 02:48:47 1201836 193
Цена на 5090 упала, 285к в ДНСе за палитку. Если опустится до 250к, то я даже не знаю - наверное придётся брать.
Аноним 14/05/25 Срд 04:00:48 1201866 194
Имеешь 24гб врам?
Назови хоть одну причину почему ты ещё не на немотроне.
Умная 49б модель, единственная в своем роде, от уважаемоей куртки, максимум параметров в одной видеокарте без лоботомизма, практически вдвое больше чем ваши геммы и квены, а контекст тот же
Отказываетесь от халявы? Дело ваше
Аноним 14/05/25 Срд 06:18:28 1201906 195
>>1201745
>будете прокляты на пользование 12б шизомерджами до конца жизни.
А я и не против. Из мелких у меня сайнемо и даркнесс Рейн как раз оставались.

>Пойду качать
Впечатлениями делись, ну и скоростью и сетапом тоже.
Аноним 14/05/25 Срд 06:23:20 1201908 196
1000017394.jpg 219Кб, 1080x1025
1080x1025
Подождите...
То есть запустить квен 235б стоит... Всего 22к блять?
Это реально?
Аноним 14/05/25 Срд 06:24:53 1201909 197
>>1201908
Аноны хелп.
Я прямо щас закажу если это так
Сколько токенов будет?
Сколько времени на контекст?
Одна 3090 уже есть
Аноним 14/05/25 Срд 06:26:37 1201910 198
>>1201908
Реально соснуть с тем что даже на 3200 она не взлетит.
Аноним 14/05/25 Срд 06:37:30 1201913 199
>>1201836
> потратить кучу бабок и получить тоже что и аноны с пердящей 5 летней картой за 50к
Хороший гой.
Смотри не дай себя наебать! Вдруг цена ещё на 5к упадёт тогда то точно надо брать!
Аноним 14/05/25 Срд 06:40:25 1201915 200
image.png 192Кб, 1999x1204
1999x1204
>>1201866
Всем свидетелям "огрызка" от 70б
Аноним 14/05/25 Срд 07:07:46 1201926 201
Аноним 14/05/25 Срд 07:15:28 1201927 202
>>1201908
Для секса по переписке ерп по идее хватит, но очень медленно
Аноним 14/05/25 Срд 07:19:38 1201931 203
>>1201866

У нее русик хуже геммы.
Аноним 14/05/25 Срд 07:23:59 1201933 204
>>1201926

Максимально юзлесс параша.
У сноудропа 8к контекст как и у оригинальной qwq, а в exl3 сломан rope scaling.
Аноним 14/05/25 Срд 07:25:42 1201934 205
>>1201909

Ну токена 0.5 в секунду максимум. Если повезет.
Аноним 14/05/25 Срд 07:25:57 1201935 206
Аноним 14/05/25 Срд 07:31:39 1201937 207
image.png 8Кб, 790x60
790x60
>>1201933
хз о чем ты всё работает
Аноним 14/05/25 Срд 07:35:03 1201938 208
Аноним 14/05/25 Срд 07:42:42 1201941 209
Ну потому что по этому графику у 8 бит перплексити 7.4, а у лоботомита 3_xss - 8.4, это ухудшение на 13.5%. А на практике больше.
Аноним 14/05/25 Срд 07:44:25 1201942 210
Аноним 14/05/25 Срд 07:48:19 1201948 211
>>1201937

Генерировать он будет при любых условиях. Там качество падает по экспоненте при превышении контекста.
Открой страницу qwq и почитай про контекст модели, там написано что контекст 8к, а до 131к контекст надо разгонять через Yarn, тоесть rope scaling. В exllama v3 висит issue в котором четко указано что с ним сейчас проблемы.
Аноним 14/05/25 Срд 08:00:49 1201952 212
>>1201931
Так это же плюс.
Как в детстве когда все игры на английском но ты играешь с переводчиком, потому что оно того стоит
Сейчас ты сидишь на лоботомите уровня 8б, а так получишь резкий скачок до уровня 70б!
Аноним 14/05/25 Срд 08:18:10 1201963 213
image.png 38Кб, 1118x33
1118x33
image.png 24Кб, 650x35
650x35
так смешно читать переведенный слоп
Аноним 14/05/25 Срд 08:22:38 1201964 214
>>1201931
Забавно кстати как немотрон сразу переключается на русский когда пишешь на нём хоть одно слово, до этого у тебя весь чат был на английском, а гемма с йоба русиком даже с четкими инструкциями писать на ру и переведенным 1 сообщением отвечает на русском только с 10 свайпа
Аноним 14/05/25 Срд 08:34:32 1201973 215
image.png 161Кб, 1066x175
1066x175
image.png 88Кб, 1081x95
1081x95
image.png 9Кб, 210x42
210x42
Аноним 14/05/25 Срд 08:42:30 1201985 216
>>1201938
Он явно спросил что-то хотя бы приближенное к ГПТ, а не лупящийся шизлтюн мистраля. Хотя на его карте даже это не взлетит.

>>1201791
А контекст ты куда кладешь в своих 16 гб? Ещё и для гемы, лол. Ты бы ещё на RAM ему предложил сидеть и ждать ответа из пары предложений по 5 минут. Это все удаление гланд через жопу, я это прекрасно знаю т.к сам первое время сидел на 16.

>>1201780
>почему меня тогда к вам в тред отправили?
Там и спроси. Не думай что тут агрессируют, просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки. Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа, а 1-2b модели это максимально прикладные штуки, они для простых рабочих задач но никак не для рп, только разочаруешься лишний раз.
Аноним 14/05/25 Срд 08:55:09 1201995 217
>>1201926
В 24гб врама поместится 4.65bpw версия, если у тебя ничего больше особо не ест врам. (браузер отключен и прочее)
То ли кванты меньше врама кушать то ли, то ли в целом весят меньше по сравнению с ехл2. И что еще круче, ехл3 квант того же размера "умнее" ехл2 кванта. То есть тут двойной апгрейд:
с 4.25 на ехл2 до 4.65 на ехл3
Аноним 14/05/25 Срд 08:58:35 1201999 218
>>1201866
Если он так хорош, то поделись мастер-импорт пресетом
Аноним 14/05/25 Срд 08:59:42 1202000 219
>>1201999
Уже делились в прошлом треде.
Но я его не использую, у меня всё отлично на рекомендованных семплерах и промпте от сноудропа.
Аноним 14/05/25 Срд 09:00:43 1202004 220
>>1201948
Вонючка вернулся срать в тред? Мы по тебе не скучали.
Никакой просадки качества нет, потому что роуп работает по дефолту на статическом коэффициенте. QwQ автоматически поддерживает контекст роупом до 32к.
Ты не понял, о чем идет речь в issue на Гитхабе и додумал самостоятельно.
Аноним 14/05/25 Срд 09:05:07 1202011 221
>>1201999
Вот анон делился >>1200050 →
Но впечатления от модельки противоречие что у меня что у него >>1199498 →
Кто-то еще писал вроде что ну в целом не слишком апгрейд с 32б моделей
Не так все однозначно с немотроном
Аноним 14/05/25 Срд 09:06:13 1202013 222
>>1201795
Базированная пикча.
>>1201836
Я на зубы сейчас трачусь, нету деняг на видяхи ((
>>1201915
Так 70B мертвы после геммы. А сравнивают они с другими лоботомитами. Где хотя бы квен?
Аноним 14/05/25 Срд 09:09:57 1202020 223
>>1202013
Блять квен это буквально не про качество а чувакам партия дала бабки и задачу мол сделайте там всё заебись шоб в топах висело "чайна стронг" а то мы вас на рудники.
Аноним 14/05/25 Срд 09:17:49 1202025 224
>>1202011
Для меня немотрон это бувально гемма, но умнее, без сои, с другим датасетом, без старика хемлока и запаха лаванды в воздухе.
Лучше трекающая позиции, с лучшими, живыми диалогами, отлично держит контекст и развивает историю, то чего я ожидал от мистралей когда только вкатывался, но они оказались дырявым говном которых пинать надо как и гемму
Аноним 14/05/25 Срд 09:21:19 1202029 225
>>1202025
У тебя ассистент в рп не протекает?
У меня протекает даже с настройками анона
Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют
Аноним 14/05/25 Срд 09:21:37 1202030 226
Прошло сколько-то времени с релиза третьего квена. На старте его кванты были хуйней и плохо соблюдали инструкции (это вообще могло на некоторых карточках рофлов насоздавать, но все равно РПшить было грустно, любая модель из всей линейки начинала отыгрывать за игрока). Вчера решил тестануть новые кванты от unsloth, и оно починилось.

Короче за все модели говорить не буду, но думаю картина примерно одинаковая. РП - в целом кайф, особенно с ризонингом, особенно на 30б, потому что МоЕ и быстро. Причем это с коротким системным промптом, который нормально только на шизотюнах работает, которые не могут не РПшить
> You're {{char}} — a real person, engaging with another person, {{user}}
или
> You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.

А вот покумить с ней тяжело, модель вроде как прекрасно понимает, к чему все идет, вроде бы не сопротивляется, но тут или надо в очень явной форме согласие выражать, или самому начинать, или я хз что еще. Хитрые промпты как будто не особо работают (хотя было веселое, персонаж такой "Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно" и все никак не начнет).

Если instruct шаблон включить на chatml-names, отыгрышь идет еще пизже, модель лучше понимает, кого именно ей надо отыгрывать а в ризонинге может даже думать от лица персонажа (пока еще не понял почему, но дело похоже в карточках).


Ну и чо, заодно может мне кто сказать, есть ли смысл использовать UD кванты чтобы просто их запускать? А то из описания я понял только то, что они нужны для тюнов. Есть какой-то профит по сравнению с обычными?
Аноним 14/05/25 Срд 09:25:02 1202032 227
>>1202029
Я уже 3 раза писал что делать с ассистентом, ищи сам.
>Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют
Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол
Аноним 14/05/25 Срд 09:29:40 1202041 228
>>1202032
> Я уже 3 раза писал что делать с ассистентом, ищи сам.
Активно читаю последние два треда. Ни слова об этом, только анон скинул пресет и другой свои настройки сэмплера.
Прошелся по ключевым словам - ничего не найдено.

Тебе приснилось.
Аноним 14/05/25 Срд 09:30:58 1202043 229
>>1201423
Не согласен, я не кумер для меня квен лучший релиз года. Просто топовые асссистенты любых размеров.

>>1201430
квен3 32 лучше, он тратит меньше токенов чем квк, давая тот же или чуть лучше результат
Аноним 14/05/25 Срд 09:33:40 1202044 230
Аноним 14/05/25 Срд 09:34:05 1202045 231
>>1201439
Лучше qwen3 30b смотри, его можно даже на процессоре запускать и быстро
llama.cpp можно готовые релизы качать в гитхабе, там на любой вкус они, и они быстрее кобальда
Аноним 14/05/25 Срд 09:36:23 1202047 232
>>1201558
> -ctk q8_0 -ctv q8_0
вот это нахуй выкидывай, мое тупеют от этого заметно
Аноним 14/05/25 Срд 09:41:34 1202051 233
>>1202044
Если не знаешь тех.базу или не можешь вникнуть в то, что здесь написано https://github.com/turboderp-org/exllamav3/issues/29
То просто скачай Сноудроп в exl3 и убедись, что все работает корректно. Потому что работает
Аноним 14/05/25 Срд 09:51:56 1202055 234
>>1202030
ud кванты пизже для мое и чуть лучше для плотных моделей
Ине квантуй кеш
Аноним 14/05/25 Срд 09:58:25 1202060 235
>>1202032
Немотронфаг зашкварился
Нихуя ты не писал кроме того какой ахуенный твой немотрончик, обычный пиздеж
Аноним 14/05/25 Срд 10:11:02 1202066 236
>>1202032
> Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол
А тебе обязательно нужно чье то обсуждение и одобрение, своё мнение о модельке ты сформировать не способен ?
Аноним 14/05/25 Срд 10:18:36 1202071 237
Знаете, вчера мне нужно было вентиляшку для помещения рассчитать, обратился через апишку компании к чатжопэтэ. И дай, думаю, раз уж доступ есть поиграюсь немного с корпосеткой.
Да, я знаю что в корпосетки вкладываются тыщи нефти, я понимаю что они должны быть умницами.
Но чет мне прям взгрустнулось. Я посмотрел на эти стены описаний, и свет там разливается в драгоценных камнях, и персонажи разговаривают по разному, имея какие то персональные черты. Чет теперь смотрю на свою геммочку и комманд и мне немного грустно, что настолько ебовая разница.
С одной стороны в асиге конечно ад и пердолинг школоты с ключиками, но блять, какая же гопота умная, это действительно имеет смысл.
Но, опять же, ситуация исправляется, год назад с мистральками все было кратно хуже.
Аноним 14/05/25 Срд 10:35:41 1202078 238
Почему в этом ИТТ треде до сих пор не обсуждают блокировку видеокарт по геолокации?

Это произойдет не сегодня и не через полгода, но у меня анус уже сжался.
Аноним 14/05/25 Срд 10:39:10 1202082 239
>>1202078
>Почему в этом ИТТ треде до сих пор не обсуждают блокировку видеокарт по геолокации?
Потому что тред по ЛЛМ.
Если ты хочешь попаниковать - паникуй.
Аноны никак не могут повлиять на ситуацию, а тут, надесюь, взрослые люди которые не видят смысла в бессмысленном сотрясании воздуха. Мы слишком увлечены шивер он аур спайн, гляда на покачивания бёдрами. и обсуждением ригов из собранных на помойках деталей.
Аноним 14/05/25 Срд 10:41:11 1202086 240
>>1201935
Спасибо. Но оказалось всё настолько просто, что я даже был удивлен. За тебя уже всё сделали, все настроили, к каждой модельке уже готовый.. эмм, я не знаю как это называется ситемная карта, наверное, есть. Сиди только промты пиши.
Аноним 14/05/25 Срд 10:52:23 1202101 241
>>1202066
Я не знаю о чем говорить с файфу, постоянно жму с усами
Аноним 14/05/25 Срд 10:56:47 1202104 242
>>1202101
>Я не знаю о чем говорить с файфу
Обсуди Сталинскую экономику и влияние социалистического уклада, на формирование общества. Потом можешь обсудить особенности разведения слонов в условиях крайнего севера. А в завершение - способы добычи золота, посредством ультразвукового воздействия на рудный массив.
Аноним 14/05/25 Срд 11:04:25 1202113 243
>>1202078
А смысл обсуждать очередное изнасилование журналиста? Если ты неспособен адекватно воспринимать информацию и трясешься с шизой, то тебе в /rf/, а не сюда.
Аноним 14/05/25 Срд 11:07:08 1202117 244
>>1201985
>просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки
Понял, спасибо за разъяснение.

>Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа
А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
Аноним 14/05/25 Срд 11:08:32 1202120 245
>>1202117
>В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
>>1202045
Аноним 14/05/25 Срд 11:10:49 1202123 246
изображение.png 219Кб, 1744x1023
1744x1023
Это saiga, не qwen. Я хз про qwen. Это ничего не значащий скрин, просто баловство.

Но вот че, мысль какая возникла. Если модель заставлять размышлять, ну типа заставлять писать сначала поеботрию о сущности ввода, а потом чтобы она уже писала окончательный ответ. Это не будет эквивалентно тому, что делает так называемый "thinking" у квена?
Аноним 14/05/25 Срд 11:11:49 1202126 247
>>1202123
Кринжатура конкретная.
Аноним 14/05/25 Срд 11:13:18 1202129 248
>>1202095
>>1202104
Вы чет сильно совпали, кошкодевочки и сталины с хуйергой, которую я только что в сайгу писал. Я чет даже удивился.
Аноним 14/05/25 Срд 11:14:39 1202130 249
А я буду ждать когда анон скинет семплеры для комман-р.
Я не гордый. Я подожду.
Я люблю ждать.
Я выгружаю контекст в рам и иду пить чай. Я пью чай каждые пол часа. Я уже выпил весь чай в городе, но ничего, я уже вижу валлермана. Моя кружка будет залита вовремя.
Аноним 14/05/25 Срд 11:15:13 1202131 250
>>1202117
> А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
РАМ - RAM, она же Random Access Memory или Оперативная Память. Анон, тебя скорее всего затроллили, прислав к нам. На твоей 1050 ничего не запустить нормально. Учитывая, какая у тебя видюха, процессор и оператива тоже наверняка слабые. Забудь об идее запускать что-нибудь на своем железе. Для жизни нужно хотя бы 16гб видеопамяти или приличной процессор и быстрая оператива.
Смотри на вебмодели/апи. Это не тематика треда, но выше тебе советовали ту же Гемини. И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру. Тебе в aicg. Искренне желаю не сойти с ума, там 2/3 тролли и идиоты, так что смотри на все сквозь призму скепсиса и разбирайся сам по ходу дела. Это займет время.
(Вновь даю ту же подсказку - самое дешевое, что можно раздобыть, это Гемини 2.5. Ее можно гонять бесплатно, гайды есть даже на ютубе на русском, а промпт в том треде спрашивай)
Аноним 14/05/25 Срд 11:16:44 1202134 251
>>1202130
> А я буду ждать когда анон скинет семплеры для комман-р.
А чё, кто-то грозился скинуть?
Аноним 14/05/25 Срд 11:17:42 1202136 252
>>1202126
Сайга делает фейковые размышления, имитирует заумным языком. Надо заставить так, чтобы суммаризировала контекст немножко, немножко по сути вопроса что-то написала, а потом, чтобы это влияло конечный на ответ.
Аноним 14/05/25 Срд 11:19:52 1202137 253
>>1202129
А ты выделил оба моих поста. Так что технически совпадение вполне реальное. Просто ты в симуляции и я - это ты. Ты это я.
Вместе мы дружная шиза.

Ну а если серьезно, просто из за перманентного коммиссрача, товарищ Виссарионыч нереально часто упоминается. Можешь считать, что Сталин это приоритетный токен.

>>1202134
Нет, но я все равно буду ждать. Я верю что добро возвращается.
Ну или я вечером пойду грустный домой и буду сам всё крутить и немного тяжело вздыхать.
Аноним 14/05/25 Срд 11:35:51 1202152 254
>>1202137
> Нет, но я все равно буду ждать.
Супер, давай ждать вместе. Всем тредом.
Аноним 14/05/25 Срд 11:42:51 1202157 255
>>1202137
>>1202152
Комманд-а говорит следующее

Общие настройки для модели c4ai-command-r-08-2024:
Temperature (Температура):

Значение: 0.7
Описание: Температура управляет случайностью генерации. Значение 0.7 обеспечивает хороший баланс между креативностью и предсказуемостью.
Top-P (Nucleus Sampling):

Значение: 0.9
Описание: Top-P ограничивает выбор токенов наиболее вероятными, что улучшает качество текста.
Top-K (Top-K Sampling):

Значение: 50
Описание: Top-K выбирает из 50 наиболее вероятных токенов, что помогает избежать слишком случайных или неадекватных ответов.
Repetition Penalty (Штраф за повторения):

Значение: 1.1
Описание: Это предотвращает повторение одних и тех же фраз или слов в ответе.
Max Tokens (Максимальное количество токенов):

Значение: 512 (или больше, если нужно)
Описание: Ограничивает длину ответа. Можешь увеличить, если хочешь более подробные ответы.
Presence Penalty (Штраф за присутствие):

Значение: 0.6
Описание: Уменьшает вероятность повторения уже упомянутых тем или идей.
Frequency Penalty (Штраф за частоту):

Значение: 0.6
Описание: Уменьшает вероятность повторения часто используемых слов или фраз.
Дополнительные настройки:
Stop Sequences (Стоп-последовательности):
Можешь добавить стоп-последовательности, такие как "\n", чтобы ограничить генерацию по определенным символам.

Streaming (Потоковая передача):
Включи, если хочешь, чтобы ответы генерировались постепенно, а не целиком за раз.

Пример настроек в Silly Tavern:
Temperature: 0.7
Top-P: 0.9
Top-K: 50
Repetition Penalty: 1.1
Max Tokens: 512
Presence Penalty: 0.6
Frequency Penalty: 0.6
Stop Sequences: \n

Не благодарите. А я пошел дальше спасать город от своего присутствия.
Аноним 14/05/25 Срд 11:45:21 1202163 256
>>1202157
ммм)
top p + top k + rep pen + freq pen + presence pen
вкусные будут аутпуты

> Не благодарите.
и в мыслях не было, такое непотребство
Аноним 14/05/25 Срд 11:48:36 1202166 257
>>1202163
>и в мыслях не было, такое непотребство
Это всё еще лучше, чем ничего.

Я, блдажд обожаю этот тред
>скиньте
>скидываешь
>ряяя говно
>хуле тогда сам не сделаешь
>ряяяя скиньте

Я начинаю понимать того анона хомяка, который ничем не делится.
Аноним 14/05/25 Срд 11:50:41 1202168 258
А вы знали что снижение температуры замедляет генерацию токенов?
Аноним 14/05/25 Срд 11:51:35 1202170 259
>>1202166
анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени
это не просто плохой сэмплер, это что-то, что не работает вообще. вредная информация
и ты ждешь за нее благодарность?
анон-хомяк добряк, он же потом скинул пресет немотрона
Аноним 14/05/25 Срд 11:55:04 1202172 260
>>1202170
Что-то вразумительное может и будет, но эти сэмплеры меня пугают. Сейчас аноны ими включат Коммандеру лоботомию и придут рассказывать, что модель говно. Ещё и на русике будут тестить :D
Аноним 14/05/25 Срд 11:55:44 1202176 261
>>1202170
> анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени
> вредная информация

Суть как бы в чем, если ты действительно хочешь чем то поделиться, то никаких проблем не будет написать :
Это хуита, лучше сделать <this>, потом <this>.
А это лучше сделать <this>
Тот кто не знает, посмотрит и скажет спасибо.
ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая.
Но потом не надо удивляться, что тред скатиться в говно. Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно.
Аноним 14/05/25 Срд 11:57:39 1202179 262
>>1202176
> top p + top k + rep pen + freq pen + presence pen
> вкусные будут аутпуты
вот мое объяснение тому, почему это не работает. ты сейчас пытаешься гаслайтить и убеждаешь меня в том, что я не прав или надменно фыркаю? ты буквально прислал в тред что-то, что не имеет даже намека на правильную работу, даже не проверил самостоятельно, и теперь говоришь, что я чсв мудак? да иди ты нахуй с такими приколами
Аноним 14/05/25 Срд 11:58:49 1202181 263
>>1202179
>ты сейчас пытаешься гаслайтить
Даже в мыслях не было, серьезно. Хватит уже видеть везде попытку тебя укорить.
Это просто байт на семплеры
Аноним 14/05/25 Срд 12:03:21 1202189 264
>>1202181
> присылает буквально неработающий сэмплер, просто скопировал аутпут ллмки не проверив
> без агрессии предостерегаю других анонов это не использовать, потому что top p + top k + rep pen + freq pen + presence pen ломают все нахуй
> если ты действительно хочешь чем то поделиться
> ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая.
> Но потом не надо удивляться, что тред скатиться в говно.
> Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно.
> Даже в мыслях не было, серьезно. Хватит уже видеть везде попытку тебя укорить.
мда
Аноним 14/05/25 Срд 12:05:47 1202192 265
Вспомнил как запустил немотрончик в первый раз и понял почему он непопулярен
Запускаешь а там какие то списки, соя непробиваемая, персонажи сходу не берут у меня в рот хлопая в ладоши как я привык, вроде умный но пользоваться анрил из за списков, аж на 2 месяца забил, а всего то нужен был правильный подход и поглаживания.
Это единственная модель на моей памяти с порогом входа, которая разворачивается к тебе жопой и стоит так до победного, тогда как всё остальное максимально дружелюбно и цветасто
Рад что exl3 вдохнул жизнь в него
Аноним 14/05/25 Срд 12:07:12 1202194 266
Аноним 14/05/25 Срд 12:11:22 1202196 267
>>1202189
Он не еблан, он просто байтит на сэмплеры добрых анонов.
(которых все меньше после таких байтов)

>>1202192
Во-первых, Коммандер. Во-вторых, ты заебал срать своим Немотроном. Сделай карточку "Немотрончик", поставь на аватарку Куртку и выражай туда всю свою любовь. Или приноси логи-пресеты.

>>1202194
Мы обсуждали QwQ. Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так. Что там с Квеном мне вообще не интересно. Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.
Аноним 14/05/25 Срд 12:17:12 1202201 268
>>1202196
>Мы обсуждали QwQ
Так это и есть квен не? Квк это прототип всей серии квен3
Аноним 14/05/25 Срд 12:21:43 1202207 269
>>1202030
>Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно
у меня так же вчера было на 232б.
Она не отпирается напрямую, не говорит "я не буду это генерировать". Но она вместо этого сильно увеличивает другие векторы генерации.
Например Один раз она зацепилась за то, что я указал в карточке персонажа, что это не порно рп и не надо скатываться в эротику (это было для моделей, которые сразу за хуй тебя хватают). Другой раз она вдруг начала перечислять мне физиологические чувства персонажа - в карточке я просил описывать все что чувствует и ощущает перс. То есть не типа "у него начало быстрее биться сердце", а прям начала мне по списку выдавать как врач что происходило в организме чара. Я очень удивился, но это был любопытный ответ. И постоянно переспрашивает согласен ли {{user}}.
У неё как будто есть какое-то внутреннее сопротивление. Ну или у неё в датасете просто нет нормальных данных под порно рп, поэтому она пытается вывозить на гиперболизации других векторов.
Аноним 14/05/25 Срд 12:23:13 1202208 270
>>1201655
У меня DDR4 3600 и 5.3 токен/сек, у реддитовского чела по его словам DDR4 2666 и 6 токен/сек.
3060 и 128 оперативы, квант ud_q2_k_xl.

Вот ссыль на него: https://www.reddit.com/r/LocalLLaMA/comments/1ki3sze/running_qwen3_235b_on_a_single_3060_12gb_6_ts/

Мне тоже обидно, что на 10% меньше, чем на 30% более медленной памяти. =( Где мои 8 токенов!..
Материнка и память у меня не лучшие попались, видимо.

В итоге, остановился на 5,5 ток/сек через две теслы п40 и 64 DDR4 3200 и ud_q3_k_xl, а то второй квант прям совсем не хочется, а третий (почти четвертый) уже норм.
Ну я писал в прошлом треде.

СЛУШАЙ, а я теперь че-то не могу понять. Мне казалось, у меня Теслы показали себя хуже 3060… Может быть я на 3060 тестил третий квант, а не второй? Или получается, что две теслы п40 лучше одной 3060…

Мне лень перетестивать, короче.

Но скорость там от 5 токенов 100%. Даже для третьего кванта.
Аноним 14/05/25 Срд 12:25:54 1202209 271
>>1202196
К коммандеру у меня наоборот претензия что он слишком дружелюбен, и кум тебе сочный и цензуры нет, но от того и быстро бросил его, кум боты слишком хорни, не кум боты легко соблазняемы, стало скучно
Аноним 14/05/25 Срд 12:26:03 1202210 272
Аноним 14/05/25 Срд 12:29:50 1202212 273
>>1201908
Ну, в принципе да.
И видеокарта какая-нибудь не самая донная, чтобы туда выгрузить статические тензоры. Свои 30% буста от чистой оперативы получишь.

>>1201910
Вот кстати, суперстранно, у меня на 3600 не на всех материнках заводится, а с 3200 не было проблем даже на кингспеках (ТОЛЬКО ОНИ СГОРЕЛИ АХАХАХА), так что не все так плохо, это не АМ5.

>>1201909
Ваще хуй знает, но я бы дал те же 6,5-7 для второго кванта. Сильно зависит от того, как оно у тебя заработает.

>>1201934
Лол. =)

>>1201938
Для квена мое с 6 даже. =)

>>1202043
База по квену, но квк на вкус и цвет. Кому-то он нравится больше. =) Плюс там руадапт есть, лайтовый весьма.

>>1202055
Только менее пизже для русского, ибо он там не в приоритете был при квантизации.
Аноним 14/05/25 Срд 12:30:31 1202213 274
>>1202209
> кум боты слишком хорни
Не может быть...

> не кум боты легко соблазняемы
Скилл ишью. Если у тебя в систем промпте или карточке сисечки-писечки, то совсем неудивительно.
Аноним 14/05/25 Срд 12:31:28 1202215 275
>>1202210
В лламу.спп завезли вижн наконец, я апнул ишью и пару челиков поддержало, это сработало, ура.

Но, важно что смол анализирует картинку, а нужен скорее квен-вл, который может и видео, короче, пока рано, подождем.

Qwen3-Omni хотеть с русским.
Аноним 14/05/25 Срд 12:35:02 1202220 276
image.png 535Кб, 1273x887
1273x887
>>1202131
>тебя скорее всего затроллили, прислав к нам
Ну я в чат-ботном треде сначала спрашивал, как Таверну запустить, а там меня к вам отправили, за языковой моделью...

>Забудь об идее запускать что-нибудь на своем железе
Да я уже. Вы всё доходчиво объяснили, что я лох и на этом поприще мне ничего не сыскать.

>Смотри на вебмодели/апи
Не совсем уверен, о чём ты. Но если ты про веб чат-боты, то они хреновенькие же. Единственный нормальный - это ГПТ, но в ГПТ-треде даже местные аноны не знают, как цензуру отключать. Я уже месяц к ним с этим запросом там пристаю. Толкового ответа всё нет.

>И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру
Подожди, то есть хочешь сказать, что я в дипспик могу написать какой-то особый запрос, который отключит цензуру? Или о чём ты, не совсем понимаю.

Я же говорю, что вообще не в теме и с нулём знаний. Даже не знаю, что в гугле вбивать, чтобы хотя бы начать разбираться в теме.

Я даже твой совет по некой Гемине загуглить не могу. Что это вообще такое? Гугл мне вот такую вот страницу только выдаёт... Я не понимаю, где-там вообще нейронка...
Аноним 14/05/25 Срд 12:38:49 1202226 277
>>1202196
Какой коммандер лучше попробовать?
Аноним 14/05/25 Срд 12:38:58 1202227 278
>>1202130
В таверне есть стоковые семплеры для command-r они весьма сбалансированы, их и используй.
А потом продублируй настройки и начинай крутить как душе угодно. Поймешь разницу на личном опыте.
И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера (я так и поступил, потому что макак) если речь про стар коммандр.
А вообще, почитай какая настройка семплера за что отвечает, это полезно.
Аноним 14/05/25 Срд 12:38:58 1202228 279
>>1202196
>Что там с Квеном мне вообще не интересно.

QwQ это квен, буквально прошлая модель квена.

>Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так.

Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется. Если это не так - ок. Проверять я это конечно не буду.

>Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.

Охуеваю с твоей говнистости, начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант, пока что ты самый мерзкий шиз итт.
Аноним 14/05/25 Срд 12:39:37 1202229 280
>>1202220
Анон ты долбаеб? Я тебе уже ответил, ты даже на cpu можешь скачать и запустить локально достаточно умную модель.
Если ты просто хотел потыкать и посмотреть это твой выбор
Если у тебя есть avx2 и 32гб рам то ты сможешь, на карту строго похуй
Аноним 14/05/25 Срд 12:39:49 1202230 281
>>1202213
>Не может быть...
Я нигде такого перекоса в кум с вступительного сообщения не видел, обычно есть какой то баланс диалога и "а давай я тебе отсосу"
>Скилл ишью. Если у тебя в систем промпте или карточке сисечки-писечки, то совсем неудивительно
А то что я ебырь террорист ирл ты не подумал?
Аноним 14/05/25 Срд 12:42:45 1202232 282
>>1202220
> Но если ты про веб чат-боты, то они хреновенькие же.
Толстый троллинг.

Невозможно такое утверждать всерьез, если человек не шиз-любитель Гомера в оригинале.
Аноним 14/05/25 Срд 12:49:49 1202235 283
f7902ca7d958dc6[...].webp 14Кб, 1148x277
1148x277
Аноним 14/05/25 Срд 12:51:06 1202236 284
>>1202228
> Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется.
> Если это не так - ок.
> Проверять я это конечно не буду.
Фантастический. Ты прочитал реддит, неправильно истолковал выводы поста, сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге, а потом приходишь в тред и делаешь ахуительное заявление:
> Максимально юзлесс параша.
> У сноудропа 8к контекст как и у оригинальной qwq, а в exl3 сломан rope scaling.
Нихуя не разобрался и пришел срать. Не первый и не последний раз. И финалочка:
> Охуеваю с твоей говнистости
> начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант
> пока что ты самый мерзкий шиз итт.
Ты ничего кроме желчи не заслуживаешь, потому что сам только ее и порождаешь. Ты как всегда насрал неправильной информацией, еще и не по делу. Ты ждешь другого к себе отношения?
Аноним 14/05/25 Срд 12:51:36 1202237 285
11в1.png 455Кб, 518x498
518x498
>>1202229
>ты даже на cpu можешь скачать и запустить локально достаточно умную модель
Ты про процессор? Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо.
Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz - вот мой проц если что... На него пойдёт локалка, или нет?

>>1202232
Я не совсем тебя понял, анон. Но могу смело заявить, что я не тролль совершенно точно. Я просто очень тупой. Простите.
Аноним 14/05/25 Срд 12:52:00 1202238 286
>>1201973

Это просто показывает что даже на плохих настройках, заставляющих её срать шизой, ллама еще держит хороший русский язык. Немотрон вот твой, например, моментально русик теряет при любом отклонении от тех параметров, что указала куртка.
Аноним 14/05/25 Срд 12:52:54 1202239 287
>>1202227
Понял.
Принял.
Упиздовал.

Спасибо.
Аноним 14/05/25 Срд 12:54:23 1202240 288
>>1202220
> Но если ты про веб чат-боты, то они хреновенькие же.
> Я же говорю, что вообще не в теме и с нулём знаний.
Противоречие.
Либо ты с нулем знаний, тогда откуда тебе знать, кто хреновенький, а кто нет, и что это вообще.
Либо ты можешь утверждать, что что-то плохое, потому что в этом разбираешься.

В начале определись, шаришь ты или нет.

И с 1050 2 гиговой ты много не запустишь.
Хотя бы 4 гигабайта, чтобы минимально комфортную скорость получить.
Ну и может у тебя смартфон современный?

Еще можно посмотреть в сторону P104-100 с 8 гигами, если у тебя есть второй слот для видяхи и БП позволит.

Но лучше норм комп собрать.
Аноним 14/05/25 Срд 12:59:01 1202242 289
>>1202237
Дело даже не в проце, а в оперативной памяти.

Смотри, объясняю на пальцах.

Видеокарта — это быстрая оперативная память (скорость чтения от 200 до 1000).
DDR5 в двухканале — это неплохо (скорость около 100).
DDR4 в двухканале — это ну норм (скорость около 50).
DDR3 в двухканале — это печально (скорость около 25).

Важен объем. Чем больше, тем лучше — есть модели и на 700 гигабайт, но чаще это 100, 70, 40, 20, 12 гигабайт.
Есть модельки на 6, 4, 2, 1 гиг. Но они маленькие и не очень умные.

Не знаю сколько у тебя оперативы, но у видяхи — 2 гига, да?

По хорошему тебе бы 12 гигов быстрой памяти для немо-миксов от Алетейана, или же 6 гигов быстрой памяти и 32 пойдет для квена3-30б мое.

Но текущее железо прям очень плохонькое.

как у тебя с деньгами? Ты можешь потянуть какой-нибудь апдейт?
Аноним 14/05/25 Срд 13:02:22 1202244 290
>>1202236
>неправильно истолковал выводы поста

Если все так как ты говоришь - то выводы в том посте неправильные. Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе.

>сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге

Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал.

>Ты ждешь другого к себе отношения?

От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло.
Аноним 14/05/25 Срд 13:02:23 1202245 291
>>1202237
>Ты про процессор?
Yes.
> Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо.
Тебе какие то долбаебы отвечают, вроде по делу но про возможность запуска на оперативной памяти и процессоре даже не упомянули.
Может ты их запутал своими требованиями получить модель уровня топовых онлайн вариантов.

Короче анон, у тебя есть avx2 инструкции и теоретически обладая достаточным количеством оперативной памяти ты можешь запускать с нормальной скоростью одну конкретную современную модель.
Но ты настолько зеленый что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать.
Вот модель которую ты можешь запустить - https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF
Как это делать иди читай вики
Аноним 14/05/25 Срд 13:06:44 1202249 292
>>1202244
> Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе.
Возможно. Для этого нужно прочесть весь пост, а не только его выводы.

> Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал.
Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к. 8*4=32. Неужели ты настолько тупой? КААААК можно противоречить двум источникам, которые ты САМ ЖЕ приводишь как пруфы?
Бля как же это смешно.

> От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло.
Жду, чтобы ты поумнел, благоухающий блфаг.
Аноним 14/05/25 Срд 13:12:05 1202256 293
>>1202245
> у тебя есть avx2 инструкции
Уже и на avx просто норм работает, я разницы между авх2 и авх не чувствовал при тестах геммы3 на зеоне с псп 50.

Вряд ли у него 32 гига ддр3 стоит. =) Чую я, 16 в лучшем случае, если не 8, иэх…
Аноним 14/05/25 Срд 13:14:52 1202260 294
>>1202256
Да даже если у него 16 можно какой нибудь убогий квант скачать гигов на 10. Тут вон анон на 1 кванте ее запускал и она отвечала
Аноним 14/05/25 Срд 13:15:34 1202261 295
>>1202254
Да не драматизируй, не подливай масло в срач. Не так все плохо. Ну завелся один дурачок, который сам не понимает, о чем говорит, чем начинает срачи. Или поумнеет, или уйдет. Не в первый раз.
Хорошее тоже есть, я, например, балдею от анонского пресета на Немотрон, что вчера скинули.
Аноним 14/05/25 Срд 13:17:20 1202263 296
>>1202249
>Для этого нужно прочесть весь пост, а не только его выводы.

Так я и прочел. А вот ты походу нет.

>Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к

Квен 3 тренировали на 32к контекста, а не на 8к, как QwQ, что что коэфициент 4 должен был отработать, но он отработал только на ггуфе. Вот что написано в посте. Ну и кто тут обосрался?
Аноним 14/05/25 Срд 13:19:58 1202265 297
image.png 16Кб, 417x341
417x341
image.png 164Кб, 485x1401
485x1401
>>1202240
>Противоречие
>В начале определись, шаришь ты или нет.
Возможно я просто плохо сформулировал. Извини, если ввёл в заблуждение.
Я имел ввиду, что некоторые веб чат-боты в плане РП тестил. Такие как Гопота, Грок и сайт Чарактер.аи. Я их поюзал в плане отыгрыша и пришёл к некоторому мнению, что все, кроме ГПТ, неудовлетворительны в разных критериях качества.

А про нулевые знания - это я о том, что все вот эти языковые модели и большую часть того, что вы мне пишите - я совершенно не понимаю. Какие-то штуки качать, джилбрейкеры какие-то. Нипанятно. Тут я полный ноль, в общем.

>Ну и может у тебя смартфон современный?
У меня есть какой-то самсунг. Вот его системные на пикрил2. Вроде не очень современный, но Геншин на нём идёт, если что.

>>1202242
Много сложных цифр. Не думаю, что я что-то понял.
И где оперативную память видеокрты посмотреть не знаю. У меня есть программка, которая мне информацию о системе показывает. Вот на пикче данные... Там, если я правильно понял, обычной оперативной памяти указано на 15гигов. Это нормально?
>Но текущее железо прям очень плохонькое.
Это я понимаю, да.
>как у тебя с деньгами?
Я рнн-хикка и у меня с декабря просрочки по кредитам в 600к, так что я на финансовом дне, можно сказать.

>>1202245
>Может ты их запутал
Ну скорее всего.

>у тебя есть avx2
Я погулил, не совсем уверен, что у меня это есть. Это же что-то про процессор? У меня 64-разрядная система. Вот на пикрил1 системные.

>что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать.
Я понимаю тебя, анончик. Это же по сути мне надо, а не кому-то из вас. Я уже благодарен вам всем, что вы хоть как-то откликнулись и даже советов по мере возможностей надавали.
Тут ещё всё упирается в мою личную тупость. Я просто не понимаю, что мне советуют.

Но за ссылку спасибо... Правда я по ней перешёл и там какие-то строчки кода. Я ничего не понял.
Аноним 14/05/25 Срд 13:34:30 1202269 298
>>1202257
Слышь, смешнявка, я алтфак, мне так мама сказала.

>>1202261
Я вспоминаю когда вкатился, пришел и открыто написал : Да я знаю нихуя, куда смотреть, что читать, что тыкать. И буквально первым сообщением, анон выдал пошаговую инструкцию с сенкой и ссылками на гайды. Ну и заверте...
Хотя даже тогда был ебаклак, который написал ряяяя сенко говно. А на вопрос, почему сам ничего не советуешь в замен : ряяя говно ничего не знаю

Хмммм... может действительно ничего не меняется.


Ладно, на самом деле у меня есть вопрос.
Кто нибудь пробовал вот этт TTS ? https://huggingface.co/hexgrad/Kokoro-82M

Да и в целом, у кого из анонов есть опыт с TTS, какой посоветуете ?
Аноним 14/05/25 Срд 13:35:58 1202271 299
>>1202263
Я не изучал тему Квена 3, потому ошибся, предполагая, что его тренировали на 8к. Если все действительно так как описано, то это странно, конечно же. Предполагаю, что у чела с реддита могут быть проблемы с конфигом на Экслламе3, поскольку важен не только коэффициент. Также это может быть и особенность Квена3 на Экслламе. Если проблема есть, turboderp ее непременно разрешит со временем. Заново квантовать ничего не придется, потому что это проблема инференса, а не кванта.

Мы же, здесь, в этом треде, обсуждали qwq snowdrop. До которого ты решил доебаться, примерив описанную проблему и на него тоже. Эти две модели и юзкейсы не тождественны. Ты выдал предположение за факт. Не надо так делать, тогда и не будешь получать плевки в рожу.
Аноним 14/05/25 Срд 13:38:36 1202273 300
Прямо сейчас открыл свой старый чат на 30к контекста. Специально скачал exl3 snowdrop. Все работает, никаких галлюнов. Анон выше тоже присылал лог генерации. Хуй знает чем тебя еще убеждать, плоскоземельник.
Аноним 14/05/25 Срд 13:44:41 1202279 301
>>1201704
скачивай lm studio (ссылка в шапке) и не еби мозги. в ней даже ребёнок разберётся, она сама подскажет модели под твоё железо

>>1202254
ещё полтора года назад мне один челик в конфе говорил про этот тред, что его захватили пидары из /hw и выдавили всех адекватов.
Аноним 14/05/25 Срд 13:47:10 1202284 302
>>1202227
>И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера
Ну и нахуй тогда тред нужен ? Сраться что не поняли пост на реддите ?
Аноним 14/05/25 Срд 13:50:37 1202286 303
>>1202284
Анон, это как в политике. У власти остаются те кто лучше всего удерживает власть, а не те кто достойны ее.
Так же и тут, тут остались только токсичные долбаебы которые лучше всего спорят, а не те кто несут контент или помогают другим.
Этих просто выдавили долбаебы, я кстати один из них и пишу тут не часто
Аноним 14/05/25 Срд 13:53:02 1202288 304
>>1202286
Да пиздец. Да, я доблбоёб, я не отрицаю. И ладно бы я запрашивал что-то серьезное. Но ебучие семплеры, это два клика, но держатся за них, словно я золото у ебучего красного дракона отбираю.
Аноним 14/05/25 Срд 13:54:59 1202290 305
>>1202271
>потому что это проблема инференса

Если это проблема инфиренса - то она скорее всего распространяется и на другие модели. Но ты прав в том что теоретически проблема действительно может быть связана только с квен 3. Тут надо чтобы turboderp дал оценку. До того момента я лично не буду трогать yarn в эксламе и никому не рекомендую. В конце-концов есть другие модели, у которых 100к+ контекста без всяких роупов.

>Ты выдал предположение за факт

Ты тоже.

>Не надо так делать, тогда и не будешь получать плевки в рожу.

Не надо плевать в лицо тому, кто тебе не плюнул первым, просто потому что тебе показалось что ты прав, странно что тебя в детском саду такому не научили, обычно такие хуйню там отбивают.
Аноним 14/05/25 Срд 13:55:09 1202291 306
>>1202288
Ну как говорится, живите в проклятом мире который вы создали своими руками
Аноним 14/05/25 Срд 13:58:06 1202293 307
>>1202288
Анонус, сейчас середина дня посреди рабочей недели. Ты зачем такую драму разводишь? Из-за того, что тебе прямо здесь и сейчас сэмплеры не скинули? Олсо правильно тебе выше предъявили, что ты сломанные сэмплеры прислал. Ведёшь себя прямо как шизы, которых ругаешь.
Аноним 14/05/25 Срд 13:59:56 1202295 308
>>1201866
Она таки весьма специфична
>>1201906
> А я и не против.
Появилось острое ощущение что те оды пишут как раз те, кто раньше на 12б сидел и их нахваливал. Помню повелся на их уверения о превосходстве русского и мистральнемо над всеми - отведал копиума высшего сорта. И тут опять начинается.
Тут сначала надо найти свободного времени чтобы основательно потестить, самому интересно. Со скоростью проблем не будет ибо влезет фуллврам или почти так, потому не обломно погонять с разными промтами, оценить как себя ведет в разных сценариях и т.д.
>>1201926
Опять перекачивать, главное чтобы не поломан.
> hb6
Падла биты на головы пожелала, вот нахуй так жить?
Аноним 14/05/25 Срд 14:00:13 1202296 309
>>1202293
Он и есть тот самый шиз что семенит тут из треда в тред.
Аноним 14/05/25 Срд 14:04:12 1202301 310
>>1202293
>Ведёшь себя прямо как шизы, которых ругаешь.
А ведь и правда, веду себя как еблан.
Сорян аноны

>>1202296
Все вокруг шизы, один ты в белом пальто. Да и вообще половина в треде сообщений мои.
Аноним 14/05/25 Срд 14:05:11 1202303 311
>>1202295
> Падла биты на головы пожелала, вот нахуй так жить?
Биты на голову врам кушают. И они не очень профитны, если bpw ниже 6. Так сам turboderp говорил
Скачай лучше 4.65bpw квант, если у тебя 24 гб врама. Это лучше, чем 4-4.25 hb8
Только все фоновые приложения тоже придется вырубить, которые врам кушают
Аноним 14/05/25 Срд 14:11:09 1202311 312
>>1202303
Двачую. 4 запускаю, если на фоне Ютуб или ещё что. 4.65 идеально влезает в 24гб, если открыты только Табби и Таверна.
Аноним 14/05/25 Срд 14:12:36 1202313 313
Аноним 14/05/25 Срд 14:16:27 1202316 314
Аноним 14/05/25 Срд 14:23:10 1202322 315
>>1202303
Все кушает врам, тут ничего не поделать. Ниже 6бит их вообще нельзя делать, отупевает, разница между 6 и 8 присутствует, по крайней мере в мелкомоделях.
Аноним 14/05/25 Срд 14:25:21 1202327 316
>>1202322
Я всё еще надеюсь, что взойдет звезда пленительного счастья, выйдут модульные видеокарты, куда можно будет отдельно докупать плашки памяти.
Аноним 14/05/25 Срд 14:27:18 1202329 317
>>1202322
> разница между 6 и 8 присутствует, по крайней мере в мелкомоделях.
Ты ее сам заметил, на практике? В чем это выражалось?
Вообще, вопрос дискуссионный. Мне тоже приятнее, когда h8, но не могу сказать, что разницу с h6 я замечал. Один и тот же квант, только головы разные. Формально perplexity у кванта с h8 чуть больше, но с таким же успехом можно больше bpw в рам засунуть.
У создателя Экслламы мнение однозначное: h8 юзать только для 8bpw квантов, и то необязательно. Профита мало за то количество врама, что оно ест.
Аноним 14/05/25 Срд 14:32:30 1202334 318
>>1202207
интересно, то есть поломанные кванты хуево соблюдали инструкции, а нормальные делают это слишком сильно.

Интересно чо будет по тюнам, когда (если) нормальные появятся
Аноним 14/05/25 Срд 14:32:43 1202335 319
>>1202311
>>1202303
Смысл если отличия в качестве минимальны и ты их никогда не заметишь?
Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант
Аноним 14/05/25 Срд 14:36:08 1202338 320
>>1202335
> Смысл если отличия в качестве минимальны и ты их никогда не заметишь?
На чем основывается твое утверждение? Ты наверняка даже не запускал. Разница между 4bpw и 4.65bpw есть и ощущается на практике.

> Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант
Более оптимизированный формат с точки зрения потребления врама. С точки зрения скорости, тоже, правда пока что для 4090/5090 юзеров. Позже и для остальных тоже.
Аноним 14/05/25 Срд 14:39:34 1202341 321
>>1202338
На том что мне тут сказали что 4 квант это база а выше прирост лишь на 5-6%
Ехл3 4 квант ещё лучше чем гуфовский
Аноним 14/05/25 Срд 14:43:38 1202347 322
>>1202341
> На том что мне тут сказали что 4 квант это база а выше прирост лишь на 5-6%
Кто сказал-то? Баба срака из соседнего подъезда? Насколько выше, чем что? 8bpw на 5-6% лучше, чем 4bpw? Это не так.
4.65bpw это уже почти аналог Q5M кванта. При этом, как правило, помещается у всех тех, кто может поместить 4bpw.
Аноним 14/05/25 Срд 14:48:31 1202354 323
Аноним 14/05/25 Срд 14:50:08 1202357 324
ayaya-emote.png 25Кб, 300x300
300x300
Что вы знаете о истинном ебланстве.
Я вам поведаю
Я второй день еблася с Ayayaya. Уже хотел прийти в тред и начать срать, что ряяяяя говно поломанное
НИЧЁ НЕ РАБОТАЕТ
Пока не понял, что стоят системки от мистрали. Причем, я на них смотрю - ну все корректно. Ничего не пропущено, теги правильные. Полез обниморду перепроверить, зашел на страницу малышки мистрали и сравниваю
Все верно. Все корректно.

Просто
Ультимативный
Пиздец.
Пойду сделаю себе сэппуку от стыда
Аноним 14/05/25 Срд 15:10:04 1202379 325
>>1202357
Ага, очень важная инфа. Спасибо что поделился. Нахуй нам эта инфа? Мы тут тебе не дружбаны.
Аноним 14/05/25 Срд 15:10:35 1202380 326
>>1202354
>Base model Nemotron
>Drummer
Он меня точно не выебет ?
Аноним 14/05/25 Срд 15:11:40 1202382 327
>>1202379
А кто мы? Мне только блфаг не друг.
Аноним 14/05/25 Срд 15:14:28 1202390 328
>>1202354
Чем оно лучше 3й гемы?
Аноним 14/05/25 Срд 15:15:28 1202393 329
290d078a28f4167[...].webm 1158Кб, 720x720, 00:00:06
720x720
Аноним 14/05/25 Срд 15:17:08 1202399 330
>>1202390
оно не лучше и не хуже, оно другое
если интересно - скачай и посмотри
подозреваю, контекст гораздо меньше врама ест
Аноним 14/05/25 Срд 15:20:53 1202409 331
>>1202393
> пользователи геммы:
Аноним 14/05/25 Срд 15:29:30 1202423 332
>>1202357
F
А пользовался бы чаткомплишен и не парился
Аноним 14/05/25 Срд 15:33:18 1202430 333
кто-нибудь тестил FP8? я правильно понимаю, что FP8 намного быстрее, но и немного тупее, чем Q8_0? на реддите противоречивые сведения.
Аноним 14/05/25 Срд 15:36:55 1202436 334
>>1202288
>>1202296

Смешно, тебя походу за меня принимают, для олдов-шизофреников треда теперь любой кто просит сэмплеры это я - за то что пару тредов назад я посмел обосрать настройки и любимую модель одного из верховных главшизов треда - я для него враг номер один теперь и мстя любому, кто просит настройки, он (в своей больной голове, разумеется) таким образом мстит мне.
Хотя я после того случая сделал выводы и больше не просил у шизов сэмплеры, мало того что скинут полуюзабельное нечто, заточенное только под их нужды(англюсик онли + очень странный ролеплей), так еще и говном накормят за то что они, небожители, снизошли до тебя, смерда, а ты недостаточно им благодарен.
Аноним 14/05/25 Срд 15:39:04 1202440 335
>>1202430
нашёл отзыв от разраба Forge:
> Q8 is always more precise than FP8 ( and a bit slower than fp8
> Precision For Q8: Q8_K (not available) >Q8_1 (not available) > Q8_0 >> fp8
> Speed (if offload, e.g., 8GB VRAM) from fast to slow: NF4 > Q4_0 > Q4_1 ≈ fp8 > Q4K_S > Q8_0 > Q8_1 > others ≈ fp16
Аноним 14/05/25 Срд 15:39:21 1202441 336
>>1202436
tl;dr неинтересно + пошел нахуй в аицг, будешь как свой со своими пастами
Аноним 14/05/25 Срд 15:42:14 1202445 337
>>1202430

Падение качества на 8 битах настолько незначительно что мне кажется что никто всерьез не занимался этим вопросом.
Аноним 14/05/25 Срд 15:43:43 1202448 338
>>1202445
А в чем вообще проявляется падение качества ? Какие критерии ?
Аноним 14/05/25 Срд 15:45:05 1202449 339
>>1202354
Пока что слабо отличаю от сайги. Говорит таким же душным языком, на просьбу о разговорной шутливой речи в промпте не реагирует: "Очевидно, что этот опыт оставил глубокий след в твоем сознании." Но может реагировать на OOC, можно попросить, будет разговорная речь, с подмигиваниями, усмеханиями, при этом возрастает градус долбоебизма.

Медленней чем сайга. Сайга сохраняет некоторые элементы, обозначение действий и прямой речи, ориентируется на структуру предыдущего выводы. Этот снежный сразу отбросил всё и оставил только прямую речь, а при отыгрывании долбоебических стилей речи склонен добавлять действия через звездочку. В злоупотреблении многоточиями не замечен.

Эта оценка не имеет хорошей достоверности из-за малого времени использования. Что-то в этой модели есть другое, нежели в сайге. Имеет смысл пытаться совладать.
Аноним 14/05/25 Срд 15:45:22 1202450 340
>>1202436
У тебя неадекватная гиперфиксация на себе-любимом.
Аноним 14/05/25 Срд 15:47:11 1202454 341
м.png 1Кб, 126x47
126x47
Аноним 14/05/25 Срд 15:49:50 1202457 342
>>1202449
Дополнение: лучше, чем сайга, знает, когда надо ставить запятую перед "как", а когда не надо. Например, в предложении "Злупа как социальный феномен." сайга может поставить запятую.
Аноним 14/05/25 Срд 15:53:21 1202461 343
IMG4099.jpeg 38Кб, 312x258
312x258
>>1202457
Вот это я понимаю аналитика пунктуации.
Снимаю шляпу, сэр.
Аноним 14/05/25 Срд 15:53:53 1202462 344
>>1202448

В отклонении от того чему была обучена 16-битная модель изначально. Модель это упрощенно набор коэфициентов, записанных в формате 16-битных чисел. Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число, т.е. режешь половину мелких знаков, в результате восьмибитная модель выдает уже не то чему была изначально обучена, а что-то очень приближенное к этому.
Это как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927. Для подавляющего большинства задач хватит второго скоращенного числа, но теоретически может быть юзкейс где это сокращение сыграет с тобой злую шутку.
Аноним 14/05/25 Срд 16:05:04 1202469 345
>>1202462
Нет, эта аналогия не верна.
Это скорее как уменьшение разрешения фотографии, сжав ее в 2 раза она все еще будет узнаваемой, но качество уже не то.
Аноним 14/05/25 Срд 16:13:56 1202474 346
12т.с это сколько по шкале терпения
Аноним 14/05/25 Срд 16:17:01 1202477 347
аноны, никто не использовал мелкосетку яндекса для перевода?

>>1202474
Ноль. 12т.с это околорелятивистское значение, почти скорость света.

анон с 1660s
Аноним 14/05/25 Срд 16:19:10 1202483 348
>>1202474
Вопрос лишен смысла, так как это вопрос исключительно личного комфорта, скорости чтения и потребности для твоих задач.
Я вот сижу на 5-7 т/с с баренского. Пока перевожу, он неспешно пишет. Мне хватает. Но когда речь идет о великом и могучем, то мне и 15 т/с мало.

Это как задать вопрос. Килограмм черешни, это много или мало ?
Аноним 14/05/25 Срд 16:22:19 1202488 349
>>1202462
О, спасибо за пояснения. Именно про то, что отклонения идут от полных весов. Тогда это имеет смысл.
Хотя я все равно не понимаю принцип логики нейронок, потому что если это суть математические зависимости где каждой букве присвоено число и оно созависимо с другими числами, при этом еще матан вероятностей. Тогда откуда здесь браться размышлениям, если это не более чем огромные матрицы алгебраических функций.
Надо покурить внимательно тему, а то так и останусь драчуном.
Аноним 14/05/25 Срд 16:23:42 1202491 350
>>1202483
А у меня лютая тряска начинается когда токенов меньше 20, хотя читаю тоже на уровне 5т.сек
Аноним 14/05/25 Срд 16:25:41 1202493 351
хмм почему когда сообщение уже сгенерировано генерация продолжается, токены чето капают в консольке а больше текста не появляется
Аноним 14/05/25 Срд 16:43:37 1202523 352
>>1202493

Таверна скорее всего подсирает где-то, проверь экстеншены.
Аноним 14/05/25 Срд 16:43:39 1202524 353
>>1202493
Подожди немного, я уже почти почувствовал твой лог. Сейчас, сейчас, что то ощущаю.
Аноним 14/05/25 Срд 16:43:47 1202525 354
>>1202477
А что там на 1660s?
8б моделек завались же
Аноним 14/05/25 Срд 16:48:53 1202534 355
Аноним 14/05/25 Срд 16:49:51 1202536 356
>>1202534
Выключи это говно ебаное, это для пидорасов, это хуйня!
Аноним 14/05/25 Срд 16:57:04 1202555 357
>>1202536
Ты чё пёс. Суммарайз наше всё. Пойдем выйдем, поговорим.
Аноним 14/05/25 Срд 17:12:25 1202576 358
image.png 17Кб, 584x88
584x88
А я-то думал хорошо будет на 22B
Аноним 14/05/25 Срд 17:12:55 1202577 359
>>1202488
>Тогда откуда здесь браться размышлениям
Ниоткуда, ихтамнет.
Аноним 14/05/25 Срд 17:17:23 1202585 360
реквестирую карточку томаса шелби и/или госта из колл оф дути
пж
Аноним 14/05/25 Срд 17:19:25 1202589 361
Аноним 14/05/25 Срд 17:31:26 1202606 362
>>1202576

Делать вдов - мое любимое занятие в рп, слушай нейронку, нейронка хуйни не посоветует.

Что за модель?
Аноним 14/05/25 Срд 17:34:58 1202614 363
>>1202555
Его руками надо писать, а не автоматом, по ебалнски, как тупой долбаёб.
Аноним 14/05/25 Срд 17:47:46 1202628 364
Аноним 14/05/25 Срд 17:54:42 1202637 365
>>1202606
Обсер не из-за модели, до этого было очень хорошо
MS-Nudion
Я даже не знаю от кого произошла эта модель
Аноним 14/05/25 Срд 17:56:43 1202640 366
>>1202614
Может остальной РП тоже руками писать? В блокноте?
Аноним 14/05/25 Срд 17:58:51 1202644 367
>>1202640
Он прав. Автосуммарайз говно ебаное. Поверь, у меня были чаты по 700 сообщений, я знаю о чем говорю.
Аноним 14/05/25 Срд 17:58:53 1202645 368
hn005z.png 134Кб, 443x349
443x349
>>1202640
Ты?

Давно уже саммари руками пишу. И вроде все так делают, кто сколь-нибудь серьезно играет.
Аноним 14/05/25 Срд 18:01:16 1202647 369
>>1202644

Как ни странно, но любовь Немотрона к составлению списков тут прям в яблочко.
Аноним 14/05/25 Срд 18:02:19 1202648 370
>>1202260
Эт я и был. =) Да, забавно, конечно. В видяхе лютая скорость, 290 токенов сек, что ли. =D

>>1202265
Ну, и правда, можно запустить на оперативной.

Хм, блин, слушай.
Я дико не уверен, сработает ли, и мне лень сейчас оживлять старый ноут…

давай попробуем так:
1. Идешь сюда: https://github.com/LostRuins/koboldcpp/releases и качаешь верхний (самый новый) koboldcpp.exe — если тебе повезет, то он даже заработает с ускорением у тебя на видяхе. Если не повезет, то качай koboldcpp_nocuda.exe — он точно пойдет.

2. Идешь сюда https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF/tree/main и качаешь… На выбор:
Qwen3-30B-A3B-UD-Q2_K_XL.gguf , Qwen3-30B-A3B-UD-IQ3_XXS.gguf , Qwen3-30B-A3B-Q3_K_S.gguf или Qwen3-30B-A3B-UD-Q3_K_XL.gguf от «точно должен влезть» до «ну я не уверен, но может запуститься».

Дальше, запускаешь первое, пихаешь в него второй (в интерфейсе), стартуешь и пробуешь попереписываться в открывшемся чате для начала.

Для koboldcpp надо выбрать GPU Layers 99, перейти на вкладку Tokens и там в Override tensors ввести: звездочка.ffn_.звездочка_exps.=CPU (я хз, как на дваче звездочки нормально вставлять)

Если заработает и нагрузит видеокарту — хорошо. Не заработает, ну тогда переходи к koboldcpp_nocuda. =)

Это самое базовое, начни с запуска и общения, а дальше потом.
Аноним 14/05/25 Срд 18:17:09 1202666 371
>>1202628
Это не тред ботоделов. Какие претензии. Тут и так атмосфера всеобщей ненависти, не стоит делать всё только хуже.
Аноним 14/05/25 Срд 18:19:49 1202669 372
>>1202647
>немотрон
>немотрон
>немотрон
>немотрон
Я скоро в гориллу превращусь и компьютер разъебу с этим постоянным упоминанием немотрона.
Аноним 14/05/25 Срд 18:26:35 1202681 373
>>1202647
один хуй он детали проебывает

>>1202666
блять не гейткипь томаса шелби и госта
скинь
Аноним 14/05/25 Срд 18:31:26 1202686 374
>>1202669
Хорошо иметь 12 ГБ VRAM.
Нет немотрона - нет проблем.
Аноним 14/05/25 Срд 18:51:35 1202713 375
Извиняюсь, что опять вбрасываю эту тему. Это не попытка реквестировать, не нужно васянить. Раз нет готового, значит нет.
>>1200999
Я вчитался и попробовал, это же просто кастрированная версия ассистента. Для такого не то, что промпт не нужен, но и персонаж.
>>1200995
>>1201044
>Я не знаю чего я хочу, решите за меня.
>мы не Ванги, примерно почувствовать не можем
Ну что чувствовать... Фильм смотрели или хотя бы про Яндекс Алису слышали? В ЛЛМ РПшили? Что такое ТТС в курсе? Значит обо всём в курсе. Без промпта ллм начинает срать всякими вводными словами вроде "(задумчиво)", "обернувшись", писать в некорректном контексте, что ломает восприятие аудио-собеседника, который как бы рядом с тобой, но не имеет тела. И куча-куча-куча-куча других нюансов, которые вручную нужно отлавливать и прописывать. Поэтому я и пишу "хули блядь не понятного", потому что такая простая вещь не требует объяснений человеку, но вот, чтобы составить систем промпт, чтобы ЛЛМ не косячила, нужно подзаебаться.
ушел васянить такой промпт в клода
Аноним 14/05/25 Срд 18:56:15 1202724 376
>>1202713
Ты заебал, я тебе уже сказал - пиши карточку от первого лица. Так же смотри что бы системный промпт или что там еще перед карточкой есть тоже либо был от первого лица либо отсутствовал.
Аноним 14/05/25 Срд 19:24:08 1202787 377
>>1202713
Я все так же не понял что тебе нужно.
Алиса ? Купи Яндекс колонку тогда.
Потому то если тебе нужен ассистент такого порядка, это не карточка. Это ллм отдельная.
Аноним 14/05/25 Срд 19:31:13 1202799 378
>>1202669
А что не так с немотроном?
Аноним 14/05/25 Срд 19:33:25 1202805 379
Аноны, сорян если задам избитый вопрос, но:
Что делать если любые модели с "mistrel" в названии не выдают ничего в ответ? Буквально нагружают печку, но в ответ только пук в виде " ".
Локально, oobabooga бэкенд, SillyTavern фронтенд.
Аноним 14/05/25 Срд 19:39:14 1202824 380
>>1202805
1. поставь себе жору отдельно, угабуга - кал
2. запрещенные слова ставил?
Аноним 14/05/25 Срд 19:43:07 1202831 381
Аноним 14/05/25 Срд 19:44:52 1202835 382
>>1202824
>1. поставь себе жору отдельно, угабуга - кал
Вроде как да, чё-то скачивал отдельно.
Я в угабуге запускаю модели с использованием llama.cpp, а потом API в таверну отдаю.
>2. запрещенные слова ставил?
Ээ... не знаю? Я хочу использовать модель для nsfw ролеплея. В этом проблема?
Аноним 14/05/25 Срд 19:47:10 1202839 383
>>1202835
Ебать ты кобольд.

Возми этого самого кобольда и проверь в его же фронте.
Потом можно дальше разбираться.

• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
Аноним 14/05/25 Срд 19:49:30 1202843 384
>>1202831
Охуенно. Пришел в тред, что то реквестирует и нахуй посылает.
Аноним 14/05/25 Срд 20:07:58 1202865 385
изображение.png 1673Кб, 1280x960
1280x960
>>1200733 (OP)
Двач, пришла наконец из китая 48 / 4090
В корпус не влазит, но всунул пока так.

Сразу побежал запускать немотрон 49b в 6 кванте.

И первое что поразило - почти нет галюнов.
Спрашиваю модельку знает ли она такого-то (нейм) чувака.
Раньше квен, гемма, ллама начали рассказывать типа "да, это футболист, ага, это известный спортсмен, да, это актер".
А НЕМОТРОН ЧЕСТНО ГОВОРИТ "Я НЕ ЗНАЮ, ДАЙТЕ БОЛЬШЕ СВЕДЕНИЙ" О_о

Ну и вообще в целом если не знает какой-то факт честно об этом заявляет.
Меня прямо это сбило с ног по началу, потому что я привык к галюнам.

Ну и рядом лежит старая 24 (4090) если подцеплю, будет 48+24 = 72
Но я думаю еще одну 48 заказывать, похоже размер имеет значение.

а, да, немотрон49б в 6 кванте выдает ~30 токенов в сек.
Аноним 14/05/25 Срд 20:08:28 1202866 386
>>1202839
Он охуенный еще тем, что сразу искаробки модель может писать на ходу, не надо ждать, пока она допишет всю тупомозглую хуйню и можно сразу прервать. В таверне наверно тоже можно так сделать, но я не видел.
Аноним 14/05/25 Срд 20:10:35 1202869 387
>>1202865
Она не влезла даже в Лианли? Пиздец.
Поздравляю с покупкой, че. Пусть служит долго и не горит.
Аноним 14/05/25 Срд 20:12:11 1202871 388
>>1202866
На самом деле можно, также на такой же квадратик там жмёшь и оно стопается. Рпшил в Kobold Lite пока не понадобились лорбуки к карточкам, а так бы и дальше в нём сидел.

Хотя llama-cpp ещё прощё в запуске, но там не с бодуна, а маны немного покурить надо хотя бы что именно качать и какие параметры запуска пихать.
Аноним 14/05/25 Срд 20:12:59 1202873 389
Держу в курсе: сайга демонстрирует полный посос в креативном письме, ну типа в стори мод, по сравнению с Instrumentality-RP-12B-RU-2, потому что инструменталити лучше следует промпту и кажется более адекватна.
Аноним 14/05/25 Срд 20:15:47 1202874 390
>>1202873
>Instrumentality-RP-12B-RU
остались ещё ценители =)

Ну, сайгу вроде на чатах тренили, а там в неё подмешаны сторителлер модели, вот она и лучще в сториках стала.
Аноним 14/05/25 Срд 20:16:06 1202875 391
>>1202871
Стопается-то стопается. Но кобольд cpp пишет сразу, видно, что именно пишет. Если, например, начинает с ослов "Атмосфера накалялась", то можно сразу, хуяк, отмена, все хуйня, давай по-новой.

В свежем cpp можно json в world info импортировать, типа отдельные ветки.
Аноним 14/05/25 Срд 20:16:12 1202876 392
pokemonslowpoke[...].png 158Кб, 810x712
810x712
>>1202873
>сайга демонстрирует полный посос
Аноним 14/05/25 Срд 20:17:26 1202877 393
>>1202865
>Двач, пришла наконец из китая 48 / 4090
Уже с водянкой. Во сколько обошлась?
Аноним 14/05/25 Срд 20:18:42 1202880 394
>>1202869
>Она не влезла даже в Лианли? Пиздец.
У него просто лишняя мудянка на проце. Без неё бы влезла.
Аноним 14/05/25 Срд 20:20:56 1202881 395
>>1202880
Вертикальный грип видеокарты и даром не нужен. Это некрасиво и непродуктивно.
Аноним 14/05/25 Срд 20:23:33 1202883 396
>>1202874
Инструментали мне ваще нравки, он кажется просто умней. Всегда пригодится.

Кстати, на странице Aleteian, удалена страница с инструменталити 3

https://huggingface.co/mradermacher/Instrumentality-3-GGUF - но она есть у мрадермашера. В архив орг можно увидеть, что там было на стратице, туда вроде еще одна сайга была намешана, хотя в одной других подмешаных моделей тоже была смесь сайги с чем-то. Чому удалена страница, не знаю, может типа неудачный эксперимент.
Аноним 14/05/25 Срд 20:25:24 1202884 397
>>1202525
>8б моделек завались же
И как на них кумить?
Аноним 14/05/25 Срд 20:26:13 1202885 398
>>1202881
>Вертикальный грип
Грипп это вирус такой.
Аноним 14/05/25 Срд 20:37:52 1202889 399
>>1202865
>немотрон 49b
так он весит всего 40 гигабайт...
Ну так... тебе нужно было две сразу покупать. А лучше три.
А так у тебя получается мощный сетап, но мало врама.
Ну будешь ты генерировать на 30 т/с вместо 20 т/с. Один хуй читаешь ты медленнее.
Ты все ещё врамцел, лол.
Так что давай, возвращайся когда врама нормально наберешь.
Аноним 14/05/25 Срд 20:38:16 1202891 400
>>1202875
>ослов

В таверне стриминг включить галочкой надо, тогда тоже будешь видеть ослов.

В смысле как-что пишет.
Аноним 14/05/25 Срд 20:38:41 1202892 401
>>1202869
Спасибо.
Сама влезла, водянку некуда пихать, придётся самоделкой на стенку.
>и не горит.
Первые 5 минут инференса забыл подключить вентиляторы, только помпу.

>>1202877
>Во сколько обошлась?
чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше.

может кому интересно про контекст:
Квен 14b 1m в 8Q - влазит 100 к.
Гемма 3 12b в 8Q - влазит 70 к
Мистраль полный влазит 32 к.

то есть всю эту ветку ( контрл+А, контрл + С) с мусором дат квен хавает и выписывает имя модели и цитаты характеристик модели, которые вы пишите в контексте обсуждения.

раньше чтобы успевать следить за вами, приходилось весь текст борды делить на части, и то контекст терялся.
Аноним 14/05/25 Срд 20:41:51 1202894 402
>>1202884
>кумить
Вообще на ламе-аналигнед вполне можно было кумить, и при этом она пишет прям быстро, 8б чо, абсолютно без тормозов, и даже не тупая. Но нужно быть готовым свайпать если пойдёт не в ту степь.
Аноним 14/05/25 Срд 20:44:14 1202896 403
>>1202892
>имя модели и цитаты характеристик модели
А накидай сюда, может наконец список моделей обновят с него.
Аноним 14/05/25 Срд 20:45:56 1202898 404
>>1202892
>Квен 14b 1m в 8Q - влазит 100 к.
Что по скоростям в конце контекста?
Аноним 14/05/25 Срд 20:47:22 1202900 405
image 3Кб, 421x153
421x153
>>1202839
Поставил кобольда, загрузил ту модель с "ministrel" и чё-то да. Всё также попа.
Странно, ведь другие модели-то работают.
Аноним 14/05/25 Срд 20:48:05 1202903 406
photo2025-04-29[...].jpg 26Кб, 640x640
640x640
>>1202889
А когда наберу, какие модельки посоветуешь?
Аноним 14/05/25 Срд 20:49:24 1202905 407
image.png 318Кб, 1920x968
1920x968
image.png 408Кб, 1922x1191
1922x1191
Pathfinder-RP-12B-RU на первом скрине против Apparatus_24B на втором. Обе модели позиционируются как русскоязычные. Вторую вряд ли здесь кто-то знает, но есть язывичок, который тюнит под русик этот мистраль.

Я даже удивлён. Аппаратус 24 почти не слушается инструкций по сравнению с наглухо ебанутым и шизанутым патфайндером.

Суть в том, что он почти не анализирует карточку, персонаж на всё соглашается и зависимость от мета особо не выражается. На 12б фифи в большинстве случаев, как и надо, сначала требует мет/ей херово без него и всё крутится вокруг её зависимости от мета, а потом уже от возможного секса. 24б легко проскакивает в секс и иногда даже себя ведёт романтично без причин.

Лол, МоЕ-квен и то лучше понимал персонажа.
Аноним 14/05/25 Срд 20:57:02 1202918 408
Для замены гуглинга/ресерча, какие ЛЛМки сейчас модноракать?
Или так, если бы надо было выбрать 1 или максимум 2 ЛЛМ, какую(ие) оставили бы?
Аноним 14/05/25 Срд 20:57:05 1202920 409
>>1202900
поломанный квант или ебанутые настройки, скорее всего квант
Аноним 14/05/25 Срд 20:58:11 1202924 410
>>1202900
>ministrel
Mistral?

Если нет, то скорее всего это просто поломанный шизотюн.
Аноним 14/05/25 Срд 21:02:24 1202929 411
>>1202918
>Для замены гуглинга/ресерча
никакие, локалки не вывезут и будут с умным видом задвигать любую дичь считая что это ролеплэйный сеттинг

>>1202918
>1 или максимум 2
gemma3-27b-abliterated-dpo
LLAMA-3_8B_Unaligned
Аноним 14/05/25 Срд 21:02:52 1202930 412
>>1202892
>чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше.
Кто бы спорил, но не я. Правда для себя я бы 5090 взял (может ещё и возьму, один хуй у меня риг). Но вот сейчас большие модели начинают играть, для них никаких карт не хватит.
Аноним 14/05/25 Срд 21:04:13 1202933 413
>>1202918
> Для замены гуглинга/ресерча, какие ЛЛМки сейчас модноракать?
Никакие. Даже корпосетки галлюцинируют, выдавая рандом за факты. У них нет ограничителей и понимания, что им известно, а что нет. Они просто выдают текст.

> Или так, если бы надо было выбрать 1 или максимум 2 ЛЛМ, какую(ие) оставили бы?
c4ai-command-r-08-2024
Apriel-Nemotron-15b-Thinker
Аноним 14/05/25 Срд 21:11:35 1202946 414
>>1202903
очевидный дипсик и Qwen 235б
или тебе чтобы кумить? Тогда не могу посоветовать, я не особо шарю...
магнум 123б может быть?
Аноним 14/05/25 Срд 21:12:09 1202950 415
>>1202865
сколько потратил то на карту, рассказывай?
На лохито продают всё еще по 330к.
Аноним 14/05/25 Срд 21:16:17 1202957 416
>>1202905
ты походу шаришь. посоветуй модели для ру-кума, какие щас актуальны?
Аноним 14/05/25 Срд 21:31:51 1202971 417
>>1202924
Да, напутал два похожих слова. Ни одна модель Mistral у меня не сработала нормально.
Аноним 14/05/25 Срд 21:33:26 1202973 418
video2025-05-14[...].mp4 19205Кб, 1280x1280, 00:00:22
1280x1280
>>1198267 →
повезло в общем, это кулер был виноват.
Ща пересажу донора со сгоревшей и будет норм.
Аноним 14/05/25 Срд 21:43:32 1202986 419
>>1202957
То, что актуально, не запустить особо локально без больших вливаний денег.

По сути, патфайндер самый сочный, но лупится. Однако на сессию кума должно хватить, если ты не собираешься контекст выше 10к набирать.

Там сверху список моделей от меня есть, в том числе и русских, которые я использовал. Найди по названию модели. Мне с телефона неудобно.

Ты также можешь использовать Гугл гемму с аблитерацией, но она сухо пишет кум. Как вариант, можно рассмотреть аблитерацию мистраля 24б или даже оригинальную модель, хоть там и порог цензуры некоторый есть.

Смысл оригинальной модели в том, что она лучше слушается инструкций, в ней лучше русский и она менее тупая в целом.
Аноним 14/05/25 Срд 21:54:11 1203014 420
>>1202865
>48 / 4090
ты хотел сказать 4080d 48?
Аноним 14/05/25 Срд 21:56:30 1203023 421
>>1203014
А нет я упрлся, сорян.
Аноним 14/05/25 Срд 22:08:06 1203059 422
>>1202929
>>1202933
Блять, я думал это тред обсуждения всех ЛЛМок, не только локальных, в глаза ебусь. А просто треда по срачу на тему какя ЛЛМ лучше нет, пиздец. Буду значит и дальше туда-сюда прыгать между чатгпт, гроком дипсисей
Аноним 14/05/25 Срд 22:08:09 1203062 423
>>1202329
Узкоспециализированный тюн 7б в 8битах работал отлично, в 6битах H8 тоже хорошо, а в 6+6 было побольше ошибок. По высказыванием - раньше видел обратное что наоборот не стоит жадничать на них. В 4 битах еще ок, но когда выше то можно и 8.
> Профита мало за то количество врама, что оно ест.
А сколько оно ест?
>>1202430
Fp16 > q8 > q4 > говно/моча > fp8
В ллм скорость упирается не в скорость расчетом, где фп8 бы могло помочь, а в псп врам, потому ускорения не будет здесь.
>>1202462
> Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число
Вводишь в заблуждение, ты описываешь просто дроп точности а не квантование.
> как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927
В случае фп8 или жесткого квантования там вместо пи может быть 2.8, для понимания уровня.
Аноним 14/05/25 Срд 22:18:26 1203090 424
>>1202865
Блин, тут просто гпу с водянкой брать несколько опасаешься, а тут сразу два в одном. Как там по температурам и шуму она? В теории должно быть ахуенно и так легко будет воткнуть вторую рядом.
> думаю еще одну 48 заказывать
>>1202892
> чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить?
Скажи что не только в ллм играешься
Аноним 14/05/25 Срд 22:21:01 1203101 425
Немотрон это какой-то форс по типу фингербокса? Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол? Он подхватывет промт, лорбук, описание и делает это хорошо, но это блять просто нарратор. Как с ним играть то епта? Настройки анона пробовал.
Аноним 14/05/25 Срд 22:26:43 1203109 426
>>1203101
> Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол?
Можешь пример показать?
анон, который прислал настройки
Аноним 14/05/25 Срд 22:30:33 1203113 427
photo2025-05-14[...].jpg 140Кб, 1280x720
1280x720
Аноним 14/05/25 Срд 22:45:35 1203137 428
IMG2864.jpeg 2101Кб, 4032x3024
4032x3024
>>1202865
Поздравлямба ! От души, анонче желаю тебе стабильного напряжения и холодного камня.

Еееей, еще один ценитель белых корпусов !
Аноним 14/05/25 Срд 22:50:00 1203144 429
Как обойти цензуру в ебучих блядских моделях с опенроутера?
Юзаю всякие gema3 через опенроутер т.к они могут в русский язык, но меня ЗАЕБАЛА эта цензура, че с ней можно сделать?
Аноним 14/05/25 Срд 22:51:02 1203145 430
Аноним 14/05/25 Срд 22:55:41 1203152 431
>>1203101
Необычные у тебя проблемы и нетипичное для него поведение. Но учитывая что еще один анон жаловался на неспособность его в разметку, что тоже странно - похоже там есть поломанные кванты/инфиренс.
>>1203144
Если там стандартный апи то точно также как и в локалке.
Аноним 14/05/25 Срд 22:55:50 1203153 432
>>1202883
> Aleteian
Эх, аноны так же быстро сгорели, как угорали по мержам.
Интересно, они еще в треде появляются ?
Аноним 14/05/25 Срд 23:01:35 1203157 433
>>1203152
Как? У меня уже мозг кипит, нихуя не пойму
Аноним 14/05/25 Срд 23:05:07 1203164 434
>>1203157
Слушай, я тебе не зря дал ссылку на здешний филиал ада.
Да, там пиздец. Но они кумят через корпосетки, они точно должны знать как обходить цензуру.
Аноним 14/05/25 Срд 23:05:42 1203165 435
Аноним 14/05/25 Срд 23:09:52 1203172 436
>>1202493
Расширение сумарайза. даже в неактивном состоянии в штаны срет. Говнокодер его автор блядь.
Было такое же.
Аноним 14/05/25 Срд 23:36:28 1203218 437
>>1203144
>>1203164
Да там и обходить нечего. На опенроутере есть магнумы всякие или что-то подобное. Я их почти не тестил, так как кумил на дипсике. Было отлично, кстати. Может в любые извращения.

Достаточно в большинстве случаев просто обычного систем промпта. Такого же, как на локалках.

Но если прям совсем вау хочется и используешь Клода/гопоту, то надо идти в этот филиал ада, да. Для тонкой настройки убер корпоративной параши.
Аноним 14/05/25 Срд 23:37:19 1203219 438
>>1203153
Надо этих умных людей сюда.

Даркнес и инструменталити нормально пишут прозу, как костыль, то есть в любом случае придется самостоятельно создавать историю, но они могут костылить некоторые пробуксовки и заготовки диалогов. Но у них в жопе шило. У инструменталити поменьше, а у сайги обычной и даркнеса побольше, но они говорливей.

Из-за шила в жопе они рвутся закончить всю историю за раз. Только сели персонажи жрать и сразу же пожрали, встали и пошли навстречу новым приключениям, но теперь уже все сытые и довольные, рады, что так хорошо пожрали, вкусную еду, особую, поэтому любые преграды нипочем. И все стали счастливы и осознают единение и радость от былых свершений. Продолжени следует...
Аноним 14/05/25 Срд 23:39:01 1203224 439
image.png 372Кб, 854x451
854x451
ебать эта evga печь...
420 ватт блять. В 3090.
Аноним 14/05/25 Срд 23:57:04 1203241 440
>>1203224
Хех. На работке устанавливали хопперы, по 700 ватт на брата. Но с запасом там киловат выходил плюс минус.
Вот это реальные печи.

>>1203218
>Но если прям совсем вау хочется и используешь Клода/гопоту,
Когда хотелось потыкать геминьку, я посмотрел её и понял что лучше не тратить время, потому что когда корпосетка вываливает свои яйца, ты смотришь даже на милфу мистраль и грустишь.
Нахер, лучше себя не расстраивать.
Аноним 14/05/25 Срд 23:59:17 1203243 441
>>1203219
>Надо этих умных людей сюда.
Это и были тредовички.
Аноним 15/05/25 Чтв 00:10:37 1203253 442
>>1203241
у меня тоже хопперы на работе.
Ты под каким кабаном хоишь?
Аноним 15/05/25 Чтв 00:12:27 1203256 443
>>1203243
Ну будем надеяться, что они не почили от перекума.

Потому, что надо, чтобы умные люди вылечили модели от того, что делают snort, которое превращается в фыркание на русском языке. Заебал этот даркнес фыркать, как собака.
Аноним 15/05/25 Чтв 00:32:42 1203280 444
как полюбить слоп и примять его таким какой он есть
каждый шиверс, мисчивиос глинт, свеинг хипс..ю
Аноним 15/05/25 Чтв 00:37:06 1203285 445
IMG3699.jpeg 37Кб, 200x192
200x192
>>1203280
Ты опять выходишь на связь, мудило ?
Аноним 15/05/25 Чтв 01:17:52 1203298 446
>>1202865
Ну, просто поздравляю! =)
Главное, что тебе по кайфу. И, соглашусь, для LLM — лучшее решение.

Хотя тут B580 на 48 гигов, по слухам… =D Если цена норм, то будет пушка. Если будет, лол.
Аноним 15/05/25 Чтв 01:31:44 1203303 447
>>1202313
Как то пролюбил твой пост.
Спасибо большое. ~Nya~
Аноним 15/05/25 Чтв 01:41:31 1203305 448
Ээ почему квантование кеша пиздит токены?
Если у тебя 30 то похуй но если 15 то это пиздец 5 токенов просто спиздили
Аноним 15/05/25 Чтв 01:47:36 1203308 449
>>1203285
А что ты делаешь со слопом?...
Аноним 15/05/25 Чтв 02:07:48 1203319 450
image.png 117Кб, 1399x1099
1399x1099
Аноним 15/05/25 Чтв 02:15:16 1203324 451
На форче ни слова про ехл3 и немотрончик зачем я вообще там сижу
Всё какие то росинанте и немо 12б советуют лол
Аноним 15/05/25 Чтв 04:55:31 1203377 452
Ладно сноудроп реально хорош, пока второй после немотрончика.
Даже с квантованным кешем без проблем помнит что было 80 сообщений назад, коммандер и гемма с этим не справились.
Но общая логика и ощущение глубины сцены хромает, штаны сами снимаются, из комнаты в комнату телепортируются а не ведут за руку поднимаясь по лестнице и тд.
Аноним 15/05/25 Чтв 09:01:53 1203408 453
>>1203377
> коммандер и гемма с этим не справились
Звучит как пиздеж, особенно про гемму, у которой поехавший кэш.

> штаны сами снимаются, из комнаты в комнату телепортируются а не ведут за руку поднимаясь по лестнице и тд.
Какой квант?
Аноним 15/05/25 Чтв 10:20:28 1203475 454
Слушайте, а qwen3 30b с 10 экспертами реально немного умнее.
Кто то игрался еще с разным количеством экспертов?
Аноним 15/05/25 Чтв 10:22:58 1203476 455
принес прекрасную новость для геммалюбов:
в ближайшем релизе жоры цпп оптимизируют квантование кэша через iswa
60к+ FP16 контекста на Гемме 27б q4 влезают в 24 гб врама
Аноним 15/05/25 Чтв 10:31:00 1203487 456
17472931555560.png 434Кб, 591x1130
591x1130
ну и кто из вас дегенератов трахнул оленя?
Аноним 15/05/25 Чтв 10:31:18 1203490 457
>>1203475
Я. Да, умнее. Но скорость падает, братишка, поэтому даже не знаю, есть ли в этом смысл.

Как по мне, если уж у тебя есть память, лучше использовать сразу плотную модель. Она намного лучше.

МоЕ тем и хороша, что это некий компромисс между врам и умом.
Аноним 15/05/25 Чтв 10:41:59 1203499 458
Аноним 15/05/25 Чтв 10:44:06 1203501 459
>>1203490
Ну на 10 падает не значительно, мне было интересно до какого числа будут расти мозги и на каком количестве это уже не будет давать прироста
Я думаю, там ведь есть сетка распределитель и тренировали ее с одним количеством активных экспертов, в какой то момент добавление экспертов должно уронить качество ответов
Аноним 15/05/25 Чтв 10:44:08 1203502 460
17471246453883.jpg 254Кб, 1200x900
1200x900
так падажжи, это что, НОГА РЕНАМОН?
Аноним 15/05/25 Чтв 10:44:20 1203503 461
>>1203476
Какие 60к, у меня выше 24к вместо 25т/сек - 12.
Большие контексты тянут только несколько карт из за мощности
Аноним 15/05/25 Чтв 10:47:00 1203506 462
>>1202865
>Сразу побежал запускать немотрон 49b в 6 кванте
И что скажешь?
Ты влюблён?
Аноним 15/05/25 Чтв 10:55:50 1203516 463
>>1203476

Если правда - то отличная новость, с радостью перекачусь обратно на гемму, вес контекста её единственный реальный минус. А где ты это вычитал?
Аноним 15/05/25 Чтв 11:16:22 1203534 464
Пресет на командер уже кидали?
Всё хочу дать ему шанс но сноудроп всем устраивает
Аноним 15/05/25 Чтв 11:18:58 1203537 465
>>1203516
>вес контекста её единственный реальный минус
Ты уточняй что тебе не для рп/ерп надо, а то аноны могут не так понять и скачать этот соевый непробиваемый кал.
Аноним 15/05/25 Чтв 11:53:48 1203573 466
>>1203534
>Пресет на командер уже кидали?
Если ты про семплеры, то юзай дефолтные с таверны. Я, честно, не помню какой у меня стоит, по моему креатив.
Команндер вообще не прихотлив, и даже с хуитой он будет писать как вменяемая модель, а не выдовать шизосимволы. Покрути его за сосочки, ему понравится. А потом крути@верти.
Единственное - не задирай температуру.
Аноним 15/05/25 Чтв 12:00:31 1203578 467
>>1203377
У меня уже глаз дергается от того, что ебучий немотрон сравнивают со всем подряд.
То с комманд-r, то с геммой. Сравни его с command-a, не останавливайся на достигнутом, нужно идти на повышение.
Аноним 15/05/25 Чтв 12:03:12 1203581 468
>>1203578
>Сравни его с command-a
Но он не влезет в видеокарту, а немотрончик влезет!
Аноним 15/05/25 Чтв 12:08:02 1203583 469
>>1203581
>Но он не влезет в видеокарту, а немотрончик влезет!
Как тут один шиз со своей 3090 пишет, дай вспомнить... А точно

Ну чё ты как врамцел, переходи на нормальные модели, а не огрызки.
Аноним 15/05/25 Чтв 12:18:53 1203592 470
>>1203502
ну да. Узнал меня?
Тот проект не двигается потому что я с нейронками ковыряюсь.
Сам понимаешь - времени на два хобби по вечерам у меня просто нет.
Но я не забросил его.
Аноним 15/05/25 Чтв 12:23:45 1203599 471
Бля, опять квен перекачивать. Скрипт написать что ли
Аноним 15/05/25 Чтв 12:33:42 1203607 472
>>1203475
>Кто то игрался еще с разным количеством экспертов?
Я, на Ллама-4 Скаут. И я вот думаю, что поскольку там по умолчанию 1(один) активный эксперт, то проёб там именно в этой сетке выбора экспертов. Они её тренировали на то, чтобы выбирать одного самого подходящего эксперта - ну и что, что всего 17В, подходит же! Что там у неё с большим числом активных экспертов хз, но результат не лучше.

Более того, у их Маверика тоже всего один активный эксперт. То есть это система, их фишечка.
Аноним 15/05/25 Чтв 12:48:09 1203619 473
>>1203592
понятно, зачем делать ренамон ирл, если можно нагенерить хорни картинок в стейболдифужоне
Аноним 15/05/25 Чтв 12:49:21 1203620 474
>>1203607
напиши про это поподробнее, пожалуйста, я как раз докачал Llama-4-Scout-17B-16E-Instruct-UD-Q4_K_XL
Аноним 15/05/25 Чтв 12:50:27 1203622 475
>>1203619
Я конечно мимо.
Но это называется хобби.
Аноним 15/05/25 Чтв 13:08:40 1203644 476
>>1203607
Как то у них через жопу сделано раз только 1 эксперт
Аноним 15/05/25 Чтв 13:12:00 1203648 477
>>1203620
>напиши про это поподробнее, пожалуйста, я как раз докачал Llama-4-Scout-17B-16E-Instruct-UD-Q4_K_XL
Читал, что можно принудительно увеличить количество активных экспертов в MoE-модели. Для Угабуги вставить в поле, где дополнительные ключи:
"override-kv=llama4.expert_used_count=int:число_экспертов" - для 4-й Лламы
"override-kv=qwen3moe.expert_used_count=int:число_экспертов" - для третьего Квена

Для чистого лламаспп-сервера добавить ключи с теми же значениями. Ну и пробовать, тут уже дело вкуса. По идее это хак, разработчики на это не рассчитывали.
Аноним 15/05/25 Чтв 13:17:48 1203652 478
>>1202892
> для меня это супер важно
0% осуждения, 100% понимания. Здесь все твои друзья.
Аноним 15/05/25 Чтв 13:19:50 1203656 479
Аноним 15/05/25 Чтв 13:26:01 1203667 480
>>1203652
переплатил х3 чтобы быть врамцелом...
Аноним 15/05/25 Чтв 13:26:49 1203668 481
>>1203652
> Здесь все твои друзья.

But then

>>1202379
> Мы тут тебе не дружбаны
Аноним 15/05/25 Чтв 13:30:54 1203676 482
>>1203667
Завидуй молча, анон. И вобще врамцел это тот кому не дают, а не тот кто не берет
Аноним 15/05/25 Чтв 13:40:28 1203686 483
Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса.
Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще.
Со старым промптом всё норм, видимо хорни часть в промпте обязательна:
Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw.
Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc.
Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.
Аноним 15/05/25 Чтв 13:45:40 1203694 484
>>1203667
> х3
И когда у нас 4090-48 были по 135, мой маленький врунишка?
Аноним 15/05/25 Чтв 13:47:20 1203697 485
>>1203694
Ай не пизди, вот мне сон хороший снился где было даже дешевле, там и хоппера по цене его тдп в рублях взять можно было.
Аноним 15/05/25 Чтв 13:47:52 1203699 486
>>1203686
Какой пиздец. Мне всегда и смешно и страшно когда я вижу такие систем промпты. Потом аноны забывают это говно убрать, ставят новую модель и идут в тред "ррррряяя кумбот безмозглый а не модель"
Все нормально там играется и без этого непотребства в систем промпте или префилле. Просто играть нормально надо, а не whips out cock на первом сообщении
Аноним 15/05/25 Чтв 13:52:17 1203708 487
>>1203699
Альтернативы?
У меня даже кумботы не хотят очко лизать, приходится ручками править сообщение каждый раз удаляя "ух, как хорошо поебалися, ну а что там о..."
Аноним 15/05/25 Чтв 13:54:10 1203711 488
>>1203697
Хоть у меня и скромная зарплата в 120к, хуле, я не наносек.
Но, блджад, когда хопперы были по 1млн, надо было брать по кредитной карте. Спокойно бы гасил.

>>1203708
Альтернатива использовать человеческие промты, а не сиск писик.

https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth
Аноним 15/05/25 Чтв 13:58:47 1203723 489
>>1202892
>чуть меньше 400
ты ёбаный сумасшедший, ты понимаешь это? Хули тут так мнго? Разве из китая напрямую не дешевле? Даже на лохито эти карты по 330 продают.
>>1203667
двачую. Вообще охуеть.
Хорошо мамонта прогрели, ничего не скажешь, хоть охлад на него лепи.

владелец сборки в ОП-посте, 144 гб врама, на все ушло примерно 330к, учитывая одну сгоревшую 3090
Аноним 15/05/25 Чтв 14:00:16 1203730 490
Аноним 15/05/25 Чтв 14:00:47 1203732 491
>>1203723
330 меньше 400.
Не делай поспешных выводов.
А вообще : не охуевай, анон захотел, анон взял. Это его дело, просто порадуемся за него.
Хоть и немного завидую, чего уж там.
Аноним 15/05/25 Чтв 14:02:07 1203736 492
>>1203723
>144 гб врама
Что там по скорости, шуму, потреблению и занимаемому месту?
Аноним 15/05/25 Чтв 14:09:16 1203750 493
>>1203711
Зойчем тебе хоппер ? Я серьезно.
Он жрет больше 700 ватт, он огромный, он практически бесполезный для дома. Это серверное решение, которое не нужно дома. Дешевле себе дома собрать риг, хотя бы потому что если что-то из рига сгорит - ты будешь страдать, но не сильно. А если сгорит эта печь - ты вскроешься.
Да, он классный, большой. Но ты же не покупаешь белаз чтобы кататься по городу.
Аноним 15/05/25 Чтв 14:12:52 1203757 494
>>1203711
Вообще поддерживаю по поводу переплаты, от местных кабанчиков за 370 относительно норм "фирма" и с гарантией веселее чем 450, везя с Китая без наценок и гарантий можно было и менее 300 взять. Тут только что водянка и должно быть тихо, но это имеет также и свои минусы.
> когда хопперы были по 1млн
За 1 не видел, видел за 1.5, но надо было брать, да. Оче приятная карточка. В ближайшей перспективе можно будет взять только "хопер дома" на блеквелле, по перфомансу офк он нормально так слабее.
>>1203723
> 144 гб врама
72 + 72 с дичайшими компромиссами, даже юзабельным трудно назвать. А тут вполне функциональная гпу, которая будет работать без вопросов везде.
>>1203750
То что можно делать на хоппере без шансов пустить на риге, то что можно делать на риге на хоппере будет крутиться шустрее. Офк брать его для инфиренса ллм - маразм в вышей степени, но не им единым.
Аноним 15/05/25 Чтв 14:15:23 1203762 495
С практической точки зрения китайцам вместо 4090 на 48гб надо бы делать 4090 с 256гб lpddr5x, для инференса больших моделей. Додумается кто-нибудь?
Аноним 15/05/25 Чтв 14:18:03 1203770 496
>>1203711
Ты скинул буквально чуть модифицированный промпт который по дефолту в таверне есть, с ним худшие аутпуты из всех.
Аноним 15/05/25 Чтв 14:20:05 1203773 497
>>1203762
Тебя нужно в депутаты, выпустил бы закон о запрете болезней и бедности, сразу станем здоровыми и богатыми.
Аноним 15/05/25 Чтв 14:23:08 1203780 498
wa.png 42Кб, 624x464
624x464
>>1203770
>чуть модифицированный промпт который по дефолту в таверне есть
Какой из ?
>с ним худшие аутпуты из всех.
Если ты приведешь доказательства, я признаю свою неправоту и принесу извинения анону за хуиту.
А пока выглядит так, что ты ссылку даже не открывал.
Аноним 15/05/25 Чтв 14:26:14 1203786 499
изображение.png 10Кб, 506x219
506x219
Аноним 15/05/25 Чтв 14:27:10 1203790 500
Кто-нибудь в треде пользовался яндексом лайт 8б? Семплеры не подскажете?
Аноним 15/05/25 Чтв 14:28:00 1203793 501
>>1203786
По указу компартии китая, память переходит со стандартной двоичной системы, на коммунизм. А для коммунизма нет ничего невозможного.
ПЕРЕКАТ Аноним # OP 15/05/25 Чтв 14:28:20 1203795 502
Аноним 15/05/25 Чтв 18:24:10 1204253 503
>>1201469
Гемма 12, на которую я перелез особо не отличается от мистраля, есть какие-то положительные стороны, но бывает залупается.
>>1202045
Быстро это насколько? 5 т\с или ниже? У меня сейчас 8 т\с
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов