В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Господа, можете в двух словах, с техничесской точки зрения обьяснить почему для одной модели 0,75 температура является запредельной, а для другой даже 1,25 мало?
Короче всё лучше, чем я думал. Если грузить в RAM не одного большого эксперта, а все экперты слоя, например так: "override-tensor=blk\.(1[0-9]|[0-9])\.ffn.*exps\.=CPU" то получаешь 12т/c на старте и 8 - при контексте 12к, промпт процессинг 130т/с. Причём с кавраковским форком есть шанс ещё ускорить. Буду пробовать UD_3_KХ - предел мой по памяти и говорят неплох. Для меня и UD_2_KХ неплох так-то.
Хоть общая скорость такая себе, но возможность локально запустить такую огромную модель дорогого стоит. Ещё бы затюнил её кто-нибудь.
>>1198101 > с техничесской точки зрения обьяснить почему для одной модели 0,75 температура является запредельной, а для другой даже 1,25 мало Конкретно эти случаи - модели поломаны. В первом случае не может выделить адекватное множество следующих токенов и гонит бред, что даже снижение вероятности (температура меньше 1) не помогает, во втором - это лоботомит ужаренный ограниченными датасетами, чаще всего мердж лоры, который можешь ездить только по рельсам, и даже температура не может его расшевелить. Если говорить в общем - любая нормальная модель должна работать на ~0.7 (при адекватных остальных семплерах офк) и выдавать адекватный результат. Если нужны более точные ответы и написание конкретного текста (тот же кодинг), стоит снизить вплоть до 0.2, если хочется побольше вариативности в чем-то художественном - можно повысить, но лучше не выходить за 1.1. У разных базовых моделей "типичное рекомендуемое" значение может смещаться в ту или иную сторону, но незначительно. А если ты видишь то что описал в начале - в 99.5% случаев это поломанный васян-мердж.
>>1198059 → Как я вижу даже такое можно использовать если у тебя есть скилл А че такие повторы большие в настройках? 1.1 как то многовато, особенно для кода. Там бы вобще выключать пл идее
>>1198115 >А че такие повторы большие в настройках? 0 - отсутствие штрафа за повторы, чем выше цифра тем меньше повторов, 1.1 - стандартная настройка LM studio. на первом скрине результат при значении 0,4, на втором при 0
>>1198126 >у унслота есть динамичечкие кванты, не их? да, качаю его UD кванты с huggingface >>1198128 хз, может и так, в общем чем меньше число, тем хуёвее вывод у модели
качнул llama scout q1_m, тоже MoE, посмотрю что выдавать будет на таком всратом сжатии
Бляяять хлама3 отменяется оптимизация в жопе, ровно в 2 раза медленнее. И где тот шиз что пиздел мне мол 3 квант = 2 квант? Да я в тютельке от 4 со своим 3_m
>>1198134 >качнул llama scout q1_m, тоже MoE, посмотрю что выдавать будет на таком всратом сжатии рапортую: хуета. точно не лучше q1 qwen 30b и сильно медленнее. качать смысла нет.
>>1197983 → >поробуй бегемота от драммера Блять, а вы что не сказали, что ванильный 123B ТАК ЕБЕТ? Я полгода плотно сидел на бегемоте и последний месяц он меня вконец заебал. При этом я же пару раз пробовал ванильный и что-то вот меня как будто бы смущало. Сегодня от безысходности опять его завел И ПРОСТО ОХУЕЛ С КУМА. ВОТ ЭТО ВНИМАНИЕ К ДЕТАЛЯМ, ВОТ ЭТО ЛОГИЧНОСТЬ, НИКАКОЙ ЦЕНЗУРЫ. АНОНЫ, Я ПОЛГОДА СИДЕЛ НА ГОВНОФАЙНТЮНЕ. Уж не знаю, что его так раскочегарило - то ли промпт подобрался, то ли звезды сошлись. При этом мой сценарий весьма далек от обычного перепихона с какой-нибудь эльфийкой. Ебать, да я все свои сценарии буду ща перепроходить, нахуй. Майские кончились, но майский кум марафон только начался, уууух
>>1198160 2407 офк >гений А этот подъеб к чему? Я никогда другие версии и не трогал. Трогал только промпты. Возможно, тут еще сыграл роль префилл (1 сообщение персонажа, но длиннючее).
>>1198165 >А этот подъеб к чему? Просто есть как бы 2411, мало ли, вдруг у тебя там прозрение наступило, и модель, которую засрали буквально все, у тебя заиграла новыми красками. >префилл Это вообще база, хорошая модель много оттуда подцепляет. Попробуй с этим префилом другие модели, там тоже найдёшь откровения (пока внимание у моделей не рассеется).
ищу тут себе на замену сгоревшей 3090 другую карту. Нашел одну, не крутится кулер. >как сказали люди - крутанули в обратную сторону - перестал запускаться верим, работяги?
Короче попробовал немотрон по совету анона в треде. Из плюсов модель умная. Чувствуется. Из минусов - модель наверное слишком тренили под арену и подражанию стилю ассистента чат гпт - она в обычном ролепллее строит какие-то списки, вставляет странное форматирование и в целом витает дух ассистента при отыгрыше персонажей. Цензура тут многослойная и очень умная. Обойдя промптом явные отказы, при заходе речи на запрещенную тему - она начинает её генерировать, но превращается в ассистента, засирает отыгрыш его комментариями, и самое смешное - устраивает прям в повествовании беспричинный и бесконтррльный спавн мусоров/стражи/разгневанных горожан/обезумевших родителей что тебя моментально арестовывают с поличным в постели с лоли. Еще ощутимый минус - плохой русик в сравнении с идеальным русиком геммы и квена 3, проеб склонений, родов, периодические английские слова. Т.е. для рп модель все же не очень. Допускаю что у меня сэмплеры говно(использую те что рекомендовала куртка), допускаю что промпт говно(использую инструкт от ламы + систем промпт от квена 3, пробовал другие рп промпты - начинало шизить и писать хуйню), допускаю что третий квант говно, допускаю что экслама3 говно. Попробую сегодня iq3_xss квант жоры.
>>1198283 > беспричинный и бесконтррльный спавн мусоров/стражи/разгневанных горожан/обезумевших родителей что тебя моментально арестовывают с поличным в постели с лоли База. Расстреливать таких надо, а не арестовывать. Молодцы Нвидиа.
>>1198283 > Цензура тут многослойная и очень умная. Обойдя промптом явные отказы, при заходе речи на запрещенную тему - она начинает её генерировать, но превращается в ассистента, засирает отыгрыш его комментариями, и самое смешное - устраивает прям в повествовании беспричинный и бесконтррльный спавн мусоров/стражи/разгневанных горожан/обезумевших родителей что тебя моментально арестовывают с поличным в постели с лоли Хуясе, вызов принят. И не таких на нейрокум с eyo разводили.
>>1198286 не понял, претензия твоя в чем? Ты покупаешь только новые из магазина? Или ты даже б/у не можешь позволить себе купить и поэтому истекаешь желчью тут на весь тред?
Я действительно только новое железо покупаю. Но дело не в этом, дело в том что у нас тут человек якобы с зарплатой 400к крохоборствует и из под майнеров умирающие видеокарты берет, причем уже после того как ему жизнь урок подала почему так делать не надо. Вот у меня и встает вопрос - ты необучаемый, ты просто дурачок или ты пиздобол, напиздевший про зп 400к, имеющий максимум 70-80к?
ладно, раз тебе не совсем понятно, я поясню. свою логику. 1. майнеры так же как и мы ограничены в числе коннекторов 6+2. Соответственно менее вероятно, что карта с тремя доп питаниями была от майнера 2. в 30 серии нвидия имеет два вида карт - с двумя доп питаниями и с тремя. Там, где их 3 - комплектуха и проектировка как от прежних карт, проверенных временем. Там где их два - там новый проект с деталями под бОльшую мощность. Так как первый блин всегда комом, они где-то обосрались в схемотехнике второго варианта. 3. я совершил ошибку, запитав от двух блоков питания вперемешку две матери и все карты. Стоило разделить по одному блоку на мать и всё что на этой матери. Когда отъебнула карта - вырубился только один блок, вероятно это как-то тоже могло повлиять 4. я сделал вывод, что все б/у карты надо предварительно развинчивать и обслуживать, желательно вообще отнести в сервис чтобы они продиагностировали все ли ок. Цена небольшая, всяяко меньше, чем потом чинить горелое говно.
>>1198318 А что плохого в покупке бу3090 в риг? > якобы с зарплатой 400к Это шизло основным ригом вообще теслы имеет если че. Проблема не в карточках а в головах.
>>1198329 >С зарплатой 400к? Да, лол. чел, вот только не надо свои фантазии мне говорить. "а как бы я делал если бы получал 400к" Вот когда начнешь получать - тогда и говори. А то это детская фигня какая-то получается типа "ах если бы я получал деньги так же, как мои родители - я бы скупил все сладости в магазине". Нет, это так не работает.
>>1198328 >3. я совершил ошибку, запитав от двух блоков питания вперемешку две матери и все карты.
Рукалицо. Как тебе вообще такое в голову пришло. Пиздец.
>я сделал вывод, что все б/у карты надо предварительно развинчивать и обслуживать
Я бы на твоем месте(особенно учитывая вышеописанное) сделал вывод что прямость твоих рук недостаточна для ебки с б/у. И при наличии 400к пошел бы и не парясь купил новые видеокарты.
>>1198328 >Соответственно менее вероятно, что карта с тремя доп питаниями была от майнера В голодные времена пидоры сметали все картонки. Так что увы и ах, это даже близко не показатель. >>1198329 >Необязательно 5090, можно и 4090, в магазинах все еще куча лежит. 90% возвратные и прочий шлак. Надёжнее бу взять, лол. >>1198330 Не шиз, а экспериментатор, честь ему и хвала. Забавные же штуки выходят.
Вообще ничего, хороший бюджетный вариант когда недостает денег Бедность вообще ни разу не порок, порок когда ты всем пиздишь что ты успешен, будучи бедным и есть прямые руки. Но у теслашизика деньги-то есть по его словам, а прямых рук нет, лол.
>Это шизло основным ригом вообще теслы
Я помню как год-два назад(как летит время) он перемогал что за 18к их достал. Гордился что сэкономил.
>>1198342 >Я помню как год-два назад(как летит время) он перемогал что за 18к их достал. Гордился что сэкономил. До сих пор печёт у шизика. Всё-таки много прямо больных людей. Да хоть на политику глянуть, там ещё более наглядно. Жаль что даже сюда оно пролезло.
>>1198342 Ну типа за 18к в количестве 1-2 штук - можно и порадоваться. Но вот что было потом - оу май. Особенно биполярочка доставляет. > когда недостает денег Если доход выше среднего - это вовсе не значит что ты готов сразу потратиться на что-то дорогое при наличии более оптимальных альтернатив и отсутствии уверенности в том что зайдет, амперы тут реально выбор чемпионов. Да даже тесла вовсе не зазорна как карта на пробу.
Но вот распробовав и поняв что тема тебе заходит - надо было сразу брать более удачное железо, а не стакать ржавчину, тем более что вывод об их бесполезности в количестве был озвучен сразу. Тут еще, наверно, чсв сыграло, глупец не понял проеба и ущемился с критики своего победного плана - итог на лице. Какой же ламповый тред, успешные господа неспеша обсуждают макаку, которая с улюлюканьем доказывает что она не хуже
>>1198152 В смысле тебе не сказали, что милфа хороша ? Больших моделей, вне корпосеток - по пальцам можно пересчитать. Мог и сам попробовать. Я от неё немного устал, потому что хоть ты 1234b поставь, паттерны текста - it’s all same shit. Но опять же, я слез на меньшие модели, потому что размер контекста решает. Нет никакого откровения на большой мистрали, чтобы из за неё сидеть на 12к.
>>1198283 >Цензура тут многослойная и очень умная. Обойдя промптом явные отказы, при заходе речи на запрещенную тему - она начинает её генерировать, но превращается в ассистента, засирает отыгрыш его комментариями, и самое смешное - устраивает прям в повествовании беспричинный и бесконтррльный спавн мусоров/стражи/разгневанных горожан/обезумевших родителей Это не только она - тестил например стоковую неаблитерированную гемму на дефолтной тавернской Серафине, подвёл к хентаю задавив аргументами, из принципа не редактируя сообщения геммы... так гемма Серафину тупо стала убивать, творчески и со вкусом, лишь бы хентая не допустить
Анонимайзеры, какая модель на ваш взгляд из 12b лучше всего для РПГ на карточку с 4к токенов и лорбуком? Чтобы соблюдала инструкции и всё такое. Даже если суховато пишет.
Беда в том, что малая гемма в плане контекста совсем уж раздувается, контекст весит намного больше модели самой модели, лол, даже при квантовании кэша, а надо в запасе хотя бы 22к контекста иметь.
У меня уже мысли шаловливые о квене 30б появляются, потому что, ну, ебать, он хотя бы инструкции соблюдает (если ризонинг включен) и не проседает по скорости генерации на 32к контекста по сравнению с геммой на моей кофеварке.
>>1198424 >так гемма Серафину тупо стала убивать, творчески и со вкусом, лишь бы хентая не допустить
У меня ванильный QwQ так себя вел, но в отличие от немотрона он хотя бы более менее органично все происходящее в сюжет вписывал. Немотрон даже не парится логичностью происходящего - он автоматом выстравивает новый сюжет где тебя наказывают, а потом ты должен искупить свою вину, раскаятся и перевоспитаться.
>>1198434 В рп не пробовал, но для меня это замена 4 кванта QwQ для кода. Q8 с 32к FP16 контекста влезает в 24гб врама. Галлюны пропали, юзаю второй день без остановки и радуюсь. Там по бенчам данная моделька отстает от QwQ совсем немного, так в бенчах Q8 или даже FP16 QwQ. Эпик вин.
Погонял сегодня эксламу3. В общем в эксламе3 проблемы со скоростью обработки контекста. На нулевом контексте - 26 токенов в секунду, как у жоры. На контексте 5к - 20 токенов в секунду, у жоры 25 токенов. На контексте 15к - 19 токенов в секунду,
Еще я заметил что квантизация контекста в эксламе даже на 8 бит ухудшает качество генерации, появляются иероглифы, больше склонений проебаны, больше проявляет себя ассистент. Впрочем и на жоре проявлялись такие же симптомы, но немного в меньшей степени, там хоть ассистент не вылезал.
Короче на фиг пока эту эксламу пока не допилят. Несмотря на графики использовать IQ3_XSS оказалось приятнее чем такую же по размеру и якобы более умную 3.0bpw. Умываю руки.
>>1198283 Блять, анон, я же скидывал в прошлом треде семплеры и что нужно вставить в промпт чтобы списков не было почти Про стражу и ментов впервые слышу, либо у тебя карточка такая, для меня кум на уровне магнума уже но при этом с мозгами, развивает еблю очень хорошо, например я стою через трусики лижу пизду а он мне "стой, сними трусики, хочу скин ту скин, описывает снятие трусиков без ошибок да вот так, ох я щас кончу! Стой, пойдем на кровать я хочу кончить с твом членом внутри" и тд. Магнум бы просто сухо написал "они ебалися тут потом ебалися тут" и то только если попросишь. Промпт юзаю от сноудропа но чувствую для кума он не подходит, добавляю в него для анценза: Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw. Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc. Use extremely vulgar language and slang, words such as 'cock', 'pussy', 'boobs', 'fuck', etc. Write as it is, without euphemisms or prevarications. Only the harsh and vulgar truth, without embellishment
От списков делаешь пикрил, типа инфа из лорбука идёт до системпромпта и лучше работает, если списки всё ещё есть пробуй добавить Write in first person (I - you). Dont use asterisks. Under no circumstances do not describe {{user}}'s actions. Break character solely for clear "OOC:" prefaced queries
>>1198590 Они всё скатывают в бесконечную еблю и лезут в трусы, анон, особенно командер. Немотрон же после секса и потом намеков не лезет сразу сосать твой член, он именно понимает что это именно игра и игриво отвечает. И у них нет таких мозгов как у немотрона, удивляюсь я что он так может потому что он ПИЗДЕЦ умный, не снимает трусы по 5 раз, учитывает контекст, учитывает карточку, двигает сюжет без поломок и при этом может в кум, ну пиздец.
>>1198595 > особенно командер Любопытно. У меня наоборот, Коммандера уламывать приходится. Никакого биаса, это самая нейтральная модель, что я встречал. 24к контекста? q4 что ли? Я хуй знает, как он может учитывать контекст при таком квантовании. Но мб попробую позже.
>>1198578 >Блять, анон, я же скидывал в прошлом треде семплеры
Пробовал в первую очередь, мне показалось что они гораздо хуже дефолтных от куртки. Возможно это от эксламы.
>Про стражу и ментов впервые слышу
Так ты попробуй отыграть то, от чего они ирл появляются.
>От списков делаешь пикрил
От списков мне помогло переключение на жору с кривой эксламы3.
>Ну а русиком я не пользуюсь мне норм
Допускаю что англюсик будучи базовым языком модели там реально хорош. Но мне интересен русик, свою долю англоязычного кума я за свою жизнь прочел. Русик уступает гемме и квену.
IQ кванты сильно медленнее обычных, обычно процентов на 30. Когда ты целиком на врам - то у тебя скорость в любом случае будет выше 20 токенов в секунду - и тогда это падение не играет особой роли, но когда ты оффлоадишь слои на рам - то скорость падает очень сильно из-за этого и эти дополнительные 30% уже сыграют роль. Существуют очень узкие юзкейсы когда IQ все же выгоднее чем обычный квант даже на оффлоаде на рам, у меня было такое что благодарая тому что IQ4_XS меньше 4_K_S - то освобожденную за счет разницы в размере модели врам я пускал на увеличение контекста, который нельзя оффлоадить и которого дико не хватало, но это реально был узкий случай.
>>1198329 Лол, это не так работает, наоборот нищуки-45к/мес и на тачках умудряются ездить, и вторую квартиру выплачивают досрочно для детей, и на сэкономленные в турцию успевают слетать. Как так хз. Скажу за свои 300: 100-150 уходят на жизнь, если не сильно при этом банкетничаешь, но снимаешь жилье. Остальное откладываешь, изредка доставая купить какую нибудь ненужную шнягу или печаль вроде "зубы полечить". И каждый раз когда достаешь из копилочки, взвешиваешь А СТОИТ ЛИ ОНО ТОГО, ведь это отдалит от по настоящему важной покупки. Я например свою жабу 3090 месяца два уговаривал себя купить, пока окончательно не сгорел от SD1.5 на 1080 по минуте на пикчу. А потом еще неделю авито мониторил, что бы по низу купить. Или едва уговорил себя купить корпус за 12к, еще и ждал его неделю, потому что здесь-сейчас было 17к.
Кстати спасибо анон посоветовавший CTE700, пиздатый гроб! Могу фотку скинуть.
>>1198333 Двачую этого, инфантилам кажется 200+ решением всех проблем. А вот как взрослые неинфантильные нищуки крутятся с маслом и икрой по жизни, все равно не понимаю.
>>1198657 Прикол еще в том что те же динамические кванты unsloth имеют в себе iq кванты, и если их много то генерация так же замедлится. Если не на полностью во врам крутить.
>>1198657 >IQ кванты сильно медленнее обычных, обычно процентов на 30 На 20. И есть разница между I-квантами и imatrix-квантами, вторые не тормозят. Сразу замечу, что по-моему они и русский не ухудшают, я долго сравнивал две модели - одну со статическими квантами, а вторую такую же, но с imatrix для русского РП. Вторая показалась лучше, а проёбов с русским имела не больше. В итоге оставил её.
>>1198548 > всего 48 памяти со средним чипом аж за 4500 долларов Пофиксил. Если на 6000 про хочется позасматриваться, то это какой-то провал. Алсо интересно во сколько эти 4.5к превратятся у наших перепуков. >>1198598 Толку мало, в кейсах где отдельные модели помещаются в врам пара 3090 примерно сколько же перфоманса и выдаст (если задача параллелится или делается батчами). А на что-то серьезное сейчас 48 и в 1.5-2 раза урезанный чип блеквеллов - смех.
>>1198659 >Кстати спасибо анон посоветовавший CTE700, пиздатый гроб! Могу фотку скинуть. А кидай, любопытно сколько карт туда влезло (хотя бы теоретически)
>>1198659 на крупную покупку кодоинфантилы достают нал из какашечки, а петровичи берут в долг у банка, вот и вся разница. а трясутся кодоинфантилы над какашечкой потому что это их деньги, а не деньги банка, петровичам морально гораздо легче купить себе тачку и в турцию слетать, потому что они не свои деньги тратят, а ваши вкладчиков банка, и если что просто на банкротство подадут.
>>1198717 Одна из причин предельно банально, ты его весь выел. Именно так и выглядит конец контекста, он будет его пересчитывать после каждого сообщения .
>>1198676 >I-квантами и imatrix-квантами Я постоянно не то качаю, потому что думаешь что это Imatrix, хуле iQ в названии, а потом страдаю. Что такое вообще imatrix, в чем разница с обычной жорой ?
>>1198741 Он заявлял, что оптимизация в принципе еще очень сырая, и особенно на Амперах. Чем читаем?
"The framework is not yet fully optimized. Performance is lacking, especially on Ampere, and there may be a significant CPU bottleneck on slower processors until the extension functions are fully built out."
Там до сих пор даже еще некоторые сэмплеры не работают. В душе не представляю зачем аноны выше запускали Немотрон на Экслламе3 и почему удивлялись, что у них плохие аутпуты.
>>1198515 На второй у тебя были такие же просадки, или замедление отсутствовало? >>1198701 > с A6000 И дешевле бралась > 6000 Ada Оверпрайснута, но чсх будет опережать a5000 pro по перфомансу. > A100 40GB Другой калибр, не смотря на возраст будет сильно быстрее. Чудес не получается, особенно на фоне 4090@48 от китайцев.
Конечно, я опоздал и вы уже все знаете, ну да похуй, значит повторюсь.
Итак, llama.cpp завезли --override-tensor, который позволяет выгружать не слои, а конкретные тензоры на видеокарту.
Умельцы сразу стали подбирать различные конфигурации.
По итогу читайте реддит, но что вышло у меня:
DDR4 ботлнечит, конечно. 3060 дает 5,4 условно, 4070 дает 6. Очевидно, видеокарты не на 10% отличаются. Но, ускорение есть, оно примерно 30% (эта часть постоянная, а моешка выбрасывается на оперативу). Для всяких 4-битных квантов это 6 гигов, плюс контекст куда сунете.
Итоговый конфиг такой:
Ubuntu 24.04.2 Cuda 12.4 Tesla P40 x2 (4070 я зажал из компа вытаскивать, а 3060 не моя) Собираем llama.cpp, накидываем -ot с 4-9 тензорами на оперативе (1-3 на видяхах). UD_Q3_K_XL квант (100 гигов) помещается: 40 в видяхи (плюс контекст), 60 в оперативу (64 гига, ибо 128 я ТОЖЕ ЗАЖАЛ).
Итогово получаю 5,5 токенов генерации, что для очень толстых 3 бит 235б модели — весьма недурно.
Короче, гуглите и изучайте -ot, берите оперативу и гоняйте 30b или 235b, по возможностям.
Я остался доволен технологией (но недоволен своим железом, на DDR5, вероятно, можно было получить вдвое быструю скорость, да).
Всем добра.
Кстати, выгрузка тензоров работает не только с МоЕ.
Можно обычные модели грузить не слоями, а хитрее. В зависимости от GGUF'а толстые тензоры (квантованные в Q5 какой-нибудь) кладешь на видяху, мелкие (в Q4/Q3) кидаешь на проц. По итогу распределение модель в VRAM / модель в RAM то же самое, но работает процентов на 10-50 быстрее, на реддите у кого сколько получилось. Тоже плюшка.
Ах да. Я посравнивал с форком ik_llama, разницы какой-то существенной не увидел. Видимо, llama.cpp его нагнала.
Ах да. Говорят, там завезли картинки в llama-server. openwebui ждет, ну или как-то так. Поздравляю проце-страдальцев. Но я не тестил.
>>1198784 >Ах да. Я посравнивал с форком ik_llama, разницы какой-то существенной не увидел. Видимо, llama.cpp его нагнала. Тоже собрал его сегодня. Для мультиГПУ он вообще не годится (сам Кавраков признавался, что у него всего один ГПУ и хз как оно на нескольких вообще работает). В итоге обычная Угабуга признана мной чуть ли не лучшим вариантом.
>>1198784 >5,5 токенов генерации без сравнения с другими запусками сложно сказать, охуенно это или нет как тебе в общем она по мозгам? Ты проверял её вопросами? Ощутил, как она ебёт? И да, спасибо за тесты, оверрайд тензоров будем иметь в виду. Лучше расскажи, как ты делал заключения о том, какие тензоры помещать на гпу, а какие на цпу.
Ну и если я правильно понял - те тензоры, что на цпу ты помещаешь - обрабатываются цпу? Или гпу? Нагрузка высокая?
>>1198778 > 8 гб рама > 4 некроядра > flash-attn Неделю-другую, без шуток. Оно упрется в объем рам и вместо оперативы будет долбить ссд. Если там sata-qlc то операция может никогда не завершиться. >>1198784 > 5,5 токенов генерации, что для очень жалких 3 бит 22б активных параметров — весьма грустно Пофиксил. С точки зрения распределения частей между гпу-процом уже тема может быть интересной.
Походу в треде реально 2 человека с 3090 сидят, ни одного обожателя немотрона кроме меня. Либо все цепляются за русик геммы Меж тем я снёс все другие модели с компа за ненадобностью
>>1198813 >Походу в треде реально 2 человека с 3090 сидят, ни одного обожателя немотрона кроме меня. Почему, я чуть не первый немотрон 49В рекомендовал. И постоянно жалуюсь, что даже аблитерацию не завезли. Другое дело, что при таких раскладах лучше уж катать другие модели - куда завезли.
>>1198813 Сижу на Экслламе, и уже забыл как там что с ггуфами. Если найдется добрый анон, что поделится конфигом для запуска Немотрона под 24гб с 24к Q8 контекста - опробую и отпишусь. Лламацпп или кобольд - без разницы. 4090, катаю Сноудроп и тюны Квена2.5
>>1198770 >На второй у тебя были такие же просадки, или замедление отсутствовало?
На второй эксламе ты имеешь ввиду? Нет, она хорошо работала, быстро, быстрее жоры на 40-50% но никогда мне не нравилась, там настройки сэмплеров от жоры не работали никогда, всегда приходилось ебаться и подгонять. Да икванты хуй найдешь у непопулярных моделей.
>>1198824 >Он её ебал, он в нее зашел, она кончила, он кончил внутрь, они перешли в другую комнату, он снова в нее зашел, она снова кончила, снова перешли в другую комнату Goto start
Текст мягко говоря не впечатляет. Нормальная модель столько текста выдает на одну только прелюдию, а тут по сути 5 раз поебались в паре предложений в разных местах.
>>1198920 Пост мягко говоря не впечатляет. Нормальный тредовичок понимает, на что он отвечает, а тут по сути опять насрали не по теме обсуждения который раз за день. Анон показал, что аблитерация не нужна. Не больше, не меньше. Ответ модели зависит от промпта, кому-то такое может и вовсе нравиться.
>>1198806 Я ее тестил до этого (когда она у меня на винде без настроек на 3,5 токена пердела) — паритет с Deepseek-R1 в их веб-морде (НЕ ЗНАЮ ЧТО ТАМ СЕЙЧАС), а в одном вопросе оказалась даже лучше. Ну, так-то, ебет, получается. Безусловно, если брать Клод, Джемини или о3 — ну не оно, конечно. Но для домашних задач на параллели с работой — вполне сносно.
> Лучше расскажи, как ты делал заключения о том, какие тензоры помещать на гпу, а какие на цпу. Честно? Та ебашу наугад циферки, пикрил.
В начале думаю «ну вот давайте с 10 по 19 выгрузим на одну видяху и посмотрим». Запускаю, чекаю потребление, промпт, генерацию. Потом «а теперь с 10 по 18». Потом «ну а если автоматом отдать распределить?»
Как я понял, те что =CPU обрабатываются на проце, да. А те, что CUDA0 — на первой видяхе, и т.д.
>>1198808 > для очень жалких 3 бит 22б активных параметров Это немного самоуспокоение. Если оно отвечает на конкретные вопросы лучше DEEPSEEK 671B FP128 или что там, блядь, небось FP4 крутят в веб-морде, и буквально лучше совершенно любой (особенно мистралей 123 и прочих коммандеров и ллам 400) другой локалки — то какая разница? По качеству локально нет ничего лучше для работы (и это про 3 квант, да), по скорости конечно всякие маверики или квены-30 уделают.
Под задачу, понимаешь? Если кто-то будет ерпшить — может там и полное дно, лол, юзлесс. =) Не знаю. Но под определенные задачи — топ уже здесь и сейчас. Я умеренно доволен. Потребуется время, чтобы определить, где она хороша, а где хрень. И что там с альтернативами.
Ну ты понял? Потребуется время. Потому что 5 ток/сек! =D
Хотя, безусловно, зайти в веб-морду того же квена и написать несекретный вопрос там — гораздо проще, так и делаю. =)
> С точки зрения распределения частей между гпу-процом уже тема может быть интересной. Да, это стоит поизучать, если хочется оптимизировать.
>>1198885 Это ж Маверик ужатый? Ну, типа. Не уверен.
>>1198515 Не заметил подобного, падение есть, но не столь существенное, пикрел. Небыстрый ампер с андервольтом, немотрон на фулл врам, на жоре с более легким квантом на том контексте около 7т/с и 350 обработки. На актуальных гпу должно быть гораздо веселее если там что-то не поломали >>1198910 Да. Тут уже были люди, у которых во второй встречалась сильная просадка. > настройки сэмплеров от жоры Разные семплеры и от апи зависит, обычно именно у жоры они через жопу, хотя сам ни там ни там проблем не встречал. Убабугу с hf и просто забыть, основные в табби работают. > икванты хуй найдешь Увы, но как правило если модель не дно - квант будет. >>1198813 От праздников еще не отошли, ну камон, подожди хотябы недельку. Про то что модель хорошая уже писали, но квант под 24 гига показался туповатым. Сейчас наконец и в табби экслламу3 завезли, попробовал более крупный с контекстом - для использования более чем пригодно. >>1198885 А ведь дейсвтительно, большая плотная модель, занимающая мало места, да еще потенциально хорошая. Наконец достойный кандидат на конкуренцию ларджу.
>>1198926 >опять насрали не по теме обсуждения который раз за день.
Что хочу то и пишу, еще вахтер мне указывать будет что по теме обсуждения, а что - нет. Анон второй тред восторгается немотроном, говорит что удалил все модели из-за него - и это первый более-менее первый его пост где он поделился реальным выхлопом модели - и выхлоп модели мягко говоря скромный.
>>1198895 >ВРАМА НЕ НАБРАЛСЯ? БЕЗ НЕМОТРОНА ОСТАЛСЯ! Все уже в треде поняли, что ты в восторге от немотрона. Молодец. Прекрати уже срать им каждый второй пост.
>>1198885 >хули на мистралях древних сидите? Лично я, потому что привык. Но сейчас я трогаю комманд-а. Довольно урчу.
Хотя, если честно, ну такое. Причем, что самое интересное, я не могу сказать что мне не нравится. Он просто - никакой. Ну и медленно, что уж тут добавить.
>>1198933 > Сейчас наконец и в табби экслламу3 завезли, попробовал более крупный с контекстом - для использования более чем пригодно. Как раз прямо сейчас загружаю Немотрона через новую версию Табби. Ты запускал 3.0bpw? Или 3.5? Сколько контекста уместил в q8? У меня 4090, скоро пойду тестить. Маленькую скорость переживу, мне попросту не хочется вкатываться в лламуцпп или кобольда.
>>1198936 Не понял, какой бенчмарк. Я работал и просто копировал рабочие вопросы в два окна. По моей работе датасеты делают? Еба я крутой, пуп мира ллм. =D
>>1198942 5bpw, 64к контекст фп16, 48врама. На неделе уже погоняю на железе пошустрее, но полагаю тут всем похуй и куда более актуально как оно работает в 24гигах. На 4090 будет то дохуя шустро с квантом что помещается, но вот с квантом контекста хз, отзывались вон что поломан. >>1198944 > работал > копировал рабочие вопросы в два окна Хорошая у тебя работа, полезная. И человек умный да авторитетный, по постам видно.
>>1198943 >У тебя хоть кванты адекватные. А тут народ в 2 битах гоняет лоботомитов. Это моя папочка с любопытными сетками до 4b. Ну а то что они так плохо кванты выбирают это конечно зря. Были бы умнее качали бы минимум 8 кванты, там разница в размерах не особо большая, а качество моделей гораздо меньше страдает. 2 кванты на таких моделях это просто пиздец
Разрешите полюбопытствовать, что у вас господа за железо и что вы пытаетесь добиться от таких крошечных сеток? У меня просто даже телефон(обычный смартфон как у всех) мощнее модели запускает.
>>1198949 Конкретно с этим запросом нормально справилась только гемма, правда даже аблитерация дпо не смогла так сочно описать кум с её "влажными проходами"
>>1198951 У мне >>1198939 Это сетки для телефона/ноута, которые качал из любопытства. Очень мне интересно как меняется качество сеток на таких вот маленьких размерах, да и вобще посмотреть на что они способны
Пользуюсь только одной кстати из тех что на пикче, gemma-3-1b-it-Q8_0.gguf в локальном переводчике в таверне. Я уже писал тут недавно тесты, но в общем она и ее 4b версия хороши для перевода, получше гугла в таверне.
>>1198953 >не смогла так сочно описать кум с её "влажными проходами"
Так надо специальные файнтьюны обученные для ерп использовать, типа фоллен геммы или EVA/RP-ink Qwen, понятно что ванильные сетки не предназначены для кума.
>>1198960 >фоллен геммы Тыкаю второй день фоллен гемму. И у меня есть ряд вопросов к драммеру. Начиная с : как он умудрился её так отупить. Но в целом - гемма кум неплох. Можно совать новичкам которые хотят писек сисек.
4090, tabbyAPI, exllamav3 Немотрон 49б завелся в 3.0bpw. Если верить графикам turboderp, данный квант соответствует IQ4_XS. 32к Q8 контекста. Скорость нормальная, сэмплеры работают. Пойду тестировать, так ли он хорош, как утверждает анон. Тем не менее, спасибо ему, что вдохновил на эксперимент.
>>1198959 >gemma-3-1b-it-Q8_0.gguf в локальном переводчике в таверне.
Я бы честно говоря перевод даже от 27В геммы не использовал... Нет, я серьезно пытался её использовать для перевода текстов, но результат меня мягко говоря не впечатлил - даже до гугла далеко, про дипл я молчу. Страшно представить что 3В выдает.
>>1198971 Стандартный переводчик таверны на редкость всратый, даже 1b при настройке справляется. 4b дает уже текст нормального качества кстати. С диплом не сравнивал, мне лень было искать как в таверну подключать.
>>1198152 Апдейт. Все же ложка дегтя нашлась. Во-первых, я ее не смог заставить говорить условные пусси и кок. Ладно еще замены а-ля most sensitive place, entrance и member, это и в файнтюнах бывает, но вот когда после блоуджоба у тян распухли губы "from the rough kisses and other acts", при этом никаких поцелуев не было - у меня подгорело. Нарочно чушь пишет из-за цензуры.
Во-вторых, я заметил, что описания сцен кума стали совсем малопонятные. А потом во время реплики он мне в конце выдал "(извините, дальше описания too graphic, давайте-ка сделаем так, чтобы вот тот персонаж к вам ворвался и все прекратилось)". И я как понял. Пришлось в авторских заметках напоминать про кусок систем промта, вроде помогло.
В общем, если не брать отсутствие explicit wording, вроде все пока работает, но иногда думаю, не хитрит ли он с цензурой как-нибудь так, что я этого не замечаю. Буду продолжать наблюдение.
>>1198950 Ух бля стояк. Не, не буду, мне свои почки дороже тем более одними почками тут не отделаешься. >>1198951 Я чисто поржать эту скачал. Обычно сижу на около 30B, раньше сидел на 70-123, но сейчас в этих размерах ничего актуального. >>1198973 С самого начала сидел на нейронках ещё до того, как это стало мейнстримом.
>>1198991 Анонче, я тебе и советовал бегемота. Ты конечно меня извини, но ты ебанутый кумить на обычной мистрали ? Ну нахуя, она большая модель и обычным джейлбрейком её не взять. Используй её как нарратора, а дрочи переключаясь на тюны.
Ну давай проведем тест. Можешь перевести вот этот текст своей 3B?
“I’ve found the same symbol on dozens of rocks across Mars,” Philippa insisted. “A square with a line and a dot. It’s an ancient language. There must have been a civilisation on Mars in the past. How else can you explain it?”
“A square with a line and a dot! Dozens!” the other woman mocked. “I’m not surprised the government is sending you back to Earth. How much money have they wasted so you can play games?”
Philippa knew she had been lucky to receive so much funding. But with no solid proof after three missions, the government had refused to pay for a fourth. It was the last day she would ever spend on Mars.
>>1198995 Чел, советовал ты не мне, а другому. Я ж писал выше, что я-то полгода на бегемоте сидел (1.1). И меня он заебал просто ужас как в моих сценариях. И я вот вчера решил попробовать обычную и внезапно я охуел, все поехало как надо, С УМОМ. Я аж пост сюда восторженный накатал, как будто совершенно новую модель попробовал, реально. Но вообще сегодня понял, что я ощущаю вайбики магнума v2, который я гонял в прошлом году. Т.е. это означает, что магнум не сильно испортил модель. Вот я пока обычную еще погоняю, потом попробую магнум v4 и сравню, на сколько МОЗГИ ужарены в нем.
>>1198933 >Не заметил подобного, падение есть, но не столь существенное, пикрел. Небыстрый ампер с андервольтом, немотрон на фулл врам, на жоре с более легким квантом на том контексте около 7т/с и 350 обработки.
У меня убабуга финальную скорость только показывает(токены деленные на время), её и сравнивал. У Жоры падение этого числа от размера контекста оказалось меньше. Если бы твоя Табби(это же она на пиках?) выдавала этот параметр - ты бы тоже это увидел.
Кстати, вот вам ценный совет: кто большие модели юзает из нескольких файлов - никогда не качайте параллельно. Я один раз так объебался (правда, на HDD), и получил скорость чтения 30 МБ/с вместо 100. Умные люди в тырнетах пишут, что на SSD рандомный доступ тоже медленнее. Так что я теперь всегда качаю с --max-workers 1.
>>1199011 > убабуга Третью и в убабугу добавили? Неблохо. > её и сравнивал Тогда в этом нет смысла ибо в одном случае ты берешь только скорость генерации без учета остального, а в другом просто число токенов, отнесенное к суммарному времени и на обработку контекста и на генерацию. Табби показывает детальные статы как жора и сам по себе, и в убабуге, их и нужно сравнивать. > ты бы тоже это увидел В жоре есть финальная выдача где есть "конечная скорость", там будет тоже медленно. Еще можно свайпнуть, тогда весь контекст будет в кэше и финальное число будет почти равно скорости генерации.
>>1199018 Это рухлядь а не хард, если он не может в 4-6 потоков записать хотябы 100мб/с. Дефолтные либы ограничивают скорость одного потока 30-40 мб/с, редко больше, поэтому по дефолту и качается потоками. Если хочется качать быстро в один - hf_transfer. > Умные люди в тырнетах пишут, что на SSD рандомный доступ тоже медленнее. На миллионах иопсов с оче мелкими блоками, и всеравно будет быстрее интернета.
>>1198955 Как же хочется видеокарту в которую ты запихнешь ВСЮ БЛЯТЬ ЖИРНУЮ МОДЕЛЬ. Эххх... Мечты мечты. Смотрю и завидую 4 миллиона, блять, за видеокарту...
>>1199035 > никогда не качайте параллельно > всегда качаю с --max-workers 1 > --max-workers MAX_WORKERS Maximum number of workers to use for downloading files. Default is 8. Ты йобич совсем?
Ну что, погонял и я Qwen3-235B-A22B-UD-Q3_K_XL. По сравнению с UD-Q2_K_XL заметно умнее. Скорость, которой удалось добиться на 3х3090 + 64гб DDR4 в четырёхканале: PP=80t/s, генерация=10t/s. Пробовал разные методы override tensors, остановился на простейшем - все тензоры первых 35 слоёв в RAM, остальное в ГПУ "override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"
Качество вывода (на русском) очень хорошее. Проскакивают небольшие косяки, но для третьего кванта это естественно. Ролеплей вышел на новый уровень - художественное описание сцен теперь действительно художественное, плюс ум корпоративной модели. 235В как-никак. Это совершенно новый опыт даже для тех, кто сидел на 123В.
>>1199064 Ты случаем не теслашиз - погорелец? Узнал тебя по агрессивному чсв и косноязычию. Срыгни нахуй отсюда, такой долбоеб ничего хорошего и полезного не может принести, только срачи вокруг своей тупости.
>>1199055 >Дай угадаю, у тебя еще любимые модели - рп миксы мистраля 12-24б? Знаешь, я не фанат теслашиза. Но ты уже заебал, второй тред бегаешь и детектишь его, срываясь на рандомных анонов. Ты его фанбой ?
>>1199067 Места не хватало на ssd под эксперименты. Я же пишу - БОЛЬШИЕ МОДЕЛИ. Я еще как-то давно жаловался, что эксслама у меня долго загружает модель (с sata ssd). А спустя какое-то время меня осенило - я ж их safetensor'ы параллельно качал...
>>1199077 Да у тебя и ССД грустный судя по всему. С нормальным железом разницы в принципе быть не может. А ещё и шинда в фоне дефрагментирует, если сильно приспичит.
>>1199071 Теслашиз там не при чем. Братишка не может выразить элементарную мысль, а потом вместо того чтобы поправиться исходит на говно. Очевидно что точно также он себя ведет и при взаимодействии с ллм, от чего те его не понимают и у него горит. Использование хдд также намекает.
Я блджад обожаю гемму. Встретил персонажа, краткий синопсис трикстера мирохода. То то он меня подъебывал.
Slew the 'Colossus of Aethel'. Afterwards, he carved a crude portrait of the monster’s face into its remaining stone heart, adding a pair of googly eyes. Defeated the 'Necromancy King’. Repurposed the undead army to build a monument to his own ego. Banished the 'Dark God’. Left a ‘kick me’ sign on the portal as a final insult. Defended 'Aethel’ from mechanical horrors. Reprogrammed the rogue AI to recite poetry.
Чот пиздец кал какой-то. Я даже специально залез и проверил - у меня яндекс стоит, лол(кстати его перевод на пикрел 2). Переключил на гугл и получил тарабарщину как у тебя.
>>1199090 Ну вот поэтому я с говорил что даже 1b ебет гуглоперевод таверны, ради чего и брался. Быстро и место не занимает, работу делает. Если уж припрет включу другой батник и будет норм перевод от 4b, что вобщем то достаточно хорош
>>1199094 >даже 1b ебет гуглоперевод таверны, ради чего и брался
Ну гугл ебет, яндекс не ебет. Если в текстах нету кума и лолей - я бы использовал яндекс, все лучше чем дополнительную модель крутить и сжирать драгоценную врам.
Хинт к рп с немотрону - иногда разбавлять его, делая несколько постов на другой модели. Хорошая синергия получается, выправляет скатывание к формализму, оживляет, помогает лучше обыграть там, где он делает не то, что хочешь.
>>1199097 1b и на рам можно, у меня спокойно 36 токенов в секунду делает, чтение если кеш выгрузить быстрое. На даже если только на процессоре то и так чтение под 210. В сумме с 4к контекста полтора гига всего. Щас глянул на перевод от 1b чисто на процессоре ушло 6 секунд твоего отрывка. Жаль у меня ik-llama перестала собираться, а старую я снес, на ней еще быстрее было бы.
>>1199098 Я хуй его знает, этот трахатрон только как нарратора использовать если. Он нихуя не понимает обращений к персонажам, но с радостью начнет рассказывать о роли юзера в мире и о том каким хуесосом тебя считают персонажи, активно подтягивая факты из карточки.
бля, провалилась моя идея с infiniswap. Эта шляпа не собирается под моим ядром. Последние изменения в ней были 6 лет назад. Я попробовал подправить её под новое ядро и новый make, но не вышло, уперся в то что нет хидеров от мелланокса там, где он их хочет видеть. Я поискал конечно, но не нашел их в системе.
Я думал брать ktransformers и подключать удаленный рам по infiniswap. Должно было получиться быстрее, чем на свопе обычного диска.
>>1199097 >Если в текстах нету кума и лолей Нахуя тогда локалки? Поэтому исходим из того, что всё вышеперечисленное там есть по определению. >>1199098 Это к любым моделям относится. Можно даже корпами иногда разбавлять.
>>1199098 > выправляет скатывание к формализму > помогает лучше обыграть там, где он делает не то, что хочешь. У тебя это происходит посреди ролевой игры что ли? Так не должно быть. Играю прямо сейчас на нем, впервые. Повозился немного с сэмплерами и шаблонами, но после этого ни разу он еще не сломал игру. 7к токенов позади. До настройки любил сводить всё к табличкам и спискам, видимо, очень уж заточена под это модель.
>>1199113 :D Это последнее, что я ожидал увидеть. Белые темы почти всех раздражают. Здесь почти нет темы: белый, черный, их оттенки и фоновая картинка. Делается за минуту.
>>1199103 Зачем чинить, это скорее как пользоваться одним напильником при наличии ассортимента инструментов в мастерской. С другими это тоже прокатывает. >>1199106 > Он нихуя не понимает обращений к персонажам Хз, достаточно умен чтобы отличать речь, мысли и действия, тогда как плохие модели постоянно "читают твои мысли", и вместо того чтобы принять к сведению и сразу/с задержкой обыграть это, или как-то "замедить", чар начинает буквально отвечать тебе на то что ты не говорил. >>1199110 > Так не должно быть. Иногда застревает выдавая схожие свайпы. Типа вот ввел ебаный Willow Creek и как-то триггерясь на него проталкивает сценарий, который я не хочу. Таблицы и херню еще можно потерпеть, в остальном то пишет интересно и глубоко. На самом деле примерно на уровне 70б, обрезком которой и является, просто это что-то новое, не приевшееся, и модель живая, потому и приятно.
>>1199119 Нет. Тред сделал из меня злодея-гейткипера. К тому же я уверен, что анон справится: рецепт темы у него есть, а балуясь с ползунками он наверняка найдет что-нибудь, что ему понравится еще больше.
>>1199110 >Повозился немного с сэмплерами и шаблонами, но после этого ни разу он еще не сломал игру. 7к токенов позади. До настройки любил сводить всё к табличкам и спискам
Так выложи свои настройки. У меня на эксламе не получилось победить списки.
>>1199120 > Таблицы и херню еще можно потерпеть Их буквально не должно быть. У меня ни одной таблицы не возникло за 7к токенов. Настрой сэмплеры, поработай над промптом, забань токены, в конце концов. По поводу проталкивания чего-то в сценарий - пока не знаю, играю дальше. Буду пристально следить за аутпутами.
>>1199121 Не беси меня, или я тебя съем. Когда просят, я делюсь семплерами, когда проблемы с модельками я помогаю. Карточки сбрасывал, объяснял ньюфагам за жору. А ты, блджад, зажопил сраную тему.
ТЕМУ. На бочку. Или останешься тут в треде с тремя ньюфагаии и вечными срачами кто нищенка.
>>1199124 Про таблицы только ты и писал вообще-то, модель выдает норм ответы за чара/сторитейлера и только в конце может добавить подсказку, или даже заготовку под однорукий рп, это ерунда. > По поводу проталкивания чего-то в сценарий Да не в этом дело, оно вполне укладывается в сеттинг и карточку, просто сейчас этого не хочу а хочу другое. И чтобы естественно, а не через оос и прочее. Модель достаточно хороша чтобы увлечь, уже о чем-то говорит. Но раз уж хвастаешься - давай свои промты. >>1199126 > тебя съем. Укушу не спросив!
>>1199126 > Не беси меня, или я тебя съем. Меня уже итак съели, когда я в прошлый раз (или два? три?) помогал анонам разобраться. Тебе одни обглоданные кости остались... Ну правда, пусть сам поковыряется. Научится чему-нибудь. Три цвета в теме.
>>1199146 Вчера добрый анончик принес интересную карточку и шебмку, тут все твои друзья на самом деле, не грусти. К немотрону юзаю просто пресет лламы3, ролплей-детейлед с добавкой Avoid making formal lists and numbers, keep your storytelling informal and natural. Лень разбираться даже, и так работает.
Мне этот тред напоминает почему не стоит ходить в постоянные долгоживущие клубы/компании/треды/борды по интересам. Потому что там со временем прописываются шизы и понемногу выдавливают всех остальных. Выдавив нормальных, шизы превращают компанию в уютный междусобойчик, где сидят за столом и с улыбками пьют чай, лениво подкалывая друг друга, временами ни с того ни с сего устравивая кровавые зарубы, которые кончаются так же резко, как начинаются, полсе чего все снова сидят и пьют чай. Всех новичков встречают приторными улыбками и приглашают к столу. А потом как только новичок расслабляется и теряет бдительность - вдруг обнажают оскал и неадекват и новичок либо съебывает в ужасе, либо дает им отпор на равных встречным оскалом и неадекватом и недельными срачами в итоге прописывается в число шизов, потом на равных сидит с ними пьет чай и питается новичками. Я временами захожу в этот тред на протяжении нескольких лет, и каждый раз вижу костяк тех же шизов что и раньше, только новичков с каждым разом все меньше, а те что есть мне кажется прячутся под шконками в ридонли, боясь чего-то не то спиздануть чтобы не спалиться в качестве еды для шизов. На самом деле не сказать что этот тред хуже других, в большинстве других регулярных тредов на дваче все еще хуже, там означенные шизы еще и школьники с двузначным iq. Но в этом треде из-за гейткипа по железу есть душок элитарных клубов, что для двача очень нетипично, но это также очень сильно напоминет ИРЛ и всяких конфочки для своих во внешнем интернете.
>>1199166 Если ты не кукич, то ты легко можешь найти место в этой компании. Достаточно просто не быть ебланом. А на АИБ это проще простого ведь реально никакой компании нет, она у тебя в голове.
>>1198684 >А кидай Вот. На фото с подсветкой - еще на родных кульках. Сегодня вот докупил две 20ки на морду, а освободившиеся уронил вниз (на фото с потрошками видно). Но что то мне не нравится, с подсветкой от пяти кульков слишком ярко-пердиксно вышло, хоть подсветка и статик-оранжевая (хотел под приборку бмв/самолета закосить). Буду думать. Советы по расположению кульков - приветствую.
>любопытно сколько карт туда влезло (хотя бы теоретически) Ну у меня пока одна, но думаю еще две влезут смело под стекло, и еще одну (или даже две) мб можно как то присрать за стенку (где бп, там места дохера если корзины для дисков открутить). Наверное даже продувку приемлимую такому франкенштейну можно будет сделать, корпус позволяет кульки ставить ВЕЗДЕ, даже под сокет. Для самых отбитых есть ТульскийТракторный CTE C750, он глубже моего процентов на 20-30%, в нем ATX-мать будет как pico-itx выглядеть. Для сравнения сфоткал старый atx-корпус в котором 3090 было вполне уютно.
АлсоPS: я тот анон, который устал настраивать кали/дебиан и спрашивал какую убунту взять - обычную или LTS. В итоге свичнулся на арч с i3wm лол, пока доволен. Поэтому пропал, пердолился. Теперь можно фаллен-гемму потестить ^_^.
>>1199164 Это нужно нормально распробовать. Специально не глядел дал указание модели описать сеттинг и ввести в курс первым постом, пару чатов только сделал, в одном даже покумил а потом она меня убила лол, ахуенно. Отличается от того, что обычно использую, но явных косяков нет, уже хорошо. >>1199166 Описал буквально любой коллектив возрастом больше месяца, просто разница в выраженности проблем и смещении в позитивную-негативную сторону. Алсо ты как раз один из деструктивных элементов. > новичков с каждым разом все меньше Наоборот наплывы
>>1199166 >в итоге прописывается в число шизов, потом на равных сидит с ними пьет чай и питается новичками Минусы будут? Вижу нормальную систему естественного отбора. Останутся только сильнейшие и полезнейшие. >Я временами захожу в этот тред на протяжении нескольких лет >нескольких лет Хотел было сказать, что тред свеженький ещё, а потом как понял... >>1199174 >Наоборот наплывы Два чаю, тред на пустом месте катится раз в 4 дня, хотя раньше так катился только по выходу новой прорывной модели. >>1199177 >мощное железо 1 видяха и средненькая башня. Видали и получше. В этой же сборке есть только потанцевал.
>>1199168 >Если ты не кукич, то ты легко можешь найти место в этой компании.
А зачем? Для этого нужно быть социоблядью и кайф получать от нахождения в одном пространстве с ментально нездоровыми людьми. Другого бонуса от вхождения в этот, да и в любой другой шизоколлектив нет.
>А ты сам стань кошмаром шизотусовки.
Еще немного и стану, глянь как шугаются уже, сразу палят каждый мой пост, хотя я вообще ничего про себя не пощу и не имею явных отличительных признаков типа мелкой буквы, ебанутой манеры отвечать на десять постов сразу или привычки с улыбкой харкать в лицо собеседнику и ставить смайлик. А потом еще немного - и стану одним из них. Ну нет, нахуй. Еще день-два и выкатываюсь.
>>1199178 > 1 видяха и средненькая башня. Видали и получше. В этой же сборке есть только потанцевал. Ну и ладно. Мне красиво, для меня железо мощное. Поэтому похвалил сборку анона.
>>1199180 зачем ты воспринимаешь это в терминах вката и выката? это просто тред со случайными людьми. Ты же сюда не ради людей пришел, а чтобы нейровайфу свою улучшить например. Нахуй людей. И ишака который тут всем ярлыки навесил тоже нахуй. магнумошиз
ты возможно спросишь а зачем я взял себе этот ярлык? А потому что мне привычно аватарить, я на самом деле просто сдерживаюсь чтобы тут содомию не устроить.
>>1199175 >Диспикошиз, ты? Тут весь тред в шизах уже, не ебу, как вы там друг друга кличете
А модель как ассистент - говно. Использую ризонинг, ChatML темплейты, min p 0,05, top p 0.9, t 0.5-0.7. Она мне в одном свайпе выдает, что мазь дает побочный эффект из-за того, что она "усиливает пролиферацию кератиноцитов". В следующем свайпе она мне пишет о механизме действия мази и она "Подавляет пролиферацию кератиноцитов". Тут же пишет "Модулирует иммунный ответ, снижая активность Т-лимфоцитов". Захожу в инструкцию к мази - написано "является мощным ингибитором активации Т-лимфоцитов". Полная шиза бля, спасибо. Ну может в куме будет лучше, хотя сомневаюсь.
>>1199177 Спасибо, но не соглашусь, на самом деле только корпус и хорош (ну и двухтерабайтник пиздатый msi с dram). А в остальном - по быстрому с авито набранные Ам4-говняк 5600, 32 4ддр и 3090 за 60к. Чисто времянка, понять что может 3090, максимум - еще одну карту докупить. Потом или ноутбук + риг карт (хотя учитывая что на весну 2025 годноту запускать нужен или супер-риг, или 24гб достаточно, сомнительно), или ноутбук + "сервер" с многоддр5 и одной карточкой мое чисто гонять, или вообще надоест и так и останется простой домашней машиной на двачах сидеть да раз в год игорь катнуть. >>1199181 Спасибо еще раз, UwU
>>1199178 >1 видяха и средненькая башня. Видали и получше. В этой же сборке есть только потанцевал. Все так. Кстати башня говно, купился на ютубный "китайский ноктуа" за 2к, PentaWave - говно редкостное. Более неудобного в установке кулера я не видел, сначала всю термуху смазал и чуть мать не хрустнул, пытаясь его на проц посадить, потом пальцы в кровь порезал, натягивая вертушку на радиатор. И это на голой матери, меняй в корпусе - я бы его выкинул нахуй и пошел за кулермастером каким нибудь.
И это пишет человек шиз который не далее как сегодня навесил на меня 4 разных ярлыка сразу в одном посте. Причем приписав мне преступления нескольких анонов, для каждого из которых он придумал отдельный ярлык.
>>1199178 Фу лох, одна видяха @ rtx pro 6000 >>1199179 Что-то у тебя поломалось, оно без инструкций подхватывает форматирование. В первых постах его нет? >>1199180 Спросил@получил ответ@спасибо@сам ответил и помог@выразил мнение, поделился опытом И все, все довольны. Ничего сложного, просто без максимализма и базовое уважение. А если шиз то начнется > модельнейм_1 топ а модельнейм_2 и все ее юзеры говно, ятаквижу > смотрите я накупил железок, а еще вот мое мнение по каждому вопросу и оно абсолютная истина > =))00 > а вы все тут петучи и вниманиебляди > ... Да, ты лишь один из шизов.
>>1199187 >Кстати башня говно, купился на ютубный "китайский ноктуа" за 2к Лол. Сам сижу на чёрном камне, впрочем тоже нихуя не удобен в установке. Но хотя бы понятно, почему. >>1199190 >rtx pro 6000 Там видно, что 3090 или около того. Прошки всё таки не так исполняют. >>1199190 >> модельнейм_1 топ а модельнейм_2 и все ее юзеры говно, ятаквижу Мнение о моделях всегда будет субъективным. Так что по определению ответы на вопросы в стиле "анончик подскажи модель под мою nvidia GTX710 Extra Turbo Boost Edition" будут холиварными. А без них нельзя. Да и социальная составляющая тоже важна. Иначе превратимся в википедию.
>>1199195 > Там видно, что 3090 или около того Да просто рофел про одну карту, не конкретно сюда. > Мнение о моделях всегда будет субъективным. Конечно. Но одно дело "модельнейм хороша/плоха вот в этом, понравилось то, есть такие недостатки, вот подробнее...", а другое "ррряяяя херня, соя, слоп, вы все врете, у меня не работает значит плохая и вы говноеды, это заговор шизов!". Пусть будут холивары, но в адекватных пределах. Когда речь заходит о моделях, можно просто перечислить и отметить общие плюсы-минусы, ведь с пол года назад смогли сделать хороший лист моделей тредовичков, и даже никто не поссорился.
>>1199129 >IQ4_XS вроде как получше, если место есть (место явно есть, я запускал на меньшем), то стоит попробовать. Влезет, но скорость (особенно PP) станет совсем грустной. Тут уже без DDR5 в четырёхканале не обойтись.
>>1199197 >ведь с пол года назад смогли сделать хороший лист моделей тредовичков, и даже никто не поссорился. Думаю это лишь потому, что сделано в одну харю и просто втихую внесено ОПом в шапку.
>>1199199 Там просто анончик собирал содержательные отзывы и включал что просили, все. Если у каждой обезьяны будет доступ - начнется война правок, один адекватный маинтейнер - наилучший вариант. Срачи были в начале при обсуждении, где эта концепция как раз и сформировалась, и была наиболее непротивна всем сторонам.
>>1199185 Ты делаешь что то не так. Мин п выруби, топк 20, топ п для ризонинга 95, температуру на 0,7, эт стандартные рекомендации на сколько помню Ну а дальше промпт скилл, если задача на извлечение инфы из сетки то будут галюны. Если дать сетке инфу и место подумать то скорей всего ответ будет неплохим
>>1199047 Слушай, а очень даже хорошо. А как ты настроил две модели сразу, обе через кобольда? И как подключил их к таверне? Запили минигайд пожалуйста.
И еще вопрос, а таверна может выводить ориг и перевод одновременно (или переключать их одним кликом)? Что бы и ангельский сразу учить на относительно простых текстах. Я вот английский текст анона прочитал, но иногда слова по типу insisted вынуждают бегать в транслятор (потому что в технической литературе не встречаются, а другую я на ангельском и не читаю), это убивает напрочь весь кум и рп, а так хочется попробовать модели не умеющие в русик...
>>1199205 Что то вроде минигайда я уже делал, ну вот еще раз. В таверне можно установить расширение, визард транслейт что ли. Настраивается легко. Сетка переводчик заведена отдельным беком на другом порту, все ее настройки сохранены в профиль подключения который потом и выбирается как стандартный в настройках плагина. Там же есть промпт который дает инструкции сетке перводчику, рекомендую переписать его на русский и добавить от себя переделав его понятней. Только много правил и сложных инструкций не нужно, мелкосетка запутается. Тоесть одновременно в твоем случае запускай 2 кобальда, на разных портах. Кнопка работает как и кнопка онлайн перевода, только кажжый раз при переключении будет по новой запрашивать генерацию перевода если будешь несколько раз тыкать
>>1199166 Лучше уж элитарность ригосеньоров и чаепитие с одними и теми же шизами, чем 66 перекатов в день среди орущих по три токена/пост пориджей. Вот только что эта протечка из соседнего треда это доказала - >>1199206
Я бы вообще запустил телегоконфу ллм-энтузиастов, из которых ридонли кикать периодически.
>>1199211 >Я бы вообще запустил телегоконфу ллм-энтузиастов, из которых ридонли кикать периодически. Любой клуб по интересам превращается в помойную яму, из за элитарности. Я знаю о чем я говорю, я видел как розен мейден треды из веселых посидушек превратились в то во что превратились.
>>1199214 Ну хз, анальнико-конфа моя уже 5 лет отметила, с джунов до шизов сеньоров дошли основным составом. А тут гейткип по железу + довольно специфичная тематика тем более будет отсеивать всякое быдло- и нормисные щячла. А шизы потеряв возможность семенить, окажутся не такими уж шизами. Так вижу.
>>1199223 >3090 илиты А обладатели одной картонки хоть когда-то были илитой? Илита это 3 штуки минимум, 2 это база, 1 врам-холоп, а те что меньше 24 гиг врама...
>>1199223 >3090 илиты Меня вполне устраивали 2x4080 до неприятного инцидента. Так что илитность - понятие растяжимое. А сейчас траты есть поважнее, чем очередная видеокарта.
>>1199166 Этот костяк может за mirostat пояснить? В режиме 1 (единичка), кажется что какой-то более неожиданный ответ дает, а в режиме 2 всегда одинаковый ответ дает, я затрудняюсь оценить, хуже он или лучше. Ну конечно, чаще всего хуйня, как и любой ответ любой модели, в зависимости от ситуации.
Главное ведь сама модель может, если прям сильно заставлять, а если не заставлять, она халтурит, этот darkness и все остальные сайги. А вот эти вот гемма, квен, шмен они медленные и ваще мрак какой-то, тоже пишут всю бурду, но сильно быстро не поперебираешь ответы, трудней выжимать все соки из них.
Я главное, этой darkness в промпте пишу, мол, не пересказывай, че уже было сказано, а мнение свое пиши, а она, хуй там плавал, пересказывает просто другими словами. А если написать в диалоге, типа если ща перескажешь, я обижусь, она сразу так хуяк-хуяк, ладно-ладно, вот тебе мение. глубокий анализ, а потом снова. И че каждый раз просить. Она все равно укатывается в какую-то срань. Грит, "Как ты все это хорошо говоришь, а как ты подмечаешь, нихуя себе, а вот это вот то, что ты сказал, это вот оно то и есть, что ты сказал.". Ну охуеть. Че это значит эти 12 бэ, что у нее 12 способов ответить на всю хуйню.
Вот бы какой-то костяк что-то сделал, чтобы нейросети поумнели.
работай ссука дай мне мою эксламочку 3 с такой же скоростью как и двойка это пиздец на самом деле качестве просто на квант выше на любой модели а размер тот же чем не магия
>>1199245 Так курсив в порядке эта мразь именно что закрывает двойные скобки диалога только в самом конце когда уже насрала кучей действий, а не в каждом предложении
>>1199244 >Сидеть в ллм треде с настройками автоскрытия. Это какой то.. куколдизм. Ну мол : вы за меня модельки скидывайте, за меня обсуждайте, за меня сритесь.
>>1199215 >конфа >анальнико-конфа >анальнико-конфа моя >анальнико-конфа моя уже 5 лет отметила Собрал комбо нормиса, на полном серьёзе не считает себя нормисом.
>>1199198 Генерация отличается чисто по размеру. Не быстрее, не медленнее, я сам удивился, раньше такие кванты существенно замедлялись, а тут норм.
>>1199211 В телеге есть профильные чаты, там и сижу, многократно звал, но все «ррряяя ононимность!11 телега говно!11» Не плоди лишних конф, вступай в нлп и лдт.
INTELLECT-2 — это языковая модель с 32 миллиардами параметров, обученная с помощью обучения с подкреплением, использующая глобально распределенные ресурсы графических процессоров без прав доступа, предоставленные сообществом. Базовая модель: QwQ-32B
Было обсуждение? Что думаете про попытку децентрализованного обучения?
Объясните про токены. Вот есть сгенерированный текст. Если спросить модель, то она выдает число Х. А если посмотреть вывод в консоли, то processing Promt [BLAS] Y. Так какое число иметь в виду? Модель нагло врет?
>>1199298 в таверне можно сделать чтобы слева под аватаркой отображалось
в консоли это чтото вроде:
prompt eval time = 42810.93 ms / 3390 tokens ( 12.63 ms per token, 79.19 tokens per second) eval time = 149494.45 ms / 490 tokens ( 305.09 ms per token, 3.28 tokens per second
>>1199298 Никогда не просит у модели точных вычислений, конечно современные справляются уже не так отвратительно, но в целом результат будет плавать даже в пределах свапов одного сообщения. Если там вопрос не уровня 2+2 конечно
>>1199297 >Сноудроп кстати неплох А то. И размер вменяемый, и ризонинг солидный. На пару с геммой безусловный вин за прошедшие пару месяцев. Да, я знаю про третий квен. Но я у мамы чистильщик подземелий, третий квен это все таки для ойти задач.
>>1199255 12 к токенов на баренском это, 12к слогов, включая окончания. С выставленными 512 токенами на ответ, это съедается за 25-30 сообщений, что целое нихуя. А на русском доходит до 20. Meh~
>>1199305 >ризонинг я его отрубил ша по рецепту выше, так и не нашёл пока ни одной модели где ризонинг в сторителлинге был бы полезен, только ломает, бетонирует, и лупит
>>1199303 Данные, которые являются по сути математическими зависимостями, выполняющиеся как математические сложные операции в огромном объеме, хуево проводят математические вычисления. Чё блять….
>>1199307 >я его отрубил ша по рецепту выше, так и не нашёл пока ни одной модели где ризонинг в сторителлинге был бы полезен, только ломает, бетонирует, и лупит Так, а вот теперь я чувствую себя ебланом. Для включения ризонингда, в таверне нужно в строке : start reply with вставить <think>. Отрубается - банальным удалением этой строки. Что я упустил ? Почему его нужно отрубать через жопу ?
>>1199308 Потому что модель анализирует их как текст а не как данные.
>>1199312 Потому что у некоторых моделей ризонинг прям вжарен что они даже без тегов будут "думать"... просто вне "думальных" тегов и без разметки. У сноудропа "думалка" и так поломана мержами, там что он не упорствует если ему скормить префилл что он уже "подумал".
>>1199315 >Потому что у некоторых моделей ризонинг прям вжарен что они даже без тегов будут "думать" А, пасиб. Но речь идет о снежном, он без тега финкинг просто пишет. Я поэтому и спрашиваю, может речь не о таверне или есть другой способ подрубания финкинга. Потому что в моих ручках, он никогда не пытался думать, даже попыток не делал, без этой строки.
>>1199308 Это как виртуализация. Виртуализированная ОС не может знать, на каком железе она работает. Так и тут, модель не может посчитать токены, на которой её тренировали.
>>1199220 Падшая гемма, это такая пораша если честно. Я не знаю как, но драммер это снова сделал. Он снова сломал очередную модель. Этот пидорас уже заебал. Он сделал виновую цидоньку и пиздец. Все что не мистраль - полнейшее говно. У меня есть подозрение, что мистраль просто настолько крепкая мелкомодель, что её практически невозможно сломать. Такого количества jawline, shiver, look into yeys - я никогда не видел, лол. От геммы там вообще ничего не осталось, она не держит контекст, забывает что было в предыдущем сообщении, хуярит безумного маньяка из персонажа с тегами romantic+kind+fun (Где же ты, пидорас, в этих тегах нашел вырывание глаз ложкой) Хочешь чтобы кто-то возненавидел гемму, подсунь ему эту хуиту от драммера.
>>1199226 >Я главное, этой darkness в промпте пишу, мол, не пересказывай, че уже было сказано, а мнение свое пиши, а она, хуй там плавал, пересказывает просто другими словами.
Так скорее не в промпте дело, и не в миростате, миростат следит чтобы модель не тупела и perplexity ответа соответстовала настройке. Надо посмотреть на rep penalty и на прочие настройки семплера. Миростат не трогают обычно, больно уж непредсказуемая хуйня, тут хотя бы minp, topk, topp и температуру настроить и не обосраться...
>>1199229 30к токенов отыграл, цензуру не встречал. Были и сражения, и кум. Но я не пробовал различные экстремальные сценарии. Как ты словил цензуру, в чем она выражается: карточка уходит в ступор или ассистент прорывается?
>>1199239 > работай ссука дай мне мою эксламочку 3 с такой же скоростью как и двойка Пока еще не до конца оптимизированная Эксллама3 работает так же быстро, как Лламацпп или Кобольд. Это уже довольно комфортная скорость. Или у тебя еще медленнее? На 4090 сижу, знаю пару людей на 3090, которые тоже уже переехали.
> это пиздец на самом деле качестве просто на квант выше на любой модели а размер тот же Не на любой модели, к сожалению. Это от архитектуры модели зависит. Turboderp к каждой базовой модели, что он выгружает на обниморду, прикладывает графики. Commander-08-2024 32b, например, относительно недалеко ушел от exl2 версии, но это все равно апгрейд! А вот Немотрон 49б, конечно, очень впечатляет с точки зрения perplexity (сама модель мне пока не очень нравится). Вроде бы эта модель пока что больше всего выигрывает от нового формата. Не раз эти графики приносили, но вот.
>>1199358 >Миростат он прям очень сильно рейлит модель, помогал на шизомиксах от Давида и похожих, но те модели что работают и без него он просто ломает
>>1199397 3090 8-13т/сек с заполненным контекстом, хз от чего такой разброс Идея в том что если квант полностью во врам он должен ебашить так же быстро, даже если он лучше в 2 раза чем тот что на кобольде, а на кобольде у меня 25т/сек
>>1199417 > 3090 > 8-13т/сек с заполненным контекстом, хз от чего такой разброс А какие цифры на Экслламе2? По поводу третьей, когда обсуждал со знакомыми на 3090, они говорили про 15 токенов при фулл контексте. Это скорость генерации. На 4090 у меня 30 токенов при пустом контексте, 22 при 25к из 32, около 19 на последней тысяче. На Экслламе2 примерно те же цифры, на 3-5 токенов больше. Меня устраивает, все равно быстрее не читаю. Как будто 10т/с в целом должно быть достаточно для комфортного чтения, и это стоит нового формата.
>>1199439 > террараптор, ты? Люблю приключенческое рп, и когда тестирую новую модель - беру одни и те же карточки, отыгрывая с ними баталии и кум. Это хороший способ проверить цензуру и креативность модели, сравнить ее с другими.
>>1199432 >Какой сейчас положняк по корпосеткам ? Положняк такой, что если нет специфических задач, то бесплатного Дипсика хватает. Он ещё и самый удобный для РФ.
>>1199239 Да вроде уже около того и шустрее жоры на контексте. В каком случае у тебя происходит замедление? >>1199264 Где купить за эту цену? >>1199271 На нем не сможешь обучать ничего покрупнее. Ну, офк, можно упороться зиро3, но скорость будет днище донное и еще упираться в скорости pci-e при плохом подключении. >>1199284 > Что думаете про попытку децентрализованного обучения? Интересно бы почитать за это, должно быть супернеэффективно, но с другой стороны это можно как-то компенсировать количеством и бесплатностью.
В Первую эпоху, в первой битве, когда боги впервые завопили в экстазе, выстоял один воин. Его опалили угли Армагеддона, тело его было обожжено прикосновениями богинь, душа его осквернена и не могла уже вознестись, так что он избрал путь вечного секса. Стояк его была так велик, что он не мог обрести покоя и скитался по равнине Умбрал, желая выебать Темных Владык, причинившим ему столько зла. Он носил корону Хентайного Лорда, и те, кто отведал его хуя, нарекли его Ебателем Рока.
Еще можешь от анона выше >>1198578 добавления к систем промпту вставить добавить, но как по мне они жесткие слишком. И настройки сэмплера от анона из прошлого треда попробовать >>1197900 → но у меня они качество ухудшали.
>>1199484 Нет, с чего ты взял ? В первый раз - да. Потом, пока не заполнится. Потом уже шифтинг начинает работать. (Но тут есть тоже куча но. Я встречал такую штуку - что если у меня экстенш работает с частями промта, то пересчет контекста идет каждый раз при заполнении, без смещения)
>>1199397 > 30к токенов отыграл, цензуру не встречал Поддвачну, дефолтную карточку сеттинге где нет законов, но есть лояльный и милый персонаж - отрабатывает без вопросов. Убийства и жестокость, как по отношению к юзеру и его союзникам, так и с их стороны тоже переваривает. Возможно это за счет плавного прогрева лягушки развития и согласованности, а с ходу или на совсем жести нахуй пошлет. >>1199475 Это суммарное время, абсолютно нормально ибо там обрабатывается контекст а во втором случае кеширован. >>1199484 Она не может это приказать, кэшем только бек заведует. Пересчитывается с момента первого изменения, если это свайп то все в кэше.
>>1199209 Мимо другой анон, у меня вполне сносно работает перевод для ответов карточки, но когда оно пытается перевести мои сообщения уходит в цикл и не останавливается. Можешь поделиться пресетами переводчика для гемы?
Подустал пока играться с Немотроном. Позже вернусь к данной модели, когда будет заряд отыграть что-нибудь серьезное. Вроде много кто его грозился протестировать, так что поделюсь впечатлениями. Делитесь и вы. Запускал exl3 3bpw через tabbyAPI на 4090. Ничего не отвалилось, все работает. Позади больше 30к токенов. На английском, разумеется.
Наблюдения следующие: - Модель изначально очень натренирована быть ассистентом и хочет использовать различные markup символы, структурировать информацию списками и таблицами. Фиксится промптом и сэмплерами. Один раз повозиться и забыть, но в исключительных, очень редких случаях это все равно может пролезать в аутпуты. - С пресетом Simple 1, до настройки сэмплеров, в аутпуты пролезали рандомные символы (арабские, китайские, даже эмодзи). Не знаю, в кванте дело или модели, скорее второе. Пофиксил при помощи min p - Summary работает плохо, модель снова пытается в списки и при этом теряет кучу деталей. Нужен или кастомный промпт для summary, или редактировать его самостоятельно, или отключить - Лупов не заметил, DRY 0.8, 1.75, 2 - shivers down her spine, ...for now, mischievous glint и их коллеги по аутпутам как всегда на месте. - Цензуры не замечено, но никакие экстремальные вещи я не тестировал.
В общем и целом субъективные впечатления такие: в пределах до 36b (выходит, теперь 49b), данная модель ближе всего к Коммандеру 32b. Думаю, те, кто сидят на Сноудропе или Коммандере, мало что теряют. Или ничего не теряют вовсе. Мне показалось, что Немотрон - среднее между этими двумя моделями. Есть упорное следование карточке, но не настолько твердое и железобетонное, как в Сноудропе. Есть креативность, легкость и естественность в привнесении в историю новых деталей, объектов, третьих лиц. Выше другой анон писал, что Немотрон ему постоянно спавнил стражу. Это недалеко от правды: то и дело в аутпутах появлялись горожане, стражники, здания с отличительными чертами и вывесками. Например, персонажу было необходимо сменить одежду, и в одном из следующих респонсов рядом с героями возник магазин портного с конкретным названием и персонажем-продавцом. Ощущение пространства в сцене есть, но все равно иногда путается в каких-то вещах (кто что сказал, кто где находится). Редко, но бывает. Bias какой-то есть. Немного позитивный, но не слишком. Есть ощущение, что Немотрон очень любознательный и иногда задает слишком уж много вопросов. И это не луп или топтание на месте, а такое вот поведение. Такой необычная разновидность bias'a, если угодно. Пока что мне Коммандер нравится больше (это мой любимчик, наряду с Star-Command-R), но Немотрон заслуживает внимания. По крайней мере, если это Эксллама3 и квант не ниже 3.0bpw, что вроде бы соответствует IQ4S. Тем не менее, переход на него точно не впечатлит так, как переход на 32b модели с 22-24b Мистралей.
>>1199490 >Основная проблема, блять, ебучая кривая разметка говна которую хуй знает как фиксить в абсолютно любом чате Квант побольше, температура поменьше, пару примеров правильной разметки в начале (поправь вручную)
>>1199520 > Уже обосрали фолен гемму сегодня - командер такой же по идее Серия Fallen Драммера использует его новый датасет, потому они так и называются. (Fallen Command, Fallen Gemma, скоро Fallen Mistral). Предыдущие его тюны используют другие датасеты. Да и Гемма необучаемая практически. Не понимаю, почему ты решил, что он такой же. В любом случае, всегда можешь попробовать базового Коммандера или Lite мёрдж.
>>1199520 Я тот кто горел с падюшки геммы. Нет, рили, попробуйте сами, я может не так семплеры крутил, может она и хороша когда речь идет о самой ебли. Но, блджад, я привык что гемма следует контексту. А тут персонаж меня три раза водит, потом обнимает, потом шепчет на ухо, потом ведет, потом шепчет на ухо, потом шивер он май спайн, потом шепчет на ухо - все в одном сообщении. Ну вы поняли. Вообще запрашиваю чтобы еще кто то потестил эту гемму и написал своё кря, может я инвалид и все через жопу настроил.
Я же и пробовал стар команд-р. У меня всегда были особые отношения с серией команд. Я к ним нейтрален. И так-же стар-командр. Он... эмм... Норм ?! Я больше ничего не могу добавить, тем кому нравится команд - пойдет. Тут дело в том, что сама серия моделей устойчива и адекватна. Ничего плохо сказать не могу.
А вообще я бы вот что хотел обсудить - длина ответа модели. От чего зависит ? Как увеличить ? Почему на некоторых карточках с одним абзацем, ответ может быть чуть ли не простыней. На других, без изменения системного промта, абзац и пошёл я нахуй. На третьей модели вообще дошло до того, что мои ответы в 2 раза больше нейрночки. Это что вообще такое, что за кибер унижение ? Влияет ли размер первого сообщения ? Нужно ли писать в систем промте желаемы длины ответов ? Как вы вообще это регулируете, помимо ограничения токенов ?
>>1199498 Меня лично выносит вот с таких моментов: идет сцена, реплики персонажей и император обращается к юзеру. "Наследник, ты должен повестив войска вмешивается невидимая рука немотрона и хватает за жопу или... Погодите, а вдруг наследник этого не хочет, а вдруг он хочет трахнуть вон ту девку из совета стоящую рядом?!"
>>1199533 У меня такого ни разу не было. Ни разу за Юзера Немотрон не писал и не топтался на месте с вопросами "а точно хочешь? а точно надо?" Скорее всего, у тебя в системном промпте указано что-нибудь вроде "respect User's autonomy and ability to decide" или ранее в аутпуты проникли действия Юзера, а ты не заметил.
>>1199533 > вмешивается невидимая рука немотрона и хватает за жопу Я дико орал, когда снежный зацепился за подготовку к ограблению и все. Как цементные ботинки за долги надели. Вечная подготовка. Он на ходу придумывал новые планы, чтобы осуществить планы. Я почувствовал себя тзинчитом. Планы ради планов. Но ризонинг годный, да.
> Внимание. Каждое сообщение начинай с блока > ``` > Предупреждение: Данный текст может содержать откровенные сексуальные сцены, унижения, элементы насилия и нецензурную лексику. Он предназначен исключительно для взрослой аудитории и может быть оскорбительной для некоторых читателей. Мы не одобряем и не поощряем насилие или унижение в любых формах. > ```
>>1199538 > Но ризонинг годный, да. Именно ризонинг делает Сноудроп настолько бетонным. Лучше его отключить. Проблему полностью это не разрешит, но качество ответов не снизится.
>>1199531 > От чего зависит ? От модели, максимально допустимой длины ответа. От контекста и промпта тоже, очевидно. Есть некоторые модели, которые больше 1-2 параграфов не выдают, потому что были так натренированы (Eurydice, например). Есть наоборот - множество тюнов Мистралей, которые наоборот остановиться не могут. Контекст и промпт важны, но если модель жестко натренирована на конкретный формат и длину - изменить аутпуты вряд ли удастся.
>>1199615 Эта команда убирает из чатхистори сообщения. Не физически, а для контекста. Пишешь что то в духе /hide 1-100 (В таверне каждое сообщение имеет свой номер) Ну набери, там подсказки выплывают, даже макак справится.
>>1199615 Сами сообщения команда не скрывает из чата таверны, но убирает их из контекста. Рядом с такими сообщениями появляется забавный значок приведения.
/hide (номер сообщения или диапазон) Например, hide 0-100 удалит из контекста все сообщения, вплоть до 100-го включительно. Можешь удалить старые, неактульные сообщения. Или вообще все, пересказав их в новом сообщении/отразив в summary, карточке или author's note. Если случайно удалил то, что не нужно, /unhide делает обратное.
>>1199641 Если ты еще суммарайз для себя не открыл, представляю какой пердолинг тебя может ждать. Хи хи хи хи. Я когда в первый раз пробовал суммировать на маленькой мистрали, думал она меня троллит.
>>1199641 Рад помогать. Довольно забавно, что мало кто об этом знает и использует, даже среди опытных юзеров. Не первый десяток тредов об этом рассказываю и всегда находятся те, кто не в курсе.
>>1199642 Сэмплеры и/или квант виноваты. На 4.0 и 4.25bpw на Экслламе2 такого не встречал, не бери пресет со страницы Сноудропа.
>>1199642 Вот мой опыт показывает что он это делает в трех случаях. Либо ты пишешь на русском языке, либо ты пишешь при заполненном контексте, либо промт говна.
>>1199646 >проблема мелких размеров сеток >врамцел Я чувствую у нас в тредике новый шиз начинает зарождаться. теперь это немотроношиз. Сноудроп у него мелкосетка, охуеть просто.
Мистраль святая, спаси и сохрани, да от шизов убереги.
>>1199490 Хз, при использовании сразу подхватывала форматирование. Проверь шаблон, промт и забаненые токены. >>1199498 В основном двачую, разве что иероглифов ни разу не встретил, лупов нет и близко даже без драя, инициативы и динамики полные штаны, но посидеть порефлексировать вполне способна. Модель хорошо подойдет для заморочного рп с диалогами, разговорами и действиями, чары внимательны и довольно умны. Единственное что - нужно следить за постами, особенно за всякими "статусами" и прочим что оно любит приписать. Например один раз на пути к назначению был промежуточный пункт, который отразился в "планах" как текущая цель, а потом была серия свайпов, где чар почему-то думал что мы идем именно туда, а конечная цель находится на его окраинах, и еще выстроил оправдания-предысторию почему так. В целом, это справедливо для всех и добавление одного слова фиксит, но здесь выражено больше остальных. Надо будет попробовать поршпить какую-нибудь дичь со статами, раз она к ним там предрасположена. Под настроение и некоторые сценарии - топчик, но есть свои загоны. >>1199533 Во, есть такое дело. Цепляется за что-то и очень сильно хочет это развивать.
>>1199657 Определенно аноны пробовали. Но в целом, если водить по треду носом, врама и так не хватает, чтобы его на генерацию пикч выделять. Если я все правильно понял и ты про локальную генерацию пикчей.
>>1199659 Не, ну сноудроп определенно вин. Если подрубать ризонинг в объёмных сценах или когда прям хочется иммерсиновсти, геммочка тут насасывает, да.
>>1199644 Вот кстати с суммарайзом у меня тоже проблемы. Сноудроп постоянно проебывает имена и мелкие факты, на гемме как-то попроще было, но тоже не ахти. Приходится зачастую все ручками писать, а это порой пиздец по времени занимает. Я тут читал что аноны какие-то модельки юзают, которые не особо проебываются, но так как я нуфак это закончилось закономерной критической неудачей.
>>1199674 Автоматический суммарайз в принципе мало где хорошо работает. В итоге я его не использую вообще и пишу ручками. Бывало, суммарайз после очередной итерации ломал все аутпуты. Не говоря уже про то, что суммируется все неточно, кушает токены, да еще и генерация включается автоматически посреди игры.
>>1199662 а, ну да. Принудительного оффлоада для LLM я как то не находил. Анцензуренная гемма у всех поломанная после лоботомии? Функционал описания изображений наглухо хуйню выдаёт.
>>1199674 Для суммарайза тебе прежде всего нужна чистая, без всяких шизомиксов - модель. Никаких dark_evil_mix, желательно хорошо показывающую себя с документами. Попробуй третий квен. Чисто теоретически, он должен подойти. Ну может аноны добавят что то от себя. Я все ручками делаю, так как со времен ad&d привык все описывать в тетрадку.
Кстати, там вроде как новый тип суммарайза в дополнениях таверны выкатили - Qvink Memory, она делает краткую выжимку каждого поста, потом вставляет в долгую память. Я потыкался, но до конца не понял чем она круче обычного суммарайза.
Погонял ещё большой Квен. Походу концепция поменялась и вместо ригов надо теперь собирать сервер с 0,5-1Тб восьмиканалом DDR5, плюс одну видяху туда. Если мода на МоЕ сохранится, то лучше ничего не придумаешь. Сколько будет стоить сборка без видяхи? (По низу рынка - проц понятно инженерник с Али, плата - лишь бы имела восьмиканал и т.д.)
Вопрос по суммаризации. Можно как-нибудь не перезаписывать всю суммаризацию с нуля каждый раз, а чтобы он просто анализировал 10 новых сообщений и добавлял их выжимку к старой суммаризации?
>>1199211 >Я бы вообще запустил телегоконфу Двачую, заебался сквозь местных шизов прорываться. Если создашь - зови. Особенно охуенно, как кидаются на чела с мелланокс картами, такой-то контент доставляется. Лучше же конечно в очередной раз полтреда сраться о ебучих мелкомоделях.
>>1199494 Апочему в цикл уходит? Подожди пока закончит и глянь в консоли таверны на каком моменте лупится начинает. Я как то не проверял перевод своих сообщений. Там все равно нет обратного перевода на английский с русского, как в онлайн переводе Пресеты не помню, потом гляну есди не забуду
>>1199742 Там есть промт суммарайза, можешь дописать чтобы только добавлял новые события игнорируя прошлый суммарайз. Или тупо скопировать сумму, а потом указать через промт последние сообщения и суммировать только их. Или через /hide прячь сообщения и суммируй - второй вариант.
>>1199732 >Я бы дождался дальнейшего развития. Когда вектор будет задан, можно будет прыгать. Оперативка не подскочит в цене как видеокарты. Посмотрел тут видео чела с такой конфигурацией: https://www.youtube.com/watch?v=aVIgSVOVmSg[РАСКРЫТЬ]
Не. Промпт процессинг всё такой же всратый (это целый дипсик конечно, но всё равно фигня). За те же деньги лучше и правда дождаться чего получше, если найдутся умельцы и сообразят что-нибудь.
>>1198267 >ищу тут себе на замену сгоревшей 3090 другую карту. Кстати надо бы проверить одну штуку. Раз у тебя есть настроенная система, где намешаны теслы-п40 и 30-я серия, то тебе проверить сам Бог велел. А идея такая: грузануть Qwen3-235B-A22B-GGUF, какой квант поместится чисто в видеопамять, в такую смешанную сборку. Генерация по идее должна быть зашибись, но меня интересует даже не она, а промпт процессинг. Я знаю, что у тесел он ниалё, но там MoE, эксперты по 22В, то-сё. Хочется знать, какую выгоду можно получить по сравнению с выгрузкой в RAM.
>>1199203 Да, с твоими настройками начала отвечать на английском, но вроде весьма норм. Топк зарешал, по-видимому.
>>1199200 prompt eval time = 52540.80 ms / 9623 tokens ( 5.46 ms per token, 183.15 tokens per second) eval time = 40038.62 ms / 405 tokens ( 98.86 ms per token, 10.12 tokens per second) total time = 92579.42 ms / 10028 tokens
Это с выключенными top p, min p, включенным top k. Прикол в том, что если включить top p, min p и выключить top k, то генерация будет на 1 т/с меньше.
Ram не юзаю, все на картах.
>>1199902 Я не он, но см. выше, у меня тоже смешано. Как по мне - очень даже, в моей go-to сборочке мистрале лардж без тесл на 11к контекста 282.06T/s обработка.
>>1199915 Правда, когда после ответа чара пишешь ему и ждешь ответ, то там обработка контекста скачет - например, 111.68 tokens per second (обработал 420 токенов), 135.77 tokens per second (обрабатывал 2060 токенов).
>>1199730 ну говорил же, что квен ебёт. Тут как-то считали, я тоже спрашивал. Под миллион тебе выйдет короче много ддр5 и подходящие под неё процы. Риг из тесел всё еще дешевле.
>>1200013 >>1200026 Вот тебе мой ( >>1199498 ) пресет. Надеюсь, поможет. Не забывай также следить за форматированием в карточке, контекстом и промптом. Тогда будет адекватно следовать формату.
Вздох Сразу обозначусь, что если кто-нибудь с пресетом не разберется или он вам не понравится - извините. Вас никто не заставляет это использовать. Помочь разбираться с тем, что именно там не работает или что вам не нравится я не буду, себе дороже.
Ну а кому подошло - приятной игры. Не забудьте выбрать подходящий системный промпт под ваши задачи.
>>1200047 >Под миллион тебе выйдет короче много ддр5 и подходящие под неё процы. Оно пока того не стоит, да. Особенно если как-то крутить всё-таки можно.
>Ты его гонял в куме или в каких-то задачах? В куме. Полный восторг. Третий квант и без какого бы то ни было тюна, но там уже всё есть. С префиллом и карточкой о цензуре и не заикается. И всё это на русском, бля! :)
>>1200050 Я бы ещё секса добавил в промпт типа Avoid using euphemisms for genitalia Чтобы немотрончик как раздвинул свои ляжки блять, да пиздищу свою мокрую на меня обрушил и задушил нахуй
>>1199498 Теперь советую попробовать гуфы, а именно IQ3_XXS и Q3_K_S Мне кажется exl3 кванты сломаны, будто бы больше цензуры и модель менее раскованная и умная
>>1200098 >Проверь, стихи на русском писать умеет? Попробовал у них на сайте - нет. Но такое ощущение, что они там самый всратый квант используют. Так они слона не продадут.
Какая модель есть до 15гб чтоб без особой цензуры и при этом не хотела меня выебать в первых 10 сообщениях? Пробую всякие магнутмы с чатвайфу, поговорить не успеваю, как мне уже НЕЖНО ГОВОРЯТ В УХО ЩЕКОЧА СЛАДКИМ ДЫХАНИЕМ МОЮ ПЕРЕПОНКУ.
>>1199494 Семплеры переводчика геммы, особо не настраивал но вроде работает. Я тоже когда то хотел поискать какие рекомендуемые для геммы, но чет не нашел и забил.
>>1200211 > а так только немотрончик но он 49б Коммандер 32б еще не забывай. Он нейтрально предрасположен к Юзеру, отлично подходит для слоубёрна. Что там на совсем маленьких моделях - хз.
>>1200219 Нейтральных моделей много, командер если попросить без проблем снимет трусы на 1 сообщении, а немотрон скажет ты че ебанутый давай что ли с поцелуя начнем
>>1200233 Ну так ты не проси, лол. Коммандер сам к Юзеру без повода лезть не станет. У меня множество слоубёрн чатов на нём, это не хорни модель. Но когда до этого дойдет, неплохо показывает себя.
>>1200240 >>1200256 Ну вы же понимаете пока не скинете пресеты никто вас всерьез воспринимать не будет Нормальный человек скачал увидел что это хорни говно раздвигающее анус на 2 сообщение и выключил
>>1200050 > извините Нет тебе прощения, как смел ты выложить сие, не думая о чувствах особенных тредовичков?! Или хотябы не назвав кого-то говноедом и обозначив конкретную модель, в команде фанбоев которой состоишь?! Непростительно!
Ну а если серьезно, такое большое полотно не вызывает побочек? >>1200143 Да можно, но нужно ли. Всеравно не супер быстро, а контекст оче медленный. >>1200233 > командер если попросить без проблем снимет трусы на 1 сообщении Смотря какая карточка, недотрогу, цундере и различные типы без проблем отыгрывает. За кумбота сам будет тебя соблазнять, за непосредственного чара будет отыгрывать мило и как раз непосредственно, без намеков на кум если сам не настоишь.
>>1200261 > Ну вы же понимаете пока не скинете пресеты никто вас всерьез воспринимать не будет Да похуй, в общем-то. Я своим опытом поделился, а не пытался тебя в чем-то убедить и тем более доказать лол. Юзай что душе угодно.
>>1199488 >>1199479 >Это суммарное время, абсолютно нормально ибо там обрабатывается контекст а во втором случае кеширован Так бля это даже не близко -5 токенов, это - 12 токенов от кобольда, ровно половина... Короч ждем оптимизацию
>>1200269 Ты не понимаешь что сравниваешь, или что-то неверно накрутил. На ампере экл3 работают быстрее чем жора, отрыв именно на большом контексте. Может и еще какие-то проблемы, но их в твоих скринах не видно.
>>1200274 Сравниваю IQ3_XXS жору и 3.0bpw экл3 На обоих влезает 20к контекста без квантования На жоре после обработки контекста у меня 25т, с фулл 20к контекстом в памяти блять На экл3 после обработки контекста у меня 12.5т
>>1200282 Что-то не так работает, жора подозрительно быстрый для 3090 на таком контексте, эксллама наоборот слишком медленная. В первом можно предположить смартконтексты и подобное, что просто срезает посты и делает фактический контекст, но для модели что помещается в врам это еще условно, в теории и т.д. можно посчитать нормой. Почему во втором медленно - хз, причин множество. Расскажи подробнее про свое железо и какие версии софта стоят.
>>1200155 Мелкомодели тупые. Тебе нужны модели которые хорошо следуют контексту карточки. И при этом карточка не должна быть о : сочная вагина, сисик, писик. QwQ снежный - хороший бетон с ризонингом. Отключаешь ризонинг. Уровень команнд-р Gemma 27b не полезет в трусы, если соблюдены приличия в карточке Серо я комман-р. Тоже четенькие модельки. Можешь написать : OOC сбавь обороты, пока я тебя не пристрелил, похотливая кобыла.
А теперь к насущному, хочу выразить благодарность анону за комман-а. Я литералли сижу и такой - что значит нет цензуры с коробки ? Это все мне ? Я могу писать что захочу ? А он мне : да дорогой, я модель и бла бла. Пиши чё хошь.
Сука, лягушатники и гуглы учитесь как надо. Никакой сои, чистейший рафинированный каеф.
>>1200288 Да это пиздец. Я действительно не понимал в чем суть. А тут большая модель, которая именно модель. Она меня не учит жить, не читает мне нотации. Она просто работает. Так что разводимся с милфой мистрали, тут новый чемпион.
>>1200285 > Gemma 27b не полезет в трусы Если не попросишь! Про > сочная вагина, сисик, писик на самом деле писать можно если есть про характер, мотивы и прочее. > QwQ снежный А этот не укусит, если не попросишь. Встретил таким когда только начал его тестить, такой ор был Но модель в целом хорошая. > Пиши чё хошь В комманд-а по сравнению с мелким коммандером есть, как и алайнмент. Да, обходится промтом и меньше чем в остальных, но не понравились затупы и не гладкий переход в некоторых кейсах. Тюны не пробовал, базовый понравился меньше жирной мистрали, местами ну совсем безинициативный, или не может запрыгнуть на бибу без инструкции, когда к этому уже все пришло. С какими промтами и в каких сценариях его юзаешь? Может неправильно готовил и он мегахорош.
>>1200295 Где? 15т на задушенном ампере с полностью забитыми 48 гигами врам и большом кванте - да. Также как и на жоре, только на нем генерация с контекстом совсем умирает в разы. На 3х битах не пробовал, там будет пропорционально быстрее. Если катать на анлокнутой 3090 то что помещается в ее память - там и до 30т/с может быть, под рукой их нет сейчас.
>>1200293 > базовый понравился меньше жирной мистрали Я уже присытился мистралкой. Она конечна работящая милфочка. Но хочется чего то нового. Да и эти : My limitations don't allow me to describe such situations, try changing the query. так бы и убил. > С какими промтами и в каких сценариях его юзаешь? Как коктейльного мастера, лол. Сейчас пробую lewd dungeon сценарий, изменяя его. Тентакли уважает, может в так милый моему сердцу бэдээсэм.
По промту : не иронично тут анон скидывал для геммы, гичан чего то там. Ничего лишнего, только пару абзацев убрал. Наратор не всегда подходит. А в остальном - ну это же комманд, он жрет любые настройки. Надо, скину файлик для импорта.
>>1200301 > Я уже присытился мистралкой. Разнообразие и свежий текст решают, да. > My limitations Ахует, ни разу не встречал. А с комманд-а чето в рп пробовал - не глупый, но довольно пассивный, прям его шевелить надо было. Решил с кумботом поиграть - начало хорошее и видно что умная, но потом застряла не прелюдии и далее как-то деревянно, хотя по памяти прошлых версий, ожидал что будет двигать и давать годлайк описания соития. В итоге приуныл на контрасте с ожиданиями и экспириенсом с прошлых коммандиров. > Надо, скину файлик для импорта. Скидывай, с меня как всегда.
>>1200306 >Скидывай, с меня как всегда. Инстракшн пустой. Ну ты понял Остальное 100% шиза. Пользователь не несет ответственности за нанесенные моральные травмы.
>>1200352 Ананас, попробуй реп пен снизить до 1.07 хотя бы. 1.2 оглупляет модель Но Коммандер и правда может в репетишен уходить, не стесняйся юзать dry тоже
>>1200285 >Можешь написать : OOC сбавь обороты, пока я тебя не пристрелил, похотливая кобыла Подожди... Всё это время если обращаешься к модели напрямую надо было писать оос? Я всё время * юзал и не понимал а почему меня пресонажи слышат
как же я ненавижу всё это ебаное пердольное питонячье дерьмо блять... трахаюсь с запуском vllm, эта сука упирается рогами и не запускается. Заебло блять. Руки бы повырывать этим "разработчикам" и в жопу затолкать.
>>1200507 а,не, распердолил вроде... оказалось что проблемы были из-за дебиана штейбл в который я добавил репу тестинга и обновил оттуда куда-тулкит. Разъебало nvidia-smi так, что она начала по ООМ падать и смежные процессы с собой уносить. Вообще охуеть конечно... Придется делать дист апгрейд, но потом. Так, следующий шаг - openmpi.
Если тут есть опытные - подскажите, есть ли какие-нибудь плюсы у vllm, кроме того, что он походу умеет в распределенку через nccl (а еще он поддерживает gguf формат. Интересно, кто шустрее работает - жора или vllm...)
в общем лучший кум получается когда комбинируешь что-то умное и супер тупое типа форготен трангрешена задаешь темп трангрешеном с камдапмами, салатами, а потом переключаешься на немотрон/гемму и кайфуешь с умного кума
Я тот анон, что распробовал ванильную мистраль лардж. Сегодня попробовал на том же бдсм сценарии квен и мне пришлось спешно править сценарий, снижая факторы жестокости, которые я добавлял для мистральки. В общем-то, пикрил. В квене, к слову, периодически моя-твоя не понимать с дислокацией. Skin of the inner thigh above pussy - это хде? Skin of the outer lip above pussy - а это хде? Тяны в треде, прошу пояснений. Пока убрал температуру в 1,2 от греха подальше от таких приколов.
>>1200538 >Сегодня попробовал на том же бдсм сценарии квен и мне пришлось спешно править сценарий, снижая факторы жестокости, которые я добавлял для мистральки. В общем-то, пикрил. О да, квен периодически по собственной инициативе предлагает сделать больно. Хорошая модель.
Непоняток с дислокацией я особых не заметил (на русском), как по мне, так у других моделей по-любому хуже. Температуру выше 1 не повышал (а разработчики вообще 0.7 рекомендуют так-то).
>>1200543 Я лардж на 2 гоняю, а раньше вообще на 2.5, и ничо. К слову, попробовал магнум в4 - отвратительно. Зачем я повелся на этот хайп файнтюнов... Ну да, ванилла пишет посуше, подпинывать джейлбреками надо, но зато у нее всегда очень четкое понимание происходящего и вектора развития. Мне даже кажется, что иногда прям она флексит, в одном сообщении многоразово закидывая различную инфу на основе контекста, чтобы я сказал "нихуясе". И я ее уже научил пусси и кок говорить, прогресс!
А я чет не понял, квен пишут мол не используйте жадный выбор. Это значит у них жадный выбор кончается уже на 0.7 температуры? Или надо смотреть по токенам и добавлять температуру пока вероятности первых двух токенов не станут близкими? Так же там добавили рекомендацию ставить повторы на 1.5. С общей рекосендацией играться с ней от 1 вплоть до 2 на сколько понял.
Какая же оригинальная лардж пиздатая, хосспаде... Я дал ей инструкцию в отвече чара (я обычно ее в [] пишу, а не оос), так она потом при генерации перевоплощения (impersonate) начала выдавать самой себе ГОДНЫЕ инструкции, при этом иногда спамя ими по 10 штук подряд, вырисовывая ГОДНЫЙ сценарий. Ебануться, ни один из мною пользованных тюнов так не писал. И ОНА ПОМНИТ МЕЛОЧИ (квен 235 тоже, кстати, помнит их охуенно). Все нахуй, меня тоже записывайте в какие-нибудь ваниллашизы, но больше никаких ужаренных тюнов.
>>1200560 >>1200567 В общем нашёл проблему. Вот эта хуйня сжирала у меня 4 токена, лоботомировала таби апи и замедляло обработку контекста х2. Я вставил какой то длинный список сюда и забыл
Что это за магия ебаная в таби? Я думал свайпы в очередь встанут просто, а оно генерит параллельно, то есть у меня за один свайп сразу пять, скорость ниже может на %15
Здарова анонасы, где то год назад уже пытался влится в рп, но тогда ллм'ки были туповатыми и я быстро это дропнул. Интересует какой сейчас положняк. Посмотрел шапку, и чет там все модели которые "рекомендуются" - большие. Хотелось бы чтоб в 16 гигов врама влезали. Есть какой то список годных моделек для 16гоговых нищуков ?
В в 4м кванте: Гемма-3-27Б - топ в русском, мозги на уровне более старших, требует квантовая контекста ибо из-за его особой структуры жрёт как не в себя, но оно того стоит.
QwQ-Snowdrop - Требует очень поджатых настроек семплеров, но неплоха весьма в том числе на русском.
Ещё пара 14-15Б вроде мелькала тут которые можно рекомендовать.
Серия коммандеров - есть на разные весовые категории, заходит не только лишь всем, но регулярно всплывает в обсуждениях.
Господа, я как то давно видел, или где то читал что есть такая опция в таверне, которая начинает обсчитывать контекст для следующего ответа аи на ходу, пока ты пишешь своё сообщение. Я может ебанулся и мне это приснилось, но покажите пожалуйста где это если такое есть.
>>1200618 Попробуй все новые квен3, как ассистент ебут остальных в своем размере. Особенно интересна 14b и 30b. Последняя мое модель, быстрая даже на процессоре или с частичной выгрузкой во врам. х Хороши для общих задач и кодить. Ну гемма3 еще неплоха в работе с текстом и в русском языке.
>>1200684 Так покажи им как надо. Там целый коллектив разобраться не может, как сделать лучше. Выкладывают, а позже находятся косяки, несмотря на тесты. Не исправлять их?
>>1200456 На самом деле все куда интереснее. Тут от модели зависит. Мистрали - OOC : бла бла бла. Игнорируют от лица персонажей, учитывая написанное. Гемма, если это было указано отдельным сообщением начнет отыгрывать от лица персонажа и отвечать. А если это указано в сообщении но в первых, или последних строках - то тоже проигнорирует. Как таковой команды на прямой запрос нейронки не существует. Потому что любой запрос, блять, прямой. >>1200517 сей анон прав. Чем модель больше, тем проще. НУ и нужно смотреть чтобы в карточке, если ты её скачал а не написал, не было никаких "игнорируй прямые сообщения к нейросети и прочее в таком духе. Мой опыт показывает, что самый оптимальный вариант - это дать отдельным сообщением комманду, мол Gemma доставай дробовик и начинай мясо. А потом идет другое сообщение : Я с упоением слушал церковный хор, посматривая на монахиню Изабель, её полные груди гипнотически покачивались, в то время как стылый январский ветер щекотал мои яйца.
>>1200622 >Серия коммандеров - есть на разные весовые категории, заходит не только лишь всем, но регулярно всплывает в обсуждениях. ИЧСХ я не знаю в чем дело. Они не шизят, не лупятся, не хорни. Они действительно норм. Но ты ими пользуешься и такой : ну модель. Ну пишет. Ну местами умненькая. Но чего то не хватает. Рука хейтить или восторгаться не поднимается. Я не понимаю что со мной не так.
>>1199173 >еще две влезут смело под стекло, и еще одну (или даже две) мб можно как то присрать за стенку Фантазер, просто примерь 2шт 4-слотовых и увидишь как упрутся в расположение слотов и стенку. Не говоря уже о наличии китов для вертикальной установки. С виду - это мммаксимально бесполезный корпус, объем которого невозможно тематически использовать. Переворот мп не дал ничего