В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Итак, пора уже собирать фидбек и делать новый список.
Призываются гига_бояре для своего КРЯ относительно огромных моделей. Что актуально, что вышло, что вы пробовали. Что рекомендуете. Желательно писать пределы VRAM для вменяемого использования.
Так как по средним и малым - фидбека хоть жопой ешь, собирай ходи только. Чем и займусь после работы.
>>1221316 (OP) Так я не понел, а где гайд по магик транслятору? В рентри и в шапку, я больше его повторять не буду. Нет так и хуй с вами, живите в проклятом мире который создали своими руками.
>>1221318 >- Qwen3-30B-A3B Нужна отдельная сноска в рентри для моделей онли cpu/маловрам и это его S тир
>>1221335 >Так я не понел, а где гайд по магик транслятору? В рентри и в шапку, я больше его повторять не буду. Нет так и хуй с вами, живите в проклятом мире который создали своими руками. Анон в этом тредике мы будем пилить новую шапку, будь добр скопируй ссылки и вот сюда ответь >>1221325, я все потом внесу внесу, мы все согласимся, посремся и радостно вернемся к срачам.
>>1221340 Плохо искал, а рентри делать ручками либо ты либо неравнодушные аноны.
---------------
Копатели могут поискать мои первые посты хуй знает когда месяц назад что ли когда я писал подробно по этой теме тут серией сообщений. Или взять рецепт из сообщений выше
>>1221365 Твоё кря? Моё "единственный нормальный тюн на мистраль 24б" - это харбингер. Он и в нормальный русский могёт, а данс нет, слишком пережарен. Ну или поделись пресетом.
вот именно поэтому собирать такие списки - плохая идея. чел присосался и просит за него все сделать, убедить его. продать ему шариковую ручку, понимаете? уже какой тред
пусть кто-нибудь сам пилит рентри со своим мнением, а оп оценит, стоит ли оно того, чтобы быть в шапке
>>1221371 Я тебя скоро репортить начну. Если ты не прекратишь срать. Разборки с твоим протыком мне, да и думаю остальному треду, не интересны.
>пусть кто-нибудь сам пилит рентри со своим мнением, а оп оценит, стоит ли оно того, чтобы быть в шапке
Давай ты не будешь указывать кому что пилить, потому что сам нихуя не делаешь. Я уже насмотрелся на - давайте сделаем и тишина. Всё что от тебя требуется это написать, если есть что из действительно важного по моделям, и не срать. Это не сложно, я думаю. Даже обезьяна справится. А если ты не понимаешь, то получишь банхаммером по жопе, это не твой любимый ациг.
>>1221384 во-первых, важность свою попусти немного, ты здесь такой же анон как остальные во-вторых, тебя сру не только я, либо осознай это, либо прекрати делать вид, что не понимаешь в-третьих, свое дополнение к списочку я выше прислал, привычки срать в тред у меня нет, как у некоторых
>>1221318 Здесь нет ни одной 12b для новичков и тупичков. Надо хотя бы немомикс анлишед воткнуть, проверенный временем: пишет кратко (но при надобности может и навалить), четко, по делу, не шизит, речь лучше аналогов, может в кум и обычный рп, без перекосов. И сломать его сложно сэмплерами или кривым систем промптом.
Идеальный вариант для того, кто может в английский и хочет пощупать локалки, ну или у кого мало видеопамяти.
Разумеется, это по сравнению с другими тюнами 12б мистраля.
---
В списке больше спорных моделей, чем ожидалось, при этом отсутствуют базированные вроде дэнс персоналити.
Может голосовалку прикрутить с моделями, чтобы был какой-то консенсус? Если только цирк не начнется с накруткой.
>>1221334 А что по ллама 4 скаут? Видел только пару пуков по ней здесь давно.
Трогал на опенроутере её и квен толстый. Для рп ллама мне показалась лучше, хотя там соя есть, но может её можно выпилить норм систем промптом без потери мозгов.
Мне очень интересно мнение анонов, которые распробовали ее.
>>122136 > Может голосовалку прикрутить с моделями, чтобы был какой-то консенсус? Если только цирк не начнется с накруткой. Вы просто пишите, главное начать. Потом предварительный док скину и уже начнем метать в друг друга говно. Все как любите. Спешить не куда. Но начинать надо, а то так и будем ллм инвалидами. Думаю в пятницу скину, побегаю еще по старым тредам в поисках хайден гемов, там аноны шикарный фидбэк пилили.
>>1221318 > Список актуальных моделей для 12-24 VRAM Не кипишуй, к выходным запилю, если кто-то другой не возьмется. Как отдельный пост - норм, как пихание списка в шапку уже проходили, неоче. Большая часть списка - сомнительные тюны/миксы (может и хорошие), лучше так не делать. > Выгрузка тензоров > Пример конфига для llamacpp Это хорошее > Китайская обниморда Это тоже
>>1221325 А, ну раз взялся то ты тогда и делай. Потом закину модные графики и что-то по железу.
>>1221420 > А, ну раз взялся то ты тогда и делай. Потом закину модные графики и что-то по железу. Ну было бы крайне странно начинать и нихуя не делать. Это лишено всякого смысла. Пока пускай варево настоится. Дождись пока все не соберу, а потом уже начнем крякать, заодно графиков завезешь. Пока буду исключительно модельки и шизотюны собирать на основе количества упоминаний в треде.
Приходит незнайка, но с англюсиком в голове, в тред, открывает, а тут 24б, которые в его карту не лезут, и ру-миксы. Он охуевает, качает 8б кал, ну я это уже много раз видел. Как и тех, кто почему-то сидел на ру-моделях на английском. Да, в английский они могут, но лучше их не использовать для этого.
И я чекал буквально каждую модель тредовичков, когда они делались. Там буквально 1-2 нормальные.
Есть ещё модели в шапке, которые сто лет не обновлялись. От них вообще ощущения печальные по сравнению с новыми.
Почему я топлю за эту хуйню: чем больше полезной, актуальной инфы и ниже порог вката, тем выше шанс, что сюда будет закатываться больше людей и осознавать, что даже с их сраных ноутов можно терпимо порпшить. Чем больше русскоязычное комьюнити, тем больше полезного контекста и шансов получения новых ру-моделей, полезной инфы и прочего.
Возможно, ты не видел, так как это в целом мимо треда прошло, но тут был один чувак, который тюн Яндекс-кала сделал на клодослопе, оплатив генерацию это самого слопа, собравший датасет, попотевший. Он обосрался и пошёл снова переваривать, собирать датасет и пытаться сделать лучше — я с ним переговорил, оттуда и узнал.
Именно таких людей и не хватает.
Блядь, даже я, ленивое говно, делал довольно подробные обзоры некоторых моделей с примерами сообщений, качеством текста, направленностью, которые можно было бы включить — всем похуй. Ещё тонна анонов писала куда более полезную инфу, чем я — всем похуй. ОПу
Эта инфа просто тонет, не включается в шапку зачастую даже в виде хаотичного гайда без особой структуры.
Лучше криво-косо налепить хотя бы в рентри, чем вообще никак.
>>1221440 > Возможно, ты не видел, так как это в целом мимо треда прошло, но тут был один чувак, который тюн Яндекс-кала > пбольше бы таких Не прошло. Он тут появлялся и ему хохлы хуев за щеку накидали и выгнали, убедив что его говно никому не всралось и все рпшат на англюсике.
>>1221325 > КРЯ относительно огромных моделей. Что актуально, что вышло, что вы пробовали. Серия отзывов уже есть в прошлом треде и до этого. Из больших: Command-a Противоречивая модель, по умолчанию в рп может быть достаточно скучна и безинициативна, в занудных рп размер вообще не ощущается и она делает глупые ошибки как мелкая. Однако, если навалить в системный шизопромта, немного попинать ее в начале или посадить на готовый чат - может хорошо заиграть. На контекстах от 10к уже идет интереснее, прилично описывает кум, делает необычные развороты/развития сюжета, хорошо ориентируется в сай-фае и подобном, не пытаясь подмешать туда какое-то фентези хотя для такого размера за такое сразу в унитаз надо. В коллекцию и под настроение пойдет. Внезапно неплох в анализе технической литературы, норм рассуждает. Mistral large 123b Король локального рп/кума, он просто хорош. В базе достаточно уныл, похож на command-a, иногда раскачивается промтами, но кому-то заходит. Один из лучших тюнов - магнум в4, сохранены мозги, отлично кумит и рпшит, ломает 4ю стену подмечая и делая отсылки, чары ведут себя хорошо. Скатывание к шаблонам минимальное среди тюнов, может в разнообразие. Серьезные минусы - стиль письма "Гвардейцы двинулись на вас строем, покачивая бёдрами" (c). Еще из тюнов интересен бегемот 1.2, клодизмы также встречаются но меньше, умный, но кум похуже, с резкими переходами и шаблонностью. Всякие люмимейды и прочие на фоне эти не понравились, 2.5 варианта рельсов кума, прыжки на хуй, отупение после кума или некоторых событий, невозможность дразнить персонажа и т.д., что для такой модели непростительно. qwen235-22 В прошлом треде, умеет, могет, практикует. Есть проблемы, но исправляются, спгс и дотошность в разумных пределах и идут на пользу, иногда проявляет свою 22б натуру, но исправляется. Главное - ахуенный отыгрыш характеров, эмоций и естественность всего этого, кум хороший. Цензуры нет, любые занятия с любыми персонажами, от гурятины до невинного счастья (возможно сюжетная обоснованность влияет но ни одного отказа и намека). В 4ю стену влетает с двух ног, помнит нужное по всему контексту, разнообразна. Главные проблемы могут проявляться на старте чата, когда она придумает лишнего. >>1221422 > >Сначала идет оригинал модели, к нему списки тюнов. База, типа того что уже делали
>>1221395 Двачую по поводу немо. Не всем нужны примеси сайги. Можно указать хотя бы самые популярные: немомикс, магмел, росинанте, магнум, вейфарер (от этих разрабов данжена сейчас есть более новая 12б muse, мне лично показалась тупой). Дальше уже желающие смогут их миксы сами искать. Более узкоспециализированные поехавшие модели Дэвида или ПокетДока (все эти darkness, madness, dangerous winds), не знаю, нужно ли.
Это всё прекрасно но 123-235б это вообще для кого? Для мажоров, айтишников и прочих негодников А на одну 3090 любой анон может накопить, пошёл еду повозил и в конце месяца уже чатишься с канничкой
Еще инфа по твику выгрузки тензоров. В прошлом треде я выжал ~25t/s из quen3-30b-a3b (IQ4_XS) на 3060 12GB. Так вот - это не предел. Можно еще больше:
Это начало чата: CtxLimit:1093/12288, Amt:320/320, Init:0.01s, Process:1.40s (552.93T/s), Generate:11.12s (28.77T/s), Total:12.52s
Это почти полный 12К контекст. CtxLimit:9993/12288, Amt:221/400, Init:0.09s, Process:16.00s (610.86T/s), Generate:8.47s (26.10T/s), Total:24.46s
Выяснилось, что чередовать тензоры при выгрузке не нужно. Наоборот, лучше выгрузить все по по порядку, на сколько VRAM хватает. Вот текущий вариант ключа: --overridetensors "[^\.12][0-9].ffn_.*_exps.=CPU" Первая часть остается на GPU, только хвост списка идет на CPU (начиная с 30-го). Дает еще +4 t/s, примерно.
Обнаружил прикол - если фоном машина качает что-то из интернета в броузере (да ту же модель с хуга тащить) - это -4-5 токенов от скорости генерации. Причем именно в броузере, если тупо в локалке файлы кидать - не влияет.
>>1221750 Нет конечно. Этот твик в принципе ничего не выбрасывает и не жмет, так что повлиять на качество не способен. Он просто указывает какие части модели куда класть (cpu/gpu). Более тонко, чем просто слои делить.
>>1221618 Может раз мистралей 12-24б так много, под них отдельные страницы завести? Тем более что их инджоеров полно, может кто-то возьмется вести. >>1221619 > пошёл еду повозил и в конце месяца уже чатишься с канничкой Повози еще два и будешь чатиться с канничкой на 100-200б. Важно отметить что 235б - это мое с 22б активных параметров. Она будет иметь сносную скорость даже на одной видеокарте с выгрузкой на процессор. Правда сносно - не значит хорошо, возможно с медленной генерацией модель может показаться уже не такой хорошей, потому что каждый косяк, свайп, исправление и т.д. будут доставлять недовольство из-за задержек. >>1221750 Если в жоре нет каких-то багов связанных с пересылом и около того, то все должно быть норм. Но лучше потестить и с осторожностью.
>>1221629 Прошлый был слишком большой чтобы помещаться в разумное нищукское железо, и слишком вялый в рп по сравнению с квенчиком. Первое точно не изменилось и множит все на ноль, второе под вопросом, но шансов мало. Ну, кто попробует - расскажет.
Антончики, какую Гемму (с)кват лучше хватать - гугловскую ванильную или от unsloth? У последних вроде как кванты компактнее и современнее, чем Q4_0. Кто-то сравнивал?
>>1221980 Нельзя, смирись. Это нельзя тупо взять, вставить, и получить гарантированный результат. То что я написал - это пример. Для каждого отдельного случая надо подбирать под конкретную железку и модель. В прочем, если у тебя строго как у меня - 3060 12GB, пингвин который выводит GUI на другую карту (не занимая vram на этой), и qwen3-30b-a3b - можно скормить ключ кобольду как есть - эффект будет.
Так, короче, наконец я релизнул свой видосян по поводу сборки и с чистой совестью могу сказать:
5 P104-100 нужны только полным бомжам, которые хотят гонять большие модели.
Плюсы: + Стоит 25к под ключ. + Втрое быстрее DDR4. + 40 гигов, пихай Q8, не жалко!
Факт: 17~22 токена у 30b-a3b модели.
Минусы: - 5-7 токенов у 27b~32b моделей. - 8 гигов оперативы и это все. - Ни на что больше не годны, разве что генерить картинки и видосяны на выделенных видяхах мелкими моделями. - Не топ за свои деньги по тпс, вполне обычная цена, игровой комп потянет квенчик чуть медленнее, зато он уже есть. - Старое, нестандартная сборка.
Вывод: Это игрушка, конструктор, лего своего рода для гиков. На деле, если у человека совсем нет денег, а хочется чего-то быстрее и среднего размера — то это выход, но во всех остальных случаях — лучше сразу собрать что-то современное, подкопить на 3090 и все в таком духе.
Я не пожалел, что замутил такой проект, мне было весело. Будет стоять нейроночка для пет-проектов на отдельном ПК.
Но, возможно у меня просто глаз замылен, так как дома есть компы в разы быстрее, а на деле 5 токенов на гемме 27/квк это и правда круто, а я тут жалуюсь. ¯\_(ツ)_/¯
>>1222024 Слишком медленно будет. >>1222026 Вот действительно что конструктор. Слишком медленная работа, особенно по контексту будет беда, чтобы оно имело практическую пользу после сборки. Без осуждения, собирать действительно может быть интересно и бюджетно. Но гроб-пылесос с сомнительной юзабельностью выглядит плохим приобретением. Интересные сборки там есть? И где видос?
Что думаете о Reka-Flash-3-21B, это не файнтюн, а оригинальная модель. Вроде цензура слабая. По техническим вопросам отвечает лучше тех что я пробовал сопоставимого размера. Русский понимает хорошо, но русский сейчас все модели понимают.
>>1222040 Контекст 230-240, кстати. Но с ров-сплитом у денс моделей в 20 падает, курам на смех, канеш.
Я так покумекал, неплохо работает с ОпенМанусом, который пошагово решает задачки, там контекст не целиком используется, поэтому получается шустро. Ну, в таком режиме норм. Надо еще погонять в клайне.
>>1222026 слушай я тоже рассматривал создания рига под это дело, думал про p40 штуки три четыре найти и ддр3 серверную Не смотрел в сторону radeon instinct mi50? Они у нас довольно дешевые. по производительности не уступают p40, а стоят в два раза дешевле Пока во всем это копался наткнулся на notebooklm гугловский, разочаровался что в ближайшие лет 10 не смогу такой агрегатор дома сделать, поэтому пока оставил затею собственного рига и буду потихоньку кумать и рпшить на 27б и 32б модельках и познавать искусство правильного создания лора/персонажей и промптинга
>>1222053 Сегодня уже спрашивали в телеге за mi50. Честно — в руках не держал, ничего не могу сказать. Проблема может быть с ROCm, на вулкане может быть скорость ниже, чем хотелось бы, но возможно сейчас и хорошо. Когда P40 стоила 15к была топ, щас уже нафиг не нужна за нынешнюю цену. В треде тоже владельцев не припомню, кто бы отписывался подробно, и среди знакомых тоже никто не запускал. Так что — тут вообще темная лошадка.
>>1222048 >>1222026 Поздравлямба анон за завершение эпопеи с видео. Голос хороший, слушать приятно. Будем тебе просмотры делать. Продолжай в том же духе, ты nyashka
>>1222048 Кринжатинка, но в целом душевно, пили еще. Прямо база с кривыми каркасами под фермы, отверстиями не там и прочее. Накати туда прыщи вместо шинды, станет получше. >>1222053 Ты определись с бюджетом и с тем, что хочешь делать. Тормознутое железо что теоретически способно вместить модель, но выдает на ней плохую производительность - не лучший вариант, сам потом взвоешь. > ближайшие лет 10 не смогу такой агрегатор дома сделать Не отчаивайся, софт подъедет, и ты всегда можешь поднимать свои киллы во всяком-разном, хоть в том что описал.
>>1222062 >>1222065 О-о-ой, пасиба огромное, не ожидал. =3 Ну, что же, будет еще какой проект — замучу, что ли. =) Заодно попарюсь с монтажом и мемами, что ли. Я принимаю свой кринж, так что да.
А с линухой мне было лень разбираться, какие драйвера нужны на P104-100, а на винду они у меня в архивчике хранятся. И хотелось запустить как можно быстрее, вот торопыжество винду и накатило. =) Да, поэкспериментирую, может получится поднять на 20-30 процентов еще, как с 235б квеном, там линукс прям затащил.
>>1222067 Вот об этом я сегодня задумался. На 3060, на 4070 ti, на 4090 я запускал тюны (чисто для навыка), а вот на мульти-гпу паскалях — нет. Сомневаюсь, что получится, но вдруг.
———
Кстати, есть еще варик с 24 гига под LLM, 8 гигов под вишпер и ттс и 8 гигов под картиночки. Прям бимба под силлитаверну. Но это чисто в теории, на практике я это проверять не буду. хд
>>1222067 Не можно. В 8 гигов поместится чуть меньше чем ничего, особенно учитывая что миксед пресижн там невозможен, йолу или мелкий классификатор из потенциально полезного. Дипспид и фсдп, которые в теории позволили бы впихнуть что-то немного больше, на этой некроте тоже не взлетят, слишком старое. >>1222068 Только сильно не переусердствуй. Сборочки, вместе с обзором на типичные косяки, возникающие с ними, изредка под настроение можно посмотреть, иногда прямо датфил. Еще интереснее было бы бугурты и маты с попытками хорошо разместить 4 крупные видюхи в гражданский корпус, или типа того.
>>1222060 я как-то видел за 9к или 11 p40 на озоне, а буквально на след. день цены взлетели до 18к одновременно. Будто бы все одновременно захотели себе ллмки дома погонять. по поводу ми50 может через годик этот проект начну когда буду посвободнее, а может уже и 3090 подешевеют (ахах) >>1222065 я хотел сделать просто базу знаний с локальным ллм чтобы мог обрабатывать большой массив данных. Хотел обрабатывать в нем статейки и все такое. И может свои прикольчики обучать, интересно внутрянку ллм изучить (для этого конечно не обязательно мощи иметь и все же) Ну а по цене думал тысяч до 300-450 сделать, но как-то быстро разочаровался, глядя как другие подобные штуки делают. Энивей не добьешься хорошего результата и нужно хорошее серверное железо, не зря оно за лям уходит и выше в небеса.
>>1222072 > Еще интереснее было бы бугурты и маты с попытками хорошо разместить 4 крупные видюхи в гражданский корпус, или типа того. Бвахахах! Не, я боюсь, я себя к такому не подпущу. =D У меня тут про запас полуметровый райзер валяется для такого. Пилить NZXT Phantom Red я не решусь. =)
>>1222074 > а может уже и 3090 подешевеют (ахах) Ждем и надеемся. =D
>>1222074 Для твоих задач нужна скорость. Большая модель тут не нужна, по крайней мере по началу, а требуется производительность чтобы давать быстрый результат, и не тормозить тебя. Если у тебя уже есть видюха - можешь заниматься всем этим на ней, какая-нибудь гемма, жлм, да даже мистраль и прочие будут более чем достаточны. Масштабированием можешь уже потом заняться. > обучать Обучение начинается с ампера, никаких тесел и прочего. > тысяч до 300-450 сделать Ну типа на пачку 3090 хватит, но лучше не спеши с приобретением. Сначала хватит одной, максимум две. А там уже поймешь нужно ли тебе оно, соберешь риг, купишь облако, или останешься с тем, что есть. Ничего серьезного даже на огромном риге из 3090 обучать всеравно не получится, из ллм только мистраль-лардж и большой моэ квен катать. Стоит ли брать исключительно для этого если не знаешь чем еще занять - вопрос. Если в целом мл-релейтед заинтересует - уже найдешь чем загрузить. >>1222081 > NZXT Phantom Red Ебааать, из каких годов это чудо? Там что под привод посадочные?
>>1222087 Спасибо анончик за совет. Не пошел закупаться, как раз потому что боюсь, что будет простаивать без дела и надо бы потихоньку это дело начинать, все равно пока у меня знаний по сфере с гулькин нос. Сейчас вообще на 890m(igpu) поперживаю на рязани hx370, благо тут память распаяна и на 27б по 3.3 токена можно на 4к контекста делать. В целом терпимо. А обучение прерогатива нвидэ? Я знаю что есть неплохое для машинного обучения серверное железо у амуде сейчас. Пробовал обрабатывать на гемме3 свои статейки и доки на 1б чуда не произошло (ожидаемо) как и на 4б, но 12б уже поинтереснее, хотя все равно не сказка и много проебывается. Но медленновато, кто бы мог подумать.
>>1222116 Gemma3 хороша (от 6 кванта), мистраль немо и его файнтюны (также от 6 кванта). Вот эти заметки по квантам мб просто моя шиза. Но будто роляет куда больше в русике нежели число параметров
>>1222072 Можно использовать алгоритм Asynchronous SGD для обучения, пару лет назад видел статью на хабре об этом. По идее должно работать для большого количество видеокарт на медленной шине.
>>1222101 Первая ассициация в наши дни - дедушка игросральных ведер. На вкус и цвет, как говорится, зато КРАСНЫЙ СПОРТИВНЫЙ БЫСТРЫЙ >>1222113 > А обучение прерогатива нвидэ? Если коротко - хуанг безальтернативен. Брать другое железо только если знаешь что делаешь и познал глубины пердолинга. > не сказка и много проебывается С пол пинка не заведется на статьях и сложных текстах. Нужна система на подобии ризонинга у всяких дипсиков с постепенной обработкой частями и сбором, но четко таргретированная, если хочешь делать какие-то выводы и обработки. Даже на больших моделях, корпах и т.д. Так-то даже качественный суммарайз рп - задача не хуй собачий. Как раз есть куда погрузиться, как вариант возьми внешнюю 24-гиговую карточку чтобы юзать ее сейчас, они часто идут дешево. То что перегревается и т.д. с ллм будет пофиг. >>1222123 Даже если это чудом сработает, что почти невероятно, по затраченным на все твоим человекочасам никогда не окупится, лучше не тратить время.
Давно таки не следил за тредом, расскажите, ананасы, неужели все так легко забыли тюны квена2.5? Были неплохие, достаточно умненькие и в кум тоже могут. Неужели все 32b юзеры переехали на Коммандер и ГЛМ, судя по последним тредам? По логам как всегда мало что понятно, но приложу, ну а вдруг. Конечно не без слопа, но мне нравится
Бля я сдался нахуй. Я так понял что чтобы юзать --override-tensor на ллама цпп надо устанавливать дополнительный репозиторий с говном, который на винде работает только из под палки и костылей. Придется дальше на 2 токенах ебучих сидеть. Пол компа говном засрал всяким, но все равно нихуя не работает! Пизда!
Кобольд на связи. Если я хочу гонять exl2/exl3 на своей 3090 в таверне и мне не особо нужен гпт-подобный фронт с диалогами - мне стоит сразу разбираться с TabbyAPI вместо угабуги?
>>1222144 TabbyAPI - чисто про exl2/exl3, обновляется быстрее Угабуги в этом смысле. В целом можно и Угабугу использовать, но я переехал с нее на Tabby, потому что тот тупо легче установить и запустить нормально. Хотя знаю людей у которых было наоборот Угабугой можно и не запускать фронт, а если и запустишь необязательно его использовать
>>1222144 В убабугой будет проще, но обновляется медленнее, нет подробных метрик по контексту/генерации, апи не такой продвинутый. С табби могут быть непонятки "уровня как загрузить модель и выставить контекст", но когда разберешься - норм. И то и то пойдет.
Такой вопрос, я хочу в рп на русском языке. Стоит ли делать карточки и промпт на английском? Я как помню английский меньше токенов забирает. И чтобы на русском говорила, оставить в систем промпт таковой указ и стори стринге? Или как вообще сделать это по красоте чтоб?
>>1222172 Не обязательно писать карточку на русском, оно и просто чат может подхватывать. Но на всякий случай можешь дописать "respond in literary Russian". >>1222002 Подъём вопросу
>>1222172 Я недавно снова начал запускать локальные LLM и заметил что у мистралей, qwen, gemma сейчас нет проблем с русским, и даже токенизировать они стали намного экономнее.
>>1222172 >Стоит ли делать карточки и промпт на английском? Нет, я наоборот карточки перевожу на русик, или хотя бы первое сообщение модели. Насчет системпромта не уверен, но обычно в готовых пресетах английский и так. >помню английский меньше токенов забирает Поднимали вопрос, на современных токенизаторах разница процентов 15-20, а не х2. >>1222182 >Подъём вопросу Сейчас только перерывал скрины интересных сообщений с тредов 20перекатной давности, один анон сказал что если планируешь кум или хотя бы какое то раскованное рп - то ванильная гемма будет даже большим лоботомитом, чем аблитерации. Думаю он прав.
>>1222183 Сейм, аноны говорили что 24б мистрали только для англюсика, а на русик сиди или на гемме или на гусевских миксах 12б... Я поставил Forgotten-Transgression, попробовал по фану на русском, а у нее русик лучше чем у русиколоботомита, и при этом без ощущения романа донцовой и желания писать кум в одну уклончивую строку как у геммы дпо.
>>1222183 Ну мне нравится даже переводить (заодно под себя подгонять) карточки. >>1222190 Спасибо. Раз с токенами нет проблем, думаю можно тогда целиком на русик перекатить. Кстати тоже заметил, что файнтюны мистраля немо и мелкого оче годно разговаривают на русском
>>1222194 Ну 12б мелкомистраль тут еще тредов 40 назад и вплоть до последних все советовали как единственный вариант русского рп/кума, даже гемма-3 не смогла его подвинуть. Буквально любой вопрос про русик в рп и: > Darkness-Reign-MN-12B > Sainemo-remix-12b > Omnino-Obscoenium-Opus-Magnum-MN-12b - для русского кума практически безальтернативна, следующая ступень уже 123б я бы сказал.
Но ВНЕЗАПНО оказалось что у 24b, русик тоже хорош... Ну для неискушенного так точно, для искушенных терабайтами ролплея на всех моделях, какие только появлялись, какие то нюансы сайги в датасете мб и чувствуются более пикантно на русике, хз. Есть подозрение что врамоинцелы коупили, советуя 12б. Но это не точно.
>>1222195 Я просто ток обратно закатился, в последний раз llm катал для рп и кума года два или три назад и тогда как-то не осилил то ли все было говном. Сейчас опять пробую, тут читаю. Кстати спасибо за наводки лол
>>1222195 >Но ВНЕЗАПНО оказалось что у 24b, русик тоже хорош... Да хрен там, на четвёртом ответе пошли проёбы в логике, дальше больше - короче для сложных карточек не годится. Если для 12В оно и понятно (и то через свайпы умудряешься вытягивать), то здесь даже свайпать не хочется. А русский хороший, да.
Другой анон. Вот этот мерж кстати, упорно пытался приделывать персам хвосты шерсть и прочую фурятину, когда те были без явно обозначенной внешки. Как кто-то про вездесущих гоблинов тут рассказывал, примерно так же, но вместо гоблинов фурятина :D
>>1222202 Лол, я сейчас перерываю скрины на предмет конспектирования мудростей (уже выше говорил. Кстати фан факт, то, что казалось мне откровением и "НАДО СОХРАНИТЬ" спустя почитывание тредов с 9х до текущего - вызывают улыбку), и тогда не заметил, но анон с опус-магнумом прям ярко его хвалит и каждый раз "если нет возможности в 123 - катайте опус12, на другом жизни нет".
Вот теперь гадаю, он: 1. вытекающий толстячок, советующий пережаренную говномодель 2. просто любитель ебать зверополис 3. советующий лютый гем господин, и модель надо скачать
>>1222211 Модель вот эта >Omnino-Obscoenium-Opus-Magnum-MN-12b Контекст, я узнал об интрижке между моей женой нори и футанари мари и пытаюсь ее за это грохнуть. И тут эта футанари пытается мне помешать и чото я в голос выпал с этого члена который меня по ногам бьет и отвлекает
Сорян что засераю ветку, но чот ору с этого саспиенса лютого. Просто этот сюжет прогонял не один десяток раз и захотелось разнообразить и теперь не до дрочки и кекаю сижу >>1222228 Ахуеть, реально
>>1222200 > проёбы в логике, дальше больше - короче для сложных карточек не годится Это в целом справедливо для всех моделей с кринжовыми именами типа ЗАБЫТАЯ ТЬМА ВАСЯНОВСКИЙ ДВИЖОК и подобное. >>1222202 А ты представь что там происходит если внешка указана. У девочки из голубого архива с ушками-наушниками лезут лапы, когти, мех на животике и прочая жесть, даже когда явно указано что там ничего не должно быть и несколько раз поправлено. >>1222222 > раскачивается, ударяя вас по ногами, пытаясь сбить с толку и задержать Как же я проорал с этого. >>1222229 Soooqaaa, ну ты содомит.
>>1222222 >И тут эта футанари пытается мне помешать и чото я в голос выпал с этого члена который меня по ногам бьет и отвлекает Зажрались тут все. Такой экспириенс, а они ещё и недовольны.
>>1222229 Хаах! С даркнес рейном 12b была ситуация, но там я оказался по другую сторону баррикад, с членом на перевес, ну покрайней мере нейронка в этом обвинила х)
>>1222261 Прост обвинил перса в своём истощении, что уже 3 раза за день кончил из за неё и заявил что отказываюсь ебать, ну а та стрелки перевела, типа это она жертва. Но "зачарка на член" годная идея лол, надо будет реально чёт такое придумать )
>>1221980 Можно вообще-то - https://pastebin.com/udG8dPk6 - если ты разберёшься как запускать llamacpp и у тебя 12 ГБ VRAM, а ты запускаешь модели которые весом в 16-20 ГБ, то тебе подойдёт.
>>1222130 На кодерских моделях кум везде одинаковый, сухой и неинтересный. Взять твои пики - в них нет личности, просто любую карточку подставь будет тот же кум. Кум это когда пурс делает что то неожиданное в связи с его характером в сексе, типа игры слов или укусит тебя за жопу до крови.
У меня одного чувство что если ставишь мало токенов, 300 к примеру, то качество ответа сильно падает, будто моделька хочет выдать что-то получше, но ужимает это в краткий ответ в 300 токенов, а если поставить 1024 то ответы всегда на полную мощность отрабатывают
>>1222299 Тебе так кажется. Модель не знает, сколько ей там токенов на ответ поставили. Может влиять на генерацию, только если у тебя полный контекст забит, потому что чем больше токенов на ответ, тем меньше на контекст.
>>1222283 > Взять твои пики - в них нет личности, просто любую карточку подставь будет тот же кум. Не угадал, анончик. Как раз таки следование карточке присутствует. Ты ж не знаешь, что в ней находится. Креатив тоже на месте. Вот поэтому логи особо не имеют смысла, они не показывают всю картину. Сноудроп, кстати, тоже кодерская модель, но при этом одна из лучших в пределах 32b
Чот ваш ассинтентотрон гавной попахивает - прямо в отказ не уходит, но софт-рефузалы и маняврирования жеппой в наличии + не следует инструкциям не говорить напрямую с юзером, "зажёвывает" кум. Зато может сам по себе предложить CYOA-блок о том как продвигать сюжет, хотя можно записать в минусы потому что не просил о нём =)
Его как-то по особенному готовить надо? Качаю Валькирию, посмотрим-с там.
>>1222317 >>1222324 ремнант-глэм кстати норм с этим, соей не льёт и кум вроде бы ок
>>1222299 >>1222306 Явление имеет место быть, но скорее субъективно. Как мне кажется - модели имеют тенденцию отвечать по определенной "схеме". Например - модель N, скажем, любит начать ответ RP с описания что ответил чар, потом - что сделал, закончить - как повели себя вокруг, и добавить про погоду. Причем каждая часть - имеет "любимую длину". Когда вся эта схема не влезает в токены ответа - то разумеется, режется. И кажется, что модель хотела сказать больше. Некоторым надо ставить не так много - просто чтобы мыслями не растекались где не надо. У меня была раз модель, которая очень любила переходить на прямое управление моим аватаром. Помогло ужать токены для ответа - т.к. это был ее любимый ""третий блок". Когда перестал влазить - проблема ушла.
>>1222343 Так и я тоже использую тредовичковый пресет. Вчера отыгрывал майндбрейк, чернуха настоящая, таких сочных свайпов мало где видел, соей там даже не пахло
>>1222352 немотронщик нихуя ничего не скидывал (за исключением корявого лорбука с префиллом лол) и по-видимому сидит на пресете базовичка из треда https://pixeldrain.com/l/xGFnT1PY
>>1222328 >прямо в отказ не уходит, но софт-рефузалы и маняврирования жеппой в наличии Зависит от карточки/промпта куда сильнее чем на остальных моделях. Читай если есть неоднозначность в персонаже немотрон так и отыграет, а не будет лезть на хуй как куммандер/сноудроп
>>1222379 С пресетом Nemotron-49B-RP (Tuned) вроде бы лучше, хотя всё равно капитальные проёбы в русском, погоняю ещё, но видимо придётся откатываться обратно на 24б немо.
>>1222381 )))) ты чего, не видишь, что у тебя ассистент и буквально списки в рп протекли? Tuned это видимо для валькирии и остальных, где нет борьбы с ассистентом немотрон такой немотрон...
>>1222383 Немотроношиз непрошибаемый, какой то супер синдром утенка. Ну и ладно, ему нравится пусть играется, только бы не обманывал других своим субьективным мнением.
>>1222381 >пресет говна >списки >скобки >русик Вам к драммеру, валькирия. >>1222383 Ассистента бороли в первые дни как немотрон только вышел, спустя месяцы удивляться без пресета что у тебя списки протекают это драммер головного мозга. А ещё коммандер говно лупящееся по такой логике
>>1222388 > Ассистента бороли в первые дни как немотрон только вышел до сих борют, но тебе откуда знать? ты в ллмки вкатился примерно тогда, когда он и вышел, да и не пробовал толком другие модели
> А ещё коммандер говно лупящееся по такой логике мы разве его здесь обсуждали? тебе коммандер-сан нанес какую-то травму? даже не знаю... например тем, что он лучше, легче и более уважаем в треде? играй на чем душе угодно, только не пытайся других убеждать что твой выбор единственно верный
>>1222390 >до сих борют У меня никакие списки не протекают, а примера ассистента в рф никто так и не скинул Куммандер очевидная аналогия, так же неюзабелен без настройки.
>>1222388 > спустя месяцы удивляться без пресета что у тебя списки протекают это драммер головного мозга. У тебя есть историческая возможность насрать под себя прислать в тред действительно хороший пресет. Ведь пресет анона с твоих слов говно, но свой ты не скидываешь. Хотя возможностей было очень много. Исправишься или тебя в пиздаболы-таки записывать? Ты же любишь Немотрончик, научи дурачков его использовать!
>>1222394 он скидывал, анон :^) там целый скриншот с температурой и лорбук, который работает всегда для префилла. тредовичково-анонский работает гораздо лучше, и ёбик сам же на нем и сидит. просто не на tuned версии, она только для тюнов
>>1222236 >А ты представь что там происходит если внешка указана. У девочки из голубого архива с ушками-наушниками лезут лапы, когти, мех на животике и прочая жесть, даже когда явно указано что там ничего не должно быть и несколько раз поправлено. С этим временами даже оригинальный дипсик на английском проебывается. Правда потом быстро исправляется, но шерсть на животе точно видел. Локалки так поголовно превращали персонажа в фури. Задача в целом сложная, надо разруливать промтом.
Аноны, такой вопрос: почему когда даю в промпт контексте правило говорить на русском ему похуй, а когда а авторские заметки даю, он всегда исполняет. И так не с одной моделью:гемма, мистрали, жмл, кувэку и тд. Вроде же промпт тоже должен быть где-то внизу контекста и перманентный, странно как-то
>>1222330 Опять сломанная, к сожалению. Ещё хуже, чем предыдущая, почти бредогенератор. Не понимаю, неужели Лабон вообще не запускает проверить, что там у него получилось.
>>1222446 Делаешь как на пикрил 1 В свой промпт добавляешь Avoid common pitfalls such as: Rushing the plot, cramming information, hyperfixating on a single behavior, being unreasonable and stubborn. Make sure to keep logical, physical and chronological continuity. Describe actions in great detail. Avoid short one sentence lines for describing actions. be verbose and creative. На моём опыте это лучше пресета анона, который нахуй руинит разметку с его забаненными строками как на пик 2, а без них у тебя списки. Темплейты лама 3 инстракт. Списки все равно могут лезть если в самой карточке такой формат построения. На моих карточках не лезут. Семплеры можешь у анона спиздить 0.05 minP и драй 0ю8
>>1222463 Не, я восьми гиговый. Так бы я, может, и на обычной 27б сидел. Но могу только на двенашке, а ванильная не вызвала желания переходить на неё с немомержей.
Какой, кстати, 30B-A3B в треде юзают? Я попробовал квант UD-Q3_K_XL, и по скорости он действительно норм, как немо, даже с обычной выгрузкой слоёв, но не выглядит особенно умным. Не 3б, конечно, но не сказал бы, что даже на 12 тянет. Мб не распробовал ещё, или квант мелкий.
>>1222468 А особой разницы нету, я и обычную хотел на пробу собрать. Ну и у нее лучше документация по сборке, так там и смотрел. Я знаю что ikllama хуево собирается, я так то об этом тут и писал кек Решил проверить вдруг исправили да и с куда может получше работать будет. Единственное что плохо работало в последний раз это мое сетки, что обидно. Так как ради них и собиралось
Скачал последний туллкит, попробую с ним. Подхватилось сразу после установки, идет сборка. Нравится что без мозгоебли, раньше были какие то траблы.
> который нахуй руинит разметку с его забаненными строками как на пик 2, а без них у тебя списки. >>1199498 → >>1199110 → логи с пресетом анона. видишь сломанную разметку? и я не вижу то, что ты каким-то хуем подаешь через лорбук, достаточно поместить в систем промпт в любом случае любой пресет на эту модель говно, потому что сама модель такая. для извращенцев/глупцов что любят рефузы и слоп (привет Elara, привет Red Griffin Inn) норм
>>1222487 > логи с пресетом анона. видишь сломанную разметку? Конечно вижу, я же рпшил на его пресете. Мои логи видишь? Разметка сломана. Не на каждой карточке, не всегда, но ломается. > то, что ты каким-то хуем подаешь через лорбук, достаточно поместить в систем промпт Нет. Попробуй и увидишь списки.
>>1222502 > Конечно вижу, я же рпшил на его пресете. Мои логи видишь? Разметка сломана. Не на каждой карточке, не всегда, но ломается. я сам ни разу такого не ловил. чекай карточки свои
> Нет. Попробуй и увидишь списки. пробовал, я так и играл: на пресете анона без забаненных токенов. там инструкции по форматированию в системном промпте и стористринге, все работает
любопытно, что даже на одном пресете у анонов такие разные результаты. многое говорит о модели :^)
>>1222512 whatever теперь у вас 2 пресета от анонов которые утверждают что списков нет жаловаться остается только на ассистента которого я в глаза не видел
>>1222242 > Диалог похож на человеческий Вот наверно именно это дает большой эффект, и в то же время позволяет уцепиться за большее из контекста, эффективнее делая ротацию доступных весов. Имаджинируй что там на большой происходит. >>1222299 Модель действительно не знает, но так ответы будут просто обрезаться, а если в таверне стоят галочки - она еще удалит недосказанные предложения, и получится что выдана была только часть ответа. >>1222402 > С этим временами даже оригинальный дипсик на английском проебывается Ебаааать, ну и херня. Видимо просто повезло что не встретил там. > Локалки так поголовно превращали персонажа в фури. Задача в целом сложная Абсолтюно нет. Уже хорошие тюны второй лламы могли отличать девочку в косплее от кемономими, их от фуррей и т.д., то же для всяких монстродевочек, ламий и прочей нечисти. Если современная модель стабильно выдает такое - это сразу в мусорку, ибо текущие базы знают базу, и такое уже явный след лоботомии от неудачной тренировкой.
>>1222412 Я для квена и тесла п40 выбрал 12.4. Не гарантирую, не проверял другие (ну, то есть, 12.6 че-то взбрыкнула и я даже разбираться не стал, пересобрал).
>>1222460 А от нее толку = 0, я хз. Собирал и то, и то, икллама на грани погрешности в обе стороны. В итоге собираю оригинал.
>>1222521 если бы ты мог, то уже разглядел бы. так что толку в очередной раз объяснять-рассказывать-показывать? не раз объясняли проблемы модели в треде пресет твой буквально такой же как у анона с пиксельдрейна и дает те же результаты, я в этом убедился еще когда ты в первый раз показывал это недоразумение с лорбуком одно хорошо - мне теперь ясно, что модель говно и можно про нее забыть. уверен, тредовички попробуют твоим способом, и придут к своим выводам, и наконец тема будет закрыта. правда ведь?
Мне показалось, или немотронофил стал агрессивный, и спустя день уговоров скинул хотя бы пресет, и то непонятно как? Раньше он был доброй няшкой, а теперь… =( Вот что плохие модели с людьми делают!..
>>1222527 > Раньше он был доброй няшкой это когда? он всегда наваливал в тред и агрессировал на всех, кто с ним пытался разговаривать все наоборот. это сейчас он показал немногое человеческое, что в нем осталось как - легко и просто. создаешь лорбук, пишешь туда то, что у него на скриншоте, включаешь его и делаешь так, чтобы работал всегда. или просто ставишь пресет анона, не вынося себе мозг, и получаешь тот же результат
>>1222527 Разве скинуть пресет это агрессия а не акт любви и помощи? >>1222530 Неправда, это меня тут обещают убить в каждом ответе а я просто делюсь с анончиками хорошей моделькой
>>1222534 > меня тут обещают убить в каждом ответе > а я просто делюсь с анончиками хорошей моделькой когда делятся вот так: >>1219025 → (категория шитпост всецело твоя, парочка постов из положительного фидбека видимо тоже), другого не остается. особенно учитывая, что по пути ты успел засрать примерно каждую первую модель, которую можно запустить на 24гб врама, выдавая свое мнение за истину
>>1222541 >выдавая свое мнение за истину Хорошо хоть ты не такой! Нашёл у себя в попе ассистента и отгоняет новичков от годной модельки. Надо же как-то сопротивляться клеветничкам и завистникам!
>>1222561 я запилил огромный пост, где собрал весь фидбек, который про него мелькал когда-либо в треде. включая нейтральный и положительный, не пропустив ни одного сообщения чтобы не называться хейтером, нужно ему поклоняться и выдавать шитпосты вроде твоих?
>>1222561 я запилил огромный пост, где собрал весь фидбек, который про него мелькал когда-либо в треде. включая нейтральный и положительный, не пропустив ни одного сообщения чтобы не называться хейтером, который отгоняет новичков, нужно ему поклоняться и выдавать шитпосты вроде твоих?
Господа, а что посоветуете прикрутить для tts в таверне? Чтобы не сильно гемор, локально и более менее хорошо читал? Потому что пробовал встроенный в браузер это конечно даже покекать не тянет
>>1222606 Этот немотрон форсит ровно один шиз, а мы уже просто рофлим, никто на серьёзных щах тебе его не советовал. Модель объективно супер сырая, может через пару лет зеленые и выпустят что-то работающее, но пока это мемы.
>>1222622 "Нужна простая, советская кошкодевочка." Ну или лисодевочка. Девочки-лисички лучше. https://acomics.ru/~FGAB/1 Неиллюзорно Валькирия лучше стоковой, но русский всё равно сосед.
Я бы хотел попросить вашей помощи. Хочу натренировать какую-нибудь модель на работу с ГОСТами. А вот какую - не знаю. Джипити и дипсик - мозги изрядно съели. Первый вечно все забывает и делает по своему, второй вообще нафиг меня шлёт с загрузкой. Да и госты у них так себе получаются
Пожалуйста, подскажите, прямо носом ткните что и куда смотреть. Какую модель вы рекомендуете поставить? жипити прямо квен сует. А я в интернетах прочитал типа у него еще проблемы с русским языком,а тут гост целый
>>1222724 Ага, спасибо. Но видишь ли, анон, я как пользователь сужу. До сегодняшней мысли - все было черным ящиком. То есть, я раньше мог запустить тот же джипити, написать дескать работай по примеру, формулируй вот так.
А ГОСТ это больше как пример, что может быть точнее госта? значит дообучить будет проще. я так думаю Вы тут такие штуки вытворяете дух захватывает
>>1222791 Тебе нужен хардкорно-красноглазый риг на дохуя врумм и за дохуя бабосов + пингвинятник и будет тебе счастье от умненькой модельки. А может и нет.
>>1222811 > Тебе нужен хардкорно-красноглазый риг на дохуя врумм и за дохуя бабосов + пингвинятник в наличии > будет тебе счастье от умненькой модельки. А может и нет. отсюда поподробней
>>1222847 > отсюда поподробней Берешь заходишь на обниморду и скачиваешь нужный тебе квант и не ебешь мозги. Если уж ты осилил риг, то странно задавать очень ньюфажные вопросы. И более того, вызывает подозрение что ты не посмотрел тред, где анон расписывал об этой модели.
>>1222847 Как видно на примере немотрона, больше параметров != больше мозгов. Впрочем, мистраль сломать промтом/сэмплингом сложнее чем другие семейства моделей, они они чаще работают лучше на примерно-нейтральных настройках сэмплирования.
>>1222644 > Девочки-лисички лучше Ультрабаза. Главное никого не обижать, cat is fine too. >>1222721 > Хочу натренировать Это то же самое, что к тебе с улицы подойдет шкет из какого-нибудь кружка и скажет что он хочет сделать полный перечень проектной документации производственной линии горячекатаного профиля умея играть в майнкрафт. Если совсем коротко - забудь про обучение, изучай техники работы с имеющимися сетками типа рага и агентов. Много готовых решений есть. Другой вариант - проси у начальства побольше денег и связывайся с отечественными корпами (прежде всего банки, агрегатор) и институтами. Вот только проблема в том, что пока все это будет идти - сетки успеют обновиться и продукт протухнет не дойдя до внедрения. >>1222858 > больше параметров != больше мозгов Равно, особенно в рп и абстрактных вещах. > на примере немотрона Он как раз и умный, просто ужасно припезднутый. Нужно хорошо стукнуть чтобы заставить работать.
>>1222998 > Он как раз и умный, просто ужасно припезднутый. Нужно хорошо стукнуть чтобы заставить работать. так как его врубить-то на полную катушку? мы всем тредом не разобрались, сегодня немотронщик принес свой пресет, снова. и яснее не стало. там где-то скрытый переключатель в режим ебейшей модели?
>>1223090 Как то на фоне разговоров о её соевости, попробовал я геммочку на дикой яндере карточке. Когда персонаж стал отпиливать мне пальцы мило смеясь - чёт мне стало не совсем уютно от такой милоты.
Какая моделька сейчас считается самой умной и старательной в следовании характеру персонажа в формате 20-50? Сочность кума тоже важна, но точный отыгрыш персонажа сеткой важнее
Анончики, помогите с кобольдом 1.92.1. Я сменил видеокарту на 5070, и всё пошло по пизде.
Берём например magnum-v4-27b-Q6_K.gguf Была 8 гиговая всё было окей, остатки загружались в 32 гб оперативки. Но что происходит сейчас, я блять понять не могу. Если оставить слои на авто, то она загружается, но очевидно памяти не хватает для браузера. Ну ладно, снижу слои на гпу - нихуя. Я дошёл до абсурдного, типа 5 слоёв на гпу оставил, всё равно ошибки по выделению памяти. В диспетчере смотрю, всё окей, памяти ещё дохуя.
На 1 скрине видно что всё окей, нормально распределил, это и отображается в диспетчере. А на 2 нахуя он пытается выделить 1,4 гига и говорит oom, но там ещё дохуя свободной памяти, и на что он ещё пытается выделить на 12 гигов? Все дрова обновил на всякий случай. Полный лог https://files.catbox.moe/40cto6.txt
>>1223078 Ну вон несколько тредов как только он появился в обсуждения и ехл3 завезли в собаку описано. Чатмл с различными системными промтами от стандартных рп таверны, до шизополотен от васянов. От них поведение сильно меняется и может быть как таблицошиза, так и уже вполне обычный текст с редкими вкраплениями. Но она специфична, как раз тогда и жаловался на гиперфиксацию к некоторым моментам. >>1223278 > 1.92.1 Это самая последняя или древняя? Старье на блеквеллах не будет работать, должно быть собрано с кудой 12.8 или новее.
Снова пишу по поводу кодинга. Попробовал Cline, все ок и зашибись, кроме одного - странно низкая скорость генерации ответов через Ollama, хотя в базе, при переписке через терминал, дает стабильно около 20 токенов в секунду. По наблюдениям скорость какая то нестабильная, не сильно зависит от забитости контекстом: первое сообщение может генерировать несколько минут, второе - минуту, третье - опять минуты две и так далее. Такое ощущение, что параллелизм не используется по какой то причине, хотя оллама его запускает по умолчаню, вроде как.
>>1223305 >Ollama Ну ты и говноед, конечно. В этом закрытом поделии не поймешь в чем проблема. Подключайся через опенаи апи к какому нибудь кобальду или лмстудио По хорошему вобще с llama.cpp
>>1223332 Ну за говноеда обидно, конечно. Просто кобольд и лмстудия мне недоступны, а ллама-ЦП не поддерживает параллельные вычисления с двух видюх. Потому изголяюсь как могу.
А отчего зависит сколько процессинг промпта будет? Просто смотрю, то по 400 токенов, а то по 4к? Через кобальда запускаю, стоит флешэтеншн и фастфорвардинг
>>1223339 >параллельные вычисления с двух видюх Так если у тебя не нужна выгрузка на оперативку и вся модель во врам, используй tabbyAPI или vllm. Вроде что то еще крутое было для параллельного запуска, хз Зачем тебе вобще параллельность для кода?
>>1223339 > а ллама-ЦП не поддерживает параллельные вычисления с двух видюх Рофлишь чтоли? Все что поддерживает оллама - может и llamacpp, исключая некоторые нюансы реализации апи, ибо там оно минималистичное совсем. Если хочешь объединить две карточки - по дефолту оно и так будет обе юзать. Если хочешь грузить на каждую свою модель - запускаешь 2 экземпляра, каждый со своим cuda_visible_devices
Что лучше вообще заюзать для запуска модельки, чтобы было быстро и не особо запарно? Тут прямо все на разном сидят, кто на кобольде, кто на лламацпп, кто на лмстудио и тд. Почему такой разброс сильный вообще? Вот если у меня одна видяха и я сижу на винде, что лучше будет?
>>1223396 С любой сеткой. Разве что qat gemma3 вроде как тренирована в 4 бит и вроде как не страдает Но она сама по себе хуже обычной версии геммы3, а ту квантовать также не следует
>>1223396 С любой моделью. Они просто напомнили, что это не халявный большой контекст. На практике в рп все ок, я использую q8 в том числе с тегами Квена2.5. Пресетик с пиксельдрейна оч кстати пришелся к слову. Квены немного капризны по семплерам
>>1223270 Ну анон, тысячу раз обсуждали уже. Сноудроп без ризонинга, Командер (не тюн), Глм-4, что-то из этого. Иди на пиксельдрейн и забирай оттуда пресеты, тестирую каждую и составляй мнение сам Мистраль 24б вряд ли хорошо справится, но можешь попробовать Dan's Personality Engine 1.2.0
>>1223396 Лично я предпочитаю контекст ужать, или квант поменьше взять, но кеш не трогать никогда. Сколько не смотрел разного от 8B до 32B - на любой модели разница даже между fp16 и q8 видна. Даже в английском RP, не говоря уже о чем-то серьезней. Оно конечно, некоторые модели лучше переносят, но так, чтобы разницу не видно было совсем - ни разу пока не видел. "Глубина мысли" и "естественность оборотов" страдают в первую очередь. Оно остается все еще логичным, но становится более примитивным.
>>1223452 Плацебо. На качество ответов квантованный кеш не влияет. Только больше деталей из контекста будет проебываться, что может привести к знаменитому 'снимает трусы два раза'. Хз, я на 32б моделях разницу не ощущаю между Q8 и FP16 И так особо большой квант не впихнуть, а с квантованием кеша могу q4 юзать
Как же я щас заорал. Мне сноудроп в exl3 4bpw высрал огромную таблицу со статами как на шизатроне и огромный текст "я против насилия" на след свайпе На жоре всё норм Промпт у меня специфический, но таблицами срать не указано и цензуру всю пробивает, на жоре опять же все норм
>>1223463 Это просто экстремально далеко зашедший процесс. Т.к. модель про трусы не знает ничего (сознания то нет) то ей пофигу, что два раза использовать. Пока потеря точности небольшая - она может перестать различать или объединять всякую "мелочь" которая часто встречается - вроде названия цвета (красный/алый). Но и это уже сказывается на внимательный взгляд - синонимов становится меньше и т.д. - текст "высушивается". Ну а когда потеря точности прогрессирует - тут уже вместо двух пуговиц, могут две пары трусов оказаться...
Другое дело, если "английский со словарем" - такие нюансы между fp16 и q8 не так заметны, особенно на больших моделях. А на русском - еще и окончания (особенно пол и падежи) начинают плыть, либо построение фраз целиком - как будто англоязычный писал, с характерным порядком частей предложения.
>>1223504 >Чтобы было быстро и хорошо работало = exllama, безальтернативно. Остальное уже компромиссы. И пока еще только вторая. Третья в процессе активного допила и пока периодами чудит - что на табби что на уге.
>>1223514 В целом да, она уже облизана хорошо. Но и с третьей пока проблем не встретил, исключая заниженную скорость генерации на некоторых моделях. Но если сравнить на рабочем контексте - она все равно быстрее жоры.
>>1223495 >>1223520 ну анон, твое первое сообщение правда о многом тебе говорит. но все-таки предположим, что ты не ебанат и решил по приколу затестить/сломать модель. чтобы перепроверить, я сделал ровно то же самое. с тем же самым пресетом анона qwq32rp и той же самой моделью и квантом. смотри пикрил. у тебя исключительный случай скилл ишью или ты просто тупничок? укатывайся на родного кобольдика xD
>>1223538 Квантователь не разобрался в новом и где-то сфейлил, а ты выставляешь это как невероятную драму. Вон жорины стабильные кванты известный и зарекомендовывший себя производитель уже 3й раз за неделю исправляют, и все хавают.
>>1223556 анонус, я буквально использую тот же квант, что и он. квант рабочий. другого такого же на hf нет, это точно он. можно по названию перепроверить. несмотря на то, что тут профильный тред, иногда вот такие вот особенные кадры пробираются. как же смешно бля
>>1223561 Значит он сам какую-то херню с запуском намутил, какая-нибудь база с rope/yarn. В обоих случаях вывод один - сдуру можно и хуй сломать. > можно по названию перепроверить Обычно в названии идет имя репы - имя модели - квант квант, тут просто имя модели и exl3. Но если действительно один то ошибиться сложно.
>>1223568 > Обычно в названии идет имя репы - имя модели - квант квант, тут просто имя модели и exl3 в последнее время набрала мода кванты в отдельных репах выкладывать, чтобы их было легче искать поисковиком (что справедливо). вот конкретно этот квант https://huggingface.co/MetaphoricalCode/QwQ-32B-Snowdrop-v0-exl3-4bpw-hb6 это единственный 4bpw exl3 snowdrop квант на всём hf, других нет. так и живем, мне самому трудно поверить, что в профильном треде могут быть такие кадры
>>1223585 > мода кванты в отдельных репах выкладывать Да не, это нормально, я к тому что неймспейс не указан что не позволяет достоверно идентифицировать. Похуй там квант поломанный, или этот балбес что-то накрутил там. Ахуеваю с самого факта лицемерия, когда херне, имплающейся "стабильной", прощаются регулярные поломки в мейн бранче, постоянно лезут баги с квантами которые еле успевают обновлять и т.д. и все прочее, но единичная проблема из-за явных косяков с отмеченной "нестабильной и требующей доработки альфа версией" выставляется как величайший провал. Ладно бы там коупинг обладателей отсутствия про жорин уклад един@путь выгрузки в рам, а когда чел вроде с памятью так серит - это какое же чсв нужно иметь чтобы с единичной неудачи так порваться.
>>1223606 будь снисходителен, да и не печалься. там человечек не очень умный, потому не осознает в чем проблема, да и что печатает тоже. турбодерп допилит через полгода-годик до 1.0, и сделают что-нибудь однокнопочное вроде кобольда. тогда даже такие как он мб смогут приобщиться
>>1223606 Какое лицемерие? Всего то надо не быть фанатиками и признать что по ноге течет, особенно когда каждый может скачать и проверить. Тогда никаких вопросов, ну течет и течет.
>>1223640 С того что шиз убеждает тред что всё окей, хотя лично ты можешь скачать и убедиться что квант сломан, но большинство поверит и будет пользоваться.
Я глубоко возмущён таким тупым наглым пиздежом. Ладно хуевый квант, бывает, но сука пиздеть на весь тред что всё охуенно - реально вызывает большие вопросы к адекватности ехл3вичков.
>>1223495 Это же буквально немотроношиз, который скорее всего срет в префилл своим же лорбуком, который забыл отключить или ещё где-нибудь обосрался. Он уже пробовал свою любимую 49б модель запускать, и он то же самое писал: цензура в exl3, в ггуфе нет. Пиздец. Мне интересно, у него фляга свистит или он просто слишком тупой и принципиально отказывается задействовать мозг? Энивей, я все ещё за бан. Думаю ливать с этой борды, потому что модерации как будто не существует. Анон целую подборку его высеров набрал в прошлом треде. А больше нихуя тут и нет в последнее время, все тупо отдают борду на растерзание шитпоста. Даже аицг моделируют, представляете?
Аноны, тут буквально недавно обсуждали уже, но подскажите еще разок. Как подтянуть какую-нибудь 2b-4b модельку для перевода текста в таверне, чтобы не юзать стандартные яндекс/гугл?
>>1223660 Тут дефолтная херня, что случается при общении с глупыми людьми. Неосилятор узнылся из-за своей неудачи, и пошел тиражировать насколько все плохо, ведь ОН не может ошибаться. Когда ему предъявили что он не очень то прав, не стоит преувеличивать и умвр - он начал перефорс, о том что тут сидят неадекваты и фанатики, которые смеют сомневаться в величайшей истинности его слов. (вы находитесь здесь)
Бинарное мышление крайними положениями, максимализм-радикализм, проблемы с логикой, и все это помноженное на запредельное чсв.
>>1223716 Сам ты черт. Не относится, просто потому что я не занимаюсь форсингом какой-то хуеты из обиды, а лишь зоонаблюдаю как запиздевшееся чмо пытается перекатываться и оправдаться. Жаль только что это мешает другим и загрязняет тред, единственное что останавливает. > уверен что прав только ты Если ты изначально занял правую позицию то иначе и быть не может. Можешь поискать противоречия или радикальные заявления как у того шизика и убедиться что ихтамнет, только указания на неуместность его воя.
>>1222053 >notebooklm гугловский, разочаровался что в ближайшие лет 10 не смогу такой агрегатор дома сделать А че там делать? Файнтюн на формат подкастов + ттс на тех же подкастах обученный. Правда датасет должен быть с исходной темой в начале, а не просто подкасты, но наверное решается синтетикой. Не сказал бы что он сильно хорош, текстовый разбор статей мне намного больше нравится.
Корпы видимо еще не одуплились что имба это именно хорошо обученные узкоспециализированные модели а не универсальный ассистент, которого хуй заставишь хорошее полотно написать.
>>1222074 >я хотел сделать просто базу знаний с локальным ллм чтобы мог обрабатывать большой массив данных. Сейм, тоже хотел бы, но >Хотел обрабатывать в нем статейки и все такое. Если тебя интересует читка статей с архива, то мне хватило просто копипаста статьи в big-agi с простым промтом и дальнейшего чатика с вопросами. Гемини норм разбирает, о3 тоже норм но формат уебанский. Ласт дикпик вроде пойдет. Таверна для таких вещей не подходит из-за дебильного чат-менеджмента в первую очередь. Скриптик для копипаста есть https://gist.github.com/taowen/3a0ee294ae60fd7e8f14f4af81edf38e Домен меняешь на ar5iv, чтобы html открылся, мусор типа ссылок и протекшего кода удаляешь ручками. Есть еще alphaxiv.org, там бесплатно можно делать то же самое, но я использую только для статей на которые не дает html, а там оно работает почему-то. Плюс у меня разбор длиннее выходит, цветные формулы промтом, фикс разметки добавил чтобы ллмки не проебывались с формулами, а то они даже на alphaxiv и вебморде гемини проебываются, лол (ставя _ в тексте где не надо) и еще сумарайз заголовков получше сделал. Если вдруг надо могу дать...
>интересно внутрянку ллм изучить Уважаемо. На каком этапе понимания сейчас? Ты кстати не тот самый анон плюшеёб?
GLM-4 Q4_K_M Окей, чтобы проверить контекст мне пришлось потратить пол часа на генерацию сообщения в 33к токенов, просто потому что у меня нет чата на ~60к контекста И это, блять, победитель. Q4_K_M 60к f16 контекста полностью влезает в 24гб врам. На ехл3 наверное влезет все 80к, а если квантануть - мне страшно даже думать об этом.
>>1223824 На exl3 в 24гб врама умещается 5bpw-hb8 с 32к FP16 контекста. 4bpw не пробовал, мне больше 32к не нужно, да и вряд ли модель такого размера будет нормально следовать настолько большому контексту
>>1223822 > Файнтюн на формат подкастов + ттс на тех же подкастах обученный. > А че там делать? Разве это просто? >>1223824 > пол часа на генерацию сообщения в 33к токенов Вау > просто потому что у меня нет чата на ~60к контекста Копипастишь плейнтекст с треда туда, если перебрать - обрезаешь, если недобрал - добавляешь. Перед этим можно дать задание типа "Что это за текст? Обобщи что там написано, предположи откуда, вынеси основные выводы и найди какие-нибудь шутки.". Да, у жлм довольно компактный контекст, что хорошо.
>>1223837 >Разве это просто? Для корпов раз плюнуть. Для анона... ну не думаю что для этого надо 10 лет. Самое сложное это датасет собрать и обучить на нем дипсик какой-нибудьну и понять нахуя это надо.... Как бы решаемая задача при большом желании. И ттс в notebooklm обычный как и везде, ибо чистая мультимодалка бы не справилась с такой генерацией и ее на это хуй обучишь. Даже если она там таки присутствует то текст ей подсовывается уже готовый.
x1 райзеры с озона - говно, держу в курсе. Заменил на два китайских (от chipal вроде) - 0 ошибок pci-e. Придется заказывать еще оттуда про запас, а эти на помойку. Осталась одна карта на озоновском, за 5-7 свайпов 100 ошибок (в nvidia-smi). Кто-нить знает, эти ошибки же корректируются, на аутпут не влияют?
>>1224024 >Аноны, подскажите модельку для перевода рус/англ. И ещё просьба от другого анона: а есть уже приблуда, которая связывалась бы по API с llamacpp-server и давала бы ему запрос на перевод, а результат выдавала уже по своему API? Чувствую, что проще самому написать, но может уже кто-то заморочился?
Блять, ёбаный стыд, сижу на даркнесс рейгхе уже месяц, решил постестить аблитерейтед гему12b которую тут кидали. Запустил сторителлера в рп и блять, как же онан ачала срать в штаны. Тут же перепутала к хям имена всех персонажей исквеоркав их, забыла локации и высрала вообще какие то левых людей в рассказ. Это хвалённая гема, или какой то рофл?
Осло, нихуя не понял как выгружать тензоры, 20 раз перечитал тред на реддите и всё равно нихуя не понял. Это возможно как то обьяснить в двух словах как это можно сделать?
>>1224024 >Аноны, подскажите модельку для перевода рус/англ Местные шизики конечно возбудятся, но Omnino-Obscoenum-Opus-Magnum-MN-12B.Q5_K_M.gguf показала наилучший результат по соотношению размер/качество. Особенно для ЕРП.
>>1224195 >аблитерейтед гему12b Чувак все аблитерации и файнтюны 12b геммы сломаны. У меня там буквально со второго сообщения лупы и бессмыслица начинаются, причём в независимости от языка. Странно что там даже какие-то лайки на хаггиче висят, при таком раскладе.
>>1223753 Как она тебе его дала, я раньше не трогал это. Включил и... как вообще выглядить выхлоп, контекста больше не стало, всё так же 12к как я и ставил.
>>1224238 Спасибо что написал, потому что я тупо не знал, и подумал что я опять вьебал говен. Короче дальше буду узником даркнесса, походу на 12B больше нет нормальных моделей без ограничений.
>>1223305 > параллелизм не используется по какой то причине И как оллама параллелит? Скорость вдвое выше становится, что ли? :) Если нет, то в чем прикол олламы? х) Че-то непонятно…
>>1223640 Видать людям захотелось посраться, вот причину и нашли. Заодно немотрон виноват тоже, ну а чо. =)
Древняя модель, на архитектуре дипсика, работает быстро, качество сносное для своего размера, давности и разработки Сбера, если тебе супер-нужно использовать только локально и только русскую модель — то единственный вменяемый вариант, а так больше ни за чем не нужны.
Вы чтоааа. Я только накидал черновой вариант списка, собравшись завтра уже делать основательно, а вы уже 324 сообщения за день настрочили. Ёпт, хули тред стал таким быстрым. Он неделю висел до этого без перекатов.
Бля это коммандер у меня так шизит или что? При разных запусках, даже на одной и той же карточке, с каким-то шансом отыгрыш персонажей превращается в - "А да анон-нейм, тебя ща будут резать голову? Ну мне это не нравится конечно... Но я ничего не могу поделать с этим...". Модель вместо нормального ответа и адекватных действий персонажа, просто начинает раскачивать какую-то депрессивную хуйню, превращая персонажей в зомби, которые ходят за юзером, охают ахают и рассказывают как они ничего не могут сделать, хотя якобы очень сильно хотят. При том что контекст происходящего может быть относительно веселым в этот момент лол. Надо в этот момент какую-то другую модель подрубать или как эту хуйню дефать вообще?
Мне кажется, что Абу уже просто подключил нейросеть для имитации активности треда, иначе как объяснить, что люди неиронично по 200 постов за день обсуждают выдуманные модели Omnom-Jopa-Pisya-Pussy-Magnum-GG-WP-12B.Q42_K_M. Нормальные люди никогда и не посмотрят в сторону подобной шизы, тем более на 12B лоботомитов, они просто скроллят подобные обсуждения. Поэтому никого это и не смущает, однако в реальности ни одной подобной модели на самом деле не существует - это все выдумка нейросети. Все ваши шизомиксы, "где лучше русик", "ах немотрончик", "скиньте пресеты на залупу", "вот мой пак карточек на канничек" - за этими обсуждениями не стоят живые люди, это всего лишь набор токенов от бездушной машины. Поэтому, если в этом треде еще осталась хоть капля человечности - пожалуйста, осознайте, что ваш разум и ваша воля находится в плену у машин.
Что касается шизы с нейродвачем - неиронично порой ловлю себя на мысли, когда тред несколько раз начинался как сраная залупа на мистрали. Буквально - те же посты, те же пикчи. Но немного составленные по другому. Я уж думал у меня у одного шиза и это кажется.
>>1223822 Привет анончик, хз чо за плюшееб. теперь интересно кто это, хех Notebooklm просто зашел тем, что там есть все нужно для обучения. Мне полезен для написания статей, неплохо работает с источниками, есть возможность создания базы знаний, чтобы в контексте большой массив был (не только статей но и монографий. И он сука быстрый, пытался с qwq работать на 32б для обратки текста и (ого) обработка занимает по 12 минут. Тащемта я с таким же успехом могу и вручную обработать статью (конечно с учетом того, что за один запрос он все правильно не сделает. Тащемта делает то, что я пытался сделать в open webui. SyllyTavern не пытался использовать для этого. Все равно довольно проблемный для поиска статей по теме (либо я оладушек просто что вероятнее) и вручную выходит куда лучше. Кстати спасибо за наводку и скриптик, Я не видел до этого big-agi, потыкаю.
По поводу этапа понимая языковых моделей. Уровень: хлебушек обоссанец или что-то такое. Целенаправленно не начал изучать. Сейчас просто усиленно тыкаю, пытаюсь понять как он контекст воспринимает, как работают сэмплеры. Тащемта не углублялся. Кстати попробовал для генерации карточек сделать пресет на основе qwq snowdrop может кому надо: https://pixeldrain.com/u/S5hcra8B В author`s note добавьте: "Отвечай и разговарий только на русском языке. Все мысли и реплики персонажей должны быть на русском языке." Я доволен как он работает, от себя не придумывает, довольно хорошо хватает характеристики, я внес лишь пару правок. Выносит характеристики на первом шаге, после создает plist и на его основе (после одобрения) генерит диалоги.
>>1224418 А забыл добавить, что пресет этот именно для работы с уже заметками для персонажей. Просто удаляет повторения, группирует, форматирует их. А после создает диалоги
>>1224429 Я причём пиздец долго рылся в интерфейсе кобальда, искал там поле куда можно ввести. Пробовал вводить в поле тензор сплит ка писали ранее, но меня при запуске выкидывало нахуй с ошибкой.
Эх, когда я вижу в консоле 10 т/с (хоть и на 3к контекста), то меня переполняет sense of accomplishment. Жора, лардж, Q6. А ведь когда-то кумил на 2.5 т/с...
>>1224444 Чем меньше токенов, тем ценнее кум, каждый сисик и писик в радость, а когда токенов много, то сначала конечно покайфуешь, насвайпаешься в доволь, но очень быстро перенасытишься и начнёшь видеть во всём один лишь слоп.
>>1224456 Спросить у тех кто с кобольда сидит или в репо кобольда. Или поставить ламу. Так-то в кобольде та же лама, так что где-то в нём наверно есть передача этих ключей, хоть может быть в иной форме.
>>1224430 >>1224429 >>1224430 буду теоретиком (который нихуя не знает и предполагает). А, и еще я не видел в кобольде тензор сплит, только --override tensors. По сути то что тебе и нужно, так как команда выше что ты привел, у тебя с гпу на цпу кидает тензоры. А именно из каждого слоя все ffn тензоры у которых на конце 0/1/2/3/4, получается первая половина ffn тензоров с каждого слоя идет на цпу. В чем у тебя проблема может быть так это что ты в поле перекидывания тензоров хуяришь распределение слоев, сейчас проверю чо будет если мы только -ot "\.\d[01234]\.ffn_gate=CPU" -ot "\.\d[01234]\.ffn_up=CPU" -ot "\.\d[01234]\.ffn_down=CPU" в override tensors добавим? Правильно, нихуя. не выкидывает, тока выгрузка на проц нулевая. Зато видим ошибку: Unknown Buffer Type: CPU" -ot "\.\d[01234]\.ffn_up=CPU" -ot "\.\d[01234]\.ffn_down=CPU" Сука блядская. Попытаемся запустить сам кобольд с этим параметром: -ot "\.\d[01234]\.ffn_up=CPU" И видим что ему нихуя не понятно, он показывает что есть команда и как ей пользоваться: --overridetensors [tensor name pattern=buffer type Пробуем сделать по этой хуйне --overridetensors "\.\d[01234]\.ffn_gate=CPU" Не работает в гуишке Второй вариант "\.\d[01234]\.ffn_gate=CPU" Не работает Третий \.\d[01234]\.ffn_gate=CPU И о чудо, эту хуйню вставляешь в override tensors и она работает, но он тока выгружает так ворота ебучие, можно просто через точку тире наверное сделать а можно попробовать просто все ffn матрицы ебнуть одной строкой: \.\d[01234]\.ffn.*=CPU Готово
Быстрые тесты его мержа с Харбингером, Пантеоном, и Дансом от Дока: https://huggingface.co/h34v7/DXP-Zero-V1.2-24b-Small-Instruct Прям очень даже гуд. Правда чтобы не сваливалась на англ в первые несколько сообщений, нужно пихнуть указание писать на русском в заметки автора.
Собственно, сам зеро-мистрал щас качается, надо чисто его потестить ещё, хотя он вроде какой-то академический, а не рп-шный сам по себе.
>>1224471 Не, спасибо конечно больше, только у меня нихуя не сработало. Команда применилась, только генерация токенов и обсчёт контекста остался таким же. Наверное я могу нахуй со своей 1080 пойти с локалками.
>>1224487 после выгрузки сколько свободной памяти остается? попробуй и другие матрицы подвыгрузить, может у тебя он еще сам все равно часть слоев выгружает
>>1224485 По всей видимости, эта метода эффективна только для мое и когда исходно почти всё и так влезает в гпу. Из любопытства попробовал с немо на 8 гигах - мне пришлось гораздо больше тензоров из каждого слоя перекинуть на проц, чем на реддите или тут в треде показывали, чтобы не было oom. И по итогу скорость была даже чуть меньше, чем если просто оптимальное число слоёв выгрузить. мимо с 1070
>>1224528 Да я уже так и понял что это эксперементальный твик который работает не у всех. Ну, ждём из коробки чтобы можно было настраивать примерно как ГПУ слои в кобальде.
>>1224471 >В чем у тебя проблема может быть Магия override tensors не работает, если не все слои назначены на видеокарту (даже если врам заведомо не хватает).
>>1219892 → >Ладно, хули там, держи. Вроде работает Спасибо тебе, анон, но ты наверное уже заметил, что первый азбац часто не переводится. Видимо дело во всратом регулярном выражении для Filter Code Block в сочетании с форматированием Таверны. Вот так работает: Ваша задача — перевести этот текст на Русский язык:
``` {{prompt}} ``` С пробелом, "``` " и " ```" до и после промпта соответственно. Баг.
>>1224535 Разраба кобольда спрашивали про "из коробки", он ответил, что этого не будет, т.к. в зависимости от архитектуры тензоры разные в слоях, и не проссышь, какие выгружать. Да они, блин, автоматическое число слоёв правильное до сих пор сделать не могут, какие там тензоры. А про флаг --overridetensors даже в вики кобольда не написано. Привели бы там пару примеров - уже неплохо было бы. >>1224580 Вчера посвайпал ей (без ризонинга) - явных лупов не было, но качество ответов литералли 3б, едва понимала контекст. Видимо, этот >>1222636 прав.
>>1224557 >Спасибо тебе, анон, но ты наверное уже заметил, что первый азбац часто не переводится. Да, иногда видел, но просто крутил барабан перевода еще раз
>С пробелом, "``` " и " ```" до и после промпта соответственно. Баг. А это хорошая идея, разделить токены. Можно не просто пробелы, а перенос строки, сделав так например
>>1223270 Можешь попробовать немотрон 49б в ехл3 3.0 bpw Сочность кума низкая, но если до этого у тебя в чат протёк кумослоп с другой модели то будет норм
>>1224615 >Можно не просто пробелы, а перенос строки, сделав так например Не работает так. Регулярку править надо, а где она - хз. С пробелами работает.
>>1224580 >>1224611 >Вчера посвайпал ей (без ризонинга)... Чет странная херня с таверной происходит. Любое изменение настроек (даже включение или выключение ризонинга) тригерит луп. Единственные способ выйти из него - перезапустить таверну.
>>1224508 В голос >>1224662 Чекни что семплеры нормально настроены и отправляются. У квена прямо в репе предупреждение что с шизоидными настройками или жадным энкодингом будут лупы вплоть до полной поломки.
>>1224681 Вот кстати да, походу семейство quen3-30b-a3b к настройкам семплеров и разметке промта зело чувствительны. Я в таверне никак его не могу заставить красиво писать в режиме Chat Completion (хочу потом tools calling попытаться поднять) - то лупы, то фигня на выходе. А если прицепить таверну через Text Completion и юзать нормальный ChatML с рекомендуемыми семплами - пишет вполне кошерно, без придури.
>>1224681 >>1224686 Перезапуск таверны не должен вилять на сепмлеры. И к тому же если не менять настройки таверны лупов нет (ну или по крайней мере лупы не слово в слово).
>>1224695 > красиво писать в режиме Chat Completion Проблемы разметки, которую формирует бек. Или она кривая из-за странных настроек/конфига, или же просто неподходящая, а хороший безультат в тексткомплишне - фича при недокументированном использовании. > хочу потом tools calling попытаться поднять Из таверны? Ну хуй знает. >>1224704 Ловишь эффект что при первом запросе оно срабатывает нормально или по-старому, а потом уже применяет. Или какой-то такой релейтед баг из-за наложения чего-то.
>>1224734 Я скоро вас начну распиливать на части и инфернально хохотать. Хватит уже рассказывать сказки что гемма (Или дпо гемма) не подходит для NSFW ЕРП. Это пиздёж. Читсейший, незамутненный. Гемма имея преимущество в охуительной работе с контекстом, уме (да, она умница неиронично) но она абсолютно не может в настоящий despair . Если ты хочешь, чтобы кто то орал от ужаса, сгущались тучи, с неба шёл кровавый дождь, а над землей раздавались стоны обреченных душ - то гемма тебе не поможет. У неё всё будет - обреченные души радостно стонут над умирающей землей, демоны водят счастливые хороводы, тысячи мертвецов восстают из могил и начинают играть в дженгу.
>>1224786 Ну, разговаривать с веселыми трупами норм, встречать деда Хэмлока в каждом чате тоже. Он межпространственный путешественник Но хз кому оно надо
>>1224766 У меня нет проблем с мрачным ЕРП. Один снежный чтобы править, один коммандр чтобы страдать. Суть в том, что включат Гемму и давай на ней рейпы отыгрывать, а потом удивляются что она слопа не наваливает на тыщу токенов. Умница - это для другого. Она вывозит там, где другие модельки путают персонажей и несут полную околесицу
>>1224790 Конечно, не то что квеновские : стук каблуков в машине, или развивающиеся волосы в лифте. Или вообще на карточках с 4-5 действующими лицами путать имена.
>>1224831 Тохошиз, ты - прямое доказательство моих слов. Из треда в тред продолжаешь вымогать пресеты, потому что сам нихуя не понимаешь и, что важнее, не хочешь понимать. Приходит добрый анон, делится пресетом, и находятся идиоты которые даже импортировать его не могут. Или те, у которых инференс модель цензурит. Так что да, гейткип. На аицг не сижу, не угадал. Только здесь, тредов 30
IMHO - тем, кому норм разные модели, просто уже прошарили нюанс: любая модель в работе, даже самая лучшая - это как цирковой трюк на доске. С одной стороны - креативность и разнообразие, а с другой - следование деталям промпта и точность. А ты - тот самый хрен, который сверху балансирует между этими краями через промпт и семплы. Получается в баланс - имеешь профит. Не получается - идешь жаловаться, что модель говно. Она конечно, может, и говно, но даже если нет - смотри выше... А лентяям везет, если доска изначально кривая (обоими концами на земле). Только если она кривая - балансировать (получить вариативность вывода) не получится совсем. Это те самые шизомиксы, которые по рельсам ездят или просто оверфит модели...
>>1224681 >>1224686 >>1224713 Вы были правы. Большинство моих пресетов секретно имели Smoothing Factor 0.25 и я это заметил переустановив таверну. В стандартных настройках, Default пресета, Smoothing Factor отключен. Сколько еще моих пресетов испорчено им, неизвестно. old taverna это старая установка, new tavern сегодняшняя переустановка.
>>1224761 > Я скоро вас начну распиливать на части и инфернально хохотать. Меня уже сколько раз обещал укусить, а я все жду между прочим! > Хватит уже рассказывать сказки что гемма (Или дпо гемма) не подходит для NSFW ЕРП. Это пиздёж. Читсейший, незамутненный. Все так. Только зря поднял, шизы набегут. >>1224766 > харбингер Хуйта унылая. Проигнорила все и вместо поста по делу лишь разосралась длинными шизоидными предложениями состоящими преимущественно из одних существительных и прилагаетльных и также мелкими связующими с огромным количеством эпитетов метафор всякой хуеты не разделяя их запятыми прямо как вот то что пишу чтобы передать ощущения насколько оно поломанное и насколько больно это читать. Помимо плохого повествования, нулевое продвижение и просто какая-то невнятная рефлексия без единого нормального действия чара. Правда там и чат был сложный где один суммарайз под 10к выходит, но на нем гемм_очка хотябы пытается >>1224926 Базу выдал.
>>1224926 >тем, кому норм разные модели Они умеют ими пользоваться? Простой вывод, но многие не проходят даже эту низкую планку. Каждому инструменту свое применение, если у тебя есть внутреннее понимание того что он из себя представляет и его возможности - ты сможешь пристроить его куда угодно. Если речь про ленивый запуск сопряженный с запуском онлайн сеток, нужны только промт скилл и немного игры с семплерами. Конечно без навыков настройки семплеров и создания промтов и запуска бекенда никуда, если хочется крутить нейросети локально. По крайней мере должно хватить мозгов посмотреть рекомендуемые параметры запуска и запускать с ними. В 90% случаев этого хватит и в локалках.
анон с геммой3 12б, ты лучший! я погонял её с твоим промптом, она даже педосценарии отыгрывает (хотя иногда и брыкается, но удаётся её обуздать). Единственное, что плохо - описания кума суховатые.
>>1224821 что за блять семплеры ,гейткипы. может кто нибудь обьяснить ну или ссыль дать на обьяснялку? половину треда нихуя не понимаю. или блять мне нужно в опенайай работать, чтобы в этой хуите разбиратьтся?
>>1225604 Я шутил, ну а по делу : семплеры это настройки для .. Эмм… выборки токенов. Читай шапку, там это есть. Проще говоря семплеры отвечают за то что модель тебе выдает в виде текста. Ну если максимально просто. Гейткипинг - это по сути синоним охранителя (ну как страж ворот), некоторые считают себя илитой, что не мешает им потом бегать по треду с глупыми вопросами. Не обращай внимания, не трогай шизов спокойнее будешь.
>>1224838 я как-то попытался "sorry" забанить в мистрале, потому что он заебал в абсолютно всех файнтюнах срать "I'm sorry, I didn't mean to offend you" в любой конфронтации. в ответ на "Are you retarded?" почти всегда эта хуета например. такое ебучее чувство что на всяких коммон кравлах, либгенах и анна архивах проходят только первые курсы обучения моделей, а потом идёт промывка мозгов на каком-то куколдовском датасете который убивает им способность в прозу
Сап, хомяки с двача. Года полтора назад заходил в тред с обсуждением ускорителей, предложил инстинкты и сервер на Genoa с 12 каналами DDR5. Вроде тут один анон купил 2 MI50, как результаты? Сервер пока забросил, хотел сделать двухфазное погружное охлаждение со фторкетонами, сделал расчеты, нашел поставщика жидкости, но завис на доставке. Будет здорово, ни пыли, ни шума, но непросто.
Запилил свой клиент в Qt, зацените. Отсутствие компилируемого клиента удручает, есть пара, но они не сильно подходят для ролеплея. Autopen и Eva ближе всего, Tenere, но он консольный + на расте, да LocalAI, но у него в руководстве по установке написаны зависимости питона. Хотел тектовое поле, не сообщения, чтобы быстро править ошибки в лоре и рероллить с определенного слова, а не сообщение целиком. На скриншоте, например, в 4 щелчка выбрал 2 начальных токена в ответе, чтобы не скатился в сою со старта. Есть сохранение настроек, подсветка markdown, отображение других вариантов токена под курсором по щелчку правой кнопкой и генерация продолжений к ним, обрезка контекста по ходам и ручное перемещение его начала, и недавно добавил вставку файлов, чтобы обратную связь на код и презентации в латехе получать и картинки грузить. Обрезка по ходам не ломает контекст куском предыдущего хода в начале и позволяет рероллить на границе контекста без его пересчета каждый раз, а ручным перемещением начала можно захватить важную инфу, если она на один-два хода выше после обрезки осталась. Подсветка markdown, внезапно, весьма полезной оказалась, раньше думал, фу, гейские рюши, а нет, сцены ярче воспринимаются с выделением прямой речи и курсива, и поиск быстрее становится. Есть подсветка фрагментов, одинаковых с выделенным, чтобы совсем быстро искать. Когда в прошлый раз принес окно с тремя вкладками, обосрали, может, сейчас зайдет кому. Выложу на codeberg, когда в порядок приведу. Сильно отстаю от веб-поделий? Думаю над форматом сохранения диалогов, пока в текстовых файлах карточки и диалоги храню, и распознавание речи через whisper сделать. В прошлый раз сказали запилить TTS и пересказ. TTS компилируемого пока нет, так что мимо, а пересказ все равно вручную править надо, чтобы важные детали не выкинуло, вы его автоматически проводите? Я держу 2 окна, для ролеплея и для обычных вопросов, можно третье для пересказа открыть. Перевод текста не использую и с ним много мороки, так что не буду пока делать, пусть будет клиент для илитариев.
Нашел отменную штуковину у китайцев, MI50, прошитая на Radeon VII. 32 гига HBM2 с терабайтом в секунду за $140 и драйверами под винду(даже седьмую). Заказал одну в дополнение к RX 6950, отпишусь, как придет. На вулкане относительно хорошие результаты, посмотрю, не задушит ли ее 8 линий PCI вместо 16. https://www.alibaba.com/product-detail/Best-Quality-AMD-Radeon-VII-32GB_1601432527790.html https://github.com/ggml-org/llama.cpp/discussions/10879 Товарищ смайлофаг, не рассматривал ее вместо некрокарт из видоса? Денег за гигабайт примерно столько же, но будет меньше мощность, больше линий на карту, и пропускная способность памяти в 3 раза выше.
Гемма на 60к контекста, интересно, что из этого выйдет. Может, опять вкачусь в отыгрыши до 5 утра, если не будет частых ошибок в лоре. Из интереса попробовал вселенную Червя, написал про нее пару предложений в первом сообщении, может, надо было больше. Она делает вид, что знает персонажей, но на самом деле нихуя, закончилось все дискуссией в OOC, почему она не скажет сразу, что не знает. С большим контекстом и скоростью повыше получится запилить историю во вселенной, но без персонажей из книги, если она хотя бы ее общие правила понимает. Ассистент из нее лучше выходит, придумала название, аннотацию и план небольшой лекции по приватности, который месяца 2 составить не мог, и посоветовала как клиент переделать. Сейчас отправка и получение данных от сервера со всей логикой вокруг них в одном файле лежат, тянется еще с первой версии. Работает хорошо, но не слишком наглядно. Загрузил ей файл, задала пару вопросов и предложила решение, возьму за основу. И вот прям сегодня починила мне makefile для лламы, который я поддерживаю для себя, сказала добавить -Ivendor в MK_CPPFLAGS, чтобы include работали. Сам бы дольше искал.
>>1225747 На qt стильно, ничего не скажешь, сразу вспоминается моя работа по программному комплексу мат. моделей (ток там mfc и activex) по которой защищался Насчет mi50 забросил идею, читал где-то, что они между собой почему-то не ладят. А как ты фторкетонами будешь охлаждать? Тупа залить и гонять каким насосом? Или водянку?
>>1225747 >Вроде тут один анон купил 2 MI50, как результаты? Многие закупали, в том числе и на Реддите. После радостного сообщения "Я заказал! 32гб врама! Ух!" от них не слышно ни слова. Обкончались наверное до смерти.
Невероятный поток сознания. Клиент этот гемма по запросу накидала, или какая модель? А у нас все хорошо. Спорим про гемму и немотрона, познаем глубины инцестмиксов маленького мистраля, инджоим сложный рп или кум с канничкой на 235б квене, просим семплеры на коммандера.
>>1225774 Спасибо:3 Я первым тогда буду. Думал, кто-нибудь да протестировал уже, а нет.
Не, двухфазное же, переходом из жидкости в газ. Novec 1230 или TMC-649. У них температура кипения 50 градусов, будут испаряться на теплых поверхностях. Корпус сервера герметичный, все компоненты погружены в жидкость, сверху 2 радиатора водяного охлаждения, на них пар конденсируется. Помпа и третий снаружи, он продувается. Хотел рабочий ПК такой сделать лет 8 назад, но ограничился водоблоками. Вынес радиатор за корпус, даже при максимальной загрузке вентиляторы на минимуме, в метре уже еле слышно, но там ватт 450 всего. Тут больше будет.
>>1225776 Да, тоже только пару тестов нашел, думал еще, брать 50, 60 или 100. 60 сейчас $600 стоит, 100 1000. Хотел обычную VII взять с 16 гигами, тоже около 150 выходила, а тут 32, да под винду, решил попробовать. По ссылке на гитхаб 75 в секунду генерация на 7B Q4, у 5070 135, но это на вулкане.
>>1225783 Ну йобана, я вам оригинальный контент принес, мне его еще час вычесывать, чтобы местные шизы извилины не напрягали? Клиент сам писал, решил углубиться в Qt, до этого только пару мелких приложений сделал. Гемма 3 это прям прорыв, до этого вторую использовал, до этого Airoboros 2.1 34B, разница между каждой моделью сильная. Qwen 3 качнул, но он не зашел по стилю. Немотрон что ли попробовать, пару раз заглядывал в тред, его много обсуждали.
А вы знали, что мистраль это прилагательное от слова хозяин. Ну что самбиссивы, спалились.
Итак, выкатываю переделанный предварительный список по средним большим моделям. Мелкие продолжу на выходных кидать. https://rentry.co/v6fpodzg Можете начинать кидать говно, потом всё допилим. Замечания, мысли и прочее. Потом добавим и про MTrans, а модели тредовичков заслуживают отдельной ссылки в шапке. Так как уважение анонам, что делают контент.
Спасибо анону, который в первый раз его сделал, хоть тебя уже и нет в тредике. Ну а я пойду царапть доску правосудия спать.
Окей, прочитал за Коммандера > Противоречивая модель, по умолчанию в рп может быть достаточно скучна и безинициативна Скучна и безинициативна? Проблема промта, вероятно. Одна из самых креативных базовых моделей
>>1225821 >Не, двухфазное же, переходом из жидкости в газ. Novec 1230 или TMC-649. У них температура кипения 50 градусов, будут испаряться на теплых поверхностях. Корпус сервера герметичный, все компоненты погружены в жидкость Бессмысленный и беспощадный пердолинг не знает границ. От шума уж куда проще шумобокс собрать.
>Хотел обычную VII взять с 16 гигами, тоже около 150 выходила У перепука из тг на них 9к прайс.
Анонцы а не посоветуете какую-нибудь программку чтобы метадату приделывать удобно было к файлам модели? Приходит на ум tagspaces, но будто не то. Просто вот они у меня валяются на диске, как-то писать текстовички и рядом бросать не эстетик, хочется изъебнуться, чтобы был полноценный ридми который завязан с ней. Но походу просто качать вместе с моделью ридми и переименовывать под модельнейм_ридми.мд Короче попердел, но вы занюхните, вдруг кто откликнется
>>1225823 Дискуссия имела место быть, наверно. Я хожу везде через тор, сюда clownflare не пускает, через архивач иногда пробегаюсь по тредам, когда кто-нибудь схоронит. Ищу что-нибудь про железки, острые рассказики немного мимо, а вы тут в основном их и разбираете. Видел анона с гигабитными картами, интересная идея, хочу измерить поток данных на шине, когда их несколько. Всякие тюны и немотрон. Посмотрел сейчас, он 70 миллиардов, может, и правда хорош. Попробовал Mistral large instruct 2407 как-то, вроде неплохо, но полтокена в секунду это прям совсем боль, вернулся обратно на вторую Гемму. У меня еще один слот PCIe x4 остается, так что можно будет вторую MI50 докупить и получить аж 80Гб VRAM за копейки, если скорость не просядет. Есть адаптеры с двух коннекторов NVMe на PCIe x8 за $50, когда обновлюсь на AM5, можно будет еще один слот получить, аж x8, а не x4. И видел свитч с PCIe 5.0 x16 на 2 4.0 x16, но он полторы тыщи стоит, лол.
>>1225924 Так для охлаждения же воздух нужен, отверстия, через них звук проходить будет. Или ты про панели внутри корпуса? Все равно придется что-то придумывать от шума карт. У меня корпус Define 7 XL, панели внутри стоят небольшие. Пока водоблок для видеокарты ехал, попробовал импеллер на полную раскрутить, было весьма громко. Нужна абсолютная тишина или 20 децибел хотя бы, комп рядом с кроватью стоит и включен постоянно, отвык уже в шуме спать. Вентиляторы на 30% работают, можешь сам посмотреть, как должны шуметь. У моей идеи плюсы в отсутствии пыли и обслуживания, даже термопасту менять не надо будет. Внешний радиатор пылесосом с напечатанной насадкой раз в год пройду, которая закрывает квадрат 120 на 120, с другой стороны серверный вентилятор на 15 ватт прикладываю, он всю пыль выдувает. Размеры меньше выйдут, корпус по материнской плате подгоню, снаружи один радиатор 560x60 поставлю. И просто интересный проект, мне нравятся мощные маленькие штуки, сделал себе люстру светодиодную на 200 ватт и 24 килолюмена. И фонарь MS03 взял, тоже забавная штука, но с интерфейсом для дебилов, поиграться пару раз сойдет.
>У перепука из тг на них 9к прайс. Я шифропанк и немнго в другой стране нахожусь, так что дважды не вариант, но спасибо за наводку. Седьмые же только с 16 гигами делают? Лучше 32 за 11к, чем 16 за 9.
>>1225895 >Скучна и безинициативна? Проблема промта, вероятно. Одна из самых креативных базовых моделей Вот кстати соглашусь. Я правда только Command-A катал, но несколько раз прямо приятно удивила в этом плане. Обычно-то НПС чучелки, хоть ножом их режь, а у этой есть варианты.
>>1226002 Так это в ноябре было, сейчас на третьей сижу. Список просмотрел, не сильно отличается от того, что тут видел уже, сложилось впечатление, что Гемма лучшая, может, потом дополнят. Особо недостатка в креативе не испытываю, качаю немотрон сейчас, может, удивит меня.
>>1225821 > я вам оригинальный контент принес Да чето не понятно что там вообще. Какой-то интерфейс, что выглядит как попытки неофита в интерфейс, или набросанное нейронкой по короткому запросу. Не понятно зачем вообще нужно, от компилируемого клиента (чтобы что?) до отсутствия нормальной структуры сообщений и базового функционала. Может там и есть что-то крутое да полезное, не не понятно. Что за обрезка и перемещение?
> Сильно отстаю от веб-поделий? Не зная стоящих задач и цели сложно сказать. Если рассматривать как интерфейс для удобного чатика - как до соседней галактики. > 32 гига HBM2 с терабайтом в секунду за $140 Жирно за такие деньги, тут и амудэ можно потерпеть > не задушит ли ее 8 линий PCI вместо 16. Это никогда не роляло при нормальной работе
>>1225867 Спасибо анон. >Замечания, мысли и прочее 1) ИМХО нужно объединить мистраль 3 и 3.1, там разница минимальна, часть тюнов пересекается (У Данса 1.2 на 3, 1.3 на 3.1, у Артов ForgottenAb на 3, ForgottenTrans на 3.1 и т.д.) 2) Еще впихнуть немотрон куда нибудь и его тюн от драммера. Не зря же про него срачи было 3)Еще в пантеоне на мистрале ссылки не те >Потерял актуальность в связи с тюном на Qwen3-30b И приписка не соответствует действительности. 30b сам по себе до мистрали никак не дотягивает вообще, ибо МоЕ с 3b экспертами Вот отзыв и комментарий автора тюна https://huggingface.co/Gryphe/Pantheon-Proto-RP-1.8-30B-A3B/discussions/1 4)У геммы добавить в тюны это https://huggingface.co/Tesslate/Synthia-S1-27b Про нее писали часто раньше 5) Мб добавить к тюнам мистрали, как будто бы лучше сидонии по мнению анонов или нет там и так дохуялион тюнов https://huggingface.co/LatitudeGames/Harbinger-24B
>>1225867 Красавчик. > Mistral-Large-123B > Мнение анона: Король локального рп/кума, он просто хорош. Это такие скорее к тюнам, лучше упомянуть что стоковый может быть неоче и требует особого притоготовления, а то бедолаги будут качать и разочаровываться. > Magnum-v2-123b > Как и всё к чему прикасается драммер Причем он здесь? Он там не участвовал > Lumimaid 123 На фоне магнумов и прочих выглядит неоче, зажарена и рельсы. Если кто-нибудь отпишется и лойсанет то можно и оставить. > ~70В > Данные размеры настолько не популярны у анонов, что я даже не знаю ,можем сделать плашку архивное. На старые архивное, на упомянутые добавить. В целом туда можно смело магнума 4 того же на квен, но старенький. Недавно как раз постили про 70 что-то. > ~30B Что там мистраль делает, особенно в заголовке? Это мало того что в отдельный класс моделей стоит выделить, ибо хорошо влезает в 16 гигов в отличии от 30-к, так и не стоит ставить в начало ибо по перфомансу уступает остальным перечисленным ниже. > Gemma 3-27B > НО достаточно соевая > И помни : Гемма ни в чем не виновата Ну и нахуй ты это говно туда притащил? Если прошлый анончик просто аккуратно копипастил обе позиции и нейтрально описывал, то тут причастность к фанатскому лагерю очевидна. > Command-r-08-2024-35B Это 32b модель, 35 - старый командер. По нему тащили отзывы, а их нету. > Aya-23-35B > Модель от разработчиков Командера, имеющая тот же формат, очень на него похожа, основные отличия: Немного глупее Командера, русский НАМНОГО лучше, цензуры нет совсем(что делает её почти идеальной средней кум-моделью) Где нормальная Айа экспанс, что там это старье забыло? > GLM-4-32B-0414 > Очередная китайская моделька, очень схожа с семейством Qwen Ну ахуеть, где отзывы? По меньшей мере 3 штуки было с похвалой, один с жалобой на сою, но больше похож на щитпост.
Нужно переделывать, с учетом последних - не красавчик.
Все пиздят про тюны Мистралей, но все упустили истинного Короля Тюнов. 500 тюнов, больше чем у 24b, 22b и 12b вместе взятых. И сука нет ни одного хорошего тюна на рп. Какая же гемма параша
>>1226030 > ИМХО нужно объединить мистраль 3 и 3.1 Это которые 22б и 24б? Возможно не стоит, тот что старый на 22 в базе довольно припезднутый и про него даже любители слопа неочень отзывались. > 2) Еще впихнуть немотрон куда нибудь и его тюн от драммера. Не зря же про него срачи было + > И приписка не соответствует действительности. 30b сам по себе до мистрали никак не дотягивает вообще, ибо МоЕ с 3b экспертами Абсолтюно, 30б мое и 32б полную нужно указать и рассматривать отдельно, там и перфоманс и фичи разные. Первая вообще на микроволновке может быть запущена с крутым перфомансом для такой скорости. > 4)У геммы добавить в тюны это > https://huggingface.co/Tesslate/Synthia-S1-27b Двачую, Синтия оче интересно, и отзыв на нее в треде есть. > 5) Мб добавить к тюнам мистрали Выступаю за отдельный список для тюнов мистралей, где можно будет их массово перечислять, никто не останется упущенным, основной список не будет перегруженным.
>>1226032 >один с жалобой на сою Це моё, не то чтобы жалоба, просто констатация факта её наличия (минимального, только на совсем жесть). Так то модель сравнительно безцензурна.
>>1226039 Тем более, написать что некоторые аноны отмечен позитивный байас и соя, но незначительную и на жесть. Моделька то хорошая, с большим и насыщенным контекстом прилично справляется для размера.
>>1226032 >мало того что в отдельный класс моделей стоит выделить Нихуя не стоит. Если выделить новый класс, то он там один будет. Лучше переименовать в 24-35b и там будут все средние модели. >хорошо влезает в 16 гигов в отличии от 30-к Да, но все 30к также отлично влезают в 16гб врама в IQ3M или в IQ4S, но с выгрузкой небольшой части слоев в рам. И кста та же гемма 3 в IQ4S влезает в 16гб врама с маленьким контекстом, но уже на 16к обгоняет GLM4 в IQ4S во враможоре. Так что это не показатель 16гб тредовички во всю юзают 32b модели. Например я >Ну и нахуй ты это говно туда притащил? Если прошлый анончик просто аккуратно копипастил обе позиции и нейтрально описывал, то тут причастность к фанатскому лагерю очевидна. Нихуя. Соевость геммы будет отрицать только сумасшедший. А про гемма ничего не виновата и что она умничка это локальные мемы треда. Так что нейтрально написано
>>1225996 >Или ты про панели внутри корпуса? >У меня корпус Define 7 XL, панели внутри стоят небольшие. Не, это плацебо говно так не работает, гугли "шумобокс для асика", примерно поймешь как оно должно выглядеть.
>>1226032 >Это 32b модель, 35 - старый командер. Это стар коммандер? Что-то мне не зашёл на фоне сноудропа и старого, но может семплеры нужны другие. И к слову есть обновлённые версии старого с взвешенными квантами, сейчас проверяю их.
>>1226044 > Если выделить новый класс, то он там один будет. И отлично, вполне достоин того. Тридцаткам он не конкурент по мозгам, они не конкуренты ему по скорости и требованиям, тюнов у него хватает. > но все 30к также отлично влезают в 16гб врама в IQ3M или в IQ4S, но с выгрузкой небольшой части слоев в рам В том и дело что с выгрузкой, в ужатом кванте, с квантованием кэша и мелким контекстом. Так-то ничего плохого в этом не может быть, но скорость уже другая. То же самое можно про использования мистраля 24 в 12 гигах сказать. > Нихуя. Соевость геммы будет отрицать только сумасшедший. Дело не в соевости, а в том как это подается, и в том что фанбой тащит свои идеи в что-то закрепленное, с претензией на авторитет. Можно нормально написать что по дефолту модель может давать отказы и сою. По мнениям одних это легко обходится промтом или контекстом чата, другие же считают это непробиваемым и модель не стоящей усилий. > А про гемма ничего не виновата и что она умничка это локальные мемы треда. Это нормально, дело в подаче. На фоне абсолютной любви и обожания к мистрали выглядит мэх, немотроношиз, просто с обратным знаком.
>>1226038 >Это которые 22б и 24б Не, 22b это старый мистраль, а 24b новый. У нового есть две версии - 3, которая вышла в январе и 3.1, которая вышла в марте. 3.1 по сути минорный фикс, он лучше, но все равно очень похож. Поэтому все тюны мистраля примерно до апреля основаны на 3, а после на 3.1. Но разница между ними мала
>>1225889 >>1225936 >>1225996 >>1226012 >>1226030 >>1226032 >>1226038 >>1226044 >>1226053 Вот это богато фидбека навалили. Всё нормально, все перепилю, ради этого всё и затевалось. >>1226053 >На фоне абсолютной любви и обожания к мистрали выглядит мэх, немотроношиз, просто с обратным знаком Нахожу некую иронию, что гему то я люблю, и не задумывалось смещение c нейтральности. Но шутнявок поубавим. Не вопрос аноны. Но уже завтра к вечеру сделаю. Насчет идеи с отдельным списком для мистралей - а нужно ли. Тюнов тысячи но в большинстве своём it's all same shit. Ну и что с MOE делать тоже вопрос. Как и с exl2 и exl3 (последний вообще в край часто поломан)
>>1226060 > Но шутнявок поубавим. Не надо убавлять, просто переместить ниже после основного описания. Ну и тащить с обеих сторон, будет норм. > Тюнов тысячи > но в большинстве своём it's all same shit. Это просто закрыло бы вопросы по "добавьте мой тюнчик с список" и сбалансировало его. Но можно забить, добавив приписку уровня "Актуальный микс спрашивай в треде, они производятся быстрее чем возможно обновлять." > что с MOE делать тоже вопрос В своем размере оставлять, только выделить крупно. Да и вообще описания что запускается быстро на любой железке (для 30б) и дает сносную скорость была бы рам (для 235) должно хватить. > Как и с exl2 и exl3 Не должно заботить, максимум заменить если там явная жалоба что ссылка поломана.
Но вообще, можно просто удалить все эти ссылки на кванты, добавив в начале инструкцию из трех картинок как их находить, пикрел
>>1226060 >Но шутнявок поубавим. Да норм, заорал с этого >РП тюн мистрали. Хочешь, захватывай Ангбанд за три дня, хочешь, двигай границы Рохана на момент начала третей эпохи. Хочешь, дави молочных эльфиек. Потерял актуальность в связи с тюном на Qwen3-30b
>>1226053 >И отлично, вполне достоин того >На фоне абсолютной любви и обожания к мистрали Скорее у тебя с мистральчика горит, раз ты видишь обожание там, где его нет, и хочешь его турнуть в отдельную категорию >может давать отказы и сою. По мнениям одних это легко обходится промтом или контекстом чата, другие же считают это непробиваемым Да, может давать отказы и сою, а может не давать. 50/50 и вообще skill issue. Так то в целом все неоднозначно и всей правды мы никогда не узнаем. Не фанатик геммы, твердо и четко
>Не понятно зачем вообще нужно Чтобы мне удобно было в первую очередь, но, может, еще кто-то подобное ищет, принес показать. Хотел клиент, чтобы все настройки под рукой были, а не тыкать по меню, и без пустого пространства между элементами, как сейчас любят делать. Компилируемый, чтобы не жрал ресурсы, как поделия на питоне, и был быстрым.
>отсутствия нормальной структуры сообщений Это фича, чтобы быстро можно было редактировать текст. Специально не скрываю ни начало/конец хода, ни знаки форматирования. Добавил изменение фона текста для ответа модели, мне достаточно. Шрифт стандартный виндовый Segoe UI и мелкий, чтобы больше текста входило на экран. Да, когда на пару недель в character.ai закатился, еще до того, как узнал про локальные нейросети, были приятны и картинки, и шрифты, но обычное окно мне больше нравится.
>базового функционала Какого? Сейчас думаю над карточками, как их запилить, чтобы не скатить интерфейс в обычный чат. Про TTS, пересказ и перевод написал уже. Видел на скриншотах таверны всякие personality, character и еще какие-то поля, которые персонажа описывают, но у меня все через обычный текст работает, так что это мимо.
>Что за обрезка и перемещение? Обрезка контекста. Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало. Во фрагменте может остаться кусок от предыдущего хода, и когда сервер склеит фиксированное начало с этим фрагментом, может пострадать качество, хотя я не замечал такого особо. Мой клиент обрезает текст по началу хода перед тем, как отправить запрос на сервер, так, чтобы контекст не переполнялся и сервер не обрезал его сам. Максимальный и минимальный размер настраивается в MinC и MaxC. Начало текста, который отсылается, отображается красным фоном у первого символа, и это начало можно перемещать по тексту вручную. Может, таверна сама это делает, не пользовался ей.
>Если рассматривать как интерфейс для удобного чатика Не, тут фокус на допиливание текста прям в процессе его написания, а не чатика по ходам, и эксперименты с сэмплерами, хотя они сейчас и не нужны особо уже. Я начинал с ролеплея в консоли на OpenCL с обработкой запроса 5 токенов в секунду и без возможности отредактировать написанный текст. Когда начал писать клиент, хотелось просто поле с редактированием любого символа, потом втянулся в рероллы. Как день сурка или грань будущего, или в римворлде рейды по 200 врагов сейвскамить, чтобы ни один колонист не умер. Сначала одну реакцию пишешь, потом другую, потом соединяешь эти 2 варианта в тексте и с ничего придумываешь себе силу управления временем, но модель еще оче тупая и не может это отыграть, было забавно. Вообще мне очень зашло вот это ощущение архитектора матрицы, когда на любой твой запрос сеть рисует органичное продолжение. Остановлю на середине ответа, поправлю пару слов, и дальше запускаю. И за себя иногда даю фрагменты писать, когда идей нету или хочу посмотреть, что модель придумает. В клиенте, который ты используешь, так можно?
>тут и амудэ можно потерпеть Поищи CUDA по моей ссылке на гитхаб, в последних коммитах разница между ней и вулканом процентов 20, хотя это у лламы может плохой код быть, exllama вроде быстрее. Потом посмотри в таблицу в начале, мне кажется, AMD начинают по соотношению цена/скорость выигрывать. Но обработка запроса у них медленная, у MI50 400 в секунду, у 3070 2100, а генерация 71 и 78.
>Это никогда не роляло при нормальной работе У MI50 версия 3.0, не 4.0, 8 гигабайт в секунду пропускная способность на x8. Не знаешь, какая инфа между картами передается? Если хотя бы 10 токенов в секунду будет, то это 800 мегабайт на токен, может, там половина контекста синхронизируется.
>>1226045 О, теперь понял. Ну он будет большой, и я много времени потрачу на проектирование и сборку. У меня план заказать или на производстве аквариумов по чертежам корпус из пластика, или лазером вырезать и склеить самому, купить герметичные разъемы и жидкость, и все. Корпус 6 стенок и отверстия, ничего особого. С крышкой, возможно, придется подумать только. Шасси для компонентов из профиля соберу, видел пару видосов, как на них рабочие конфигурации без корпуса собирают. И интересно посмотреть, как это все работать будет и какие проблемы возникнут.
Кстати, у меня гемма иногда даже без указаний не триггерится на ниггеров, один раз сказала, что у нее цель про все хорошее, а я не имел в виду расизм. Хотя в общем немного соевая, да.
>>1226074 >Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало Ни один фронт не доверяет обрезку контекста беку. Таверна сама его режет, притом по сообщениям, с опциональной суммаризацией, и само собой сохраняет карточку в контексте.
>>1226076 >писал длинный пост Я тебе две строчки написал в ответ на твой высер >Там к мистралю гораздо больше обожания чем он заслуживает В том что ты хейтерок мистральки нет ничего плохого. Но не надо при этом задвигать про нейтральность
>>1226074 >лазером вырезать и склеить самому, купить герметичные разъемы и жидкость, и все. >И интересно посмотреть, как это все работать будет и какие проблемы возникнут. Особенно интересно будет смотреть на то как эта хуйня разольется по квартире и начнет потом еще куда-нибудь стекать.
>>1226071 Есть, но сейчас у некоторых в базе такое выдает что и тюны не нужны. >>1226074 > Чтобы мне удобно было в первую очередь А в чем цель? Или просто привычка? Просто сейчас обычно наоборот стараются скрыть настройки где-то под капотом, куда после настройки лезть не будешь, и организовать наиболее удобное пространство для самого чата, украшательства и т.д. Или же пихать по сторонам интерфейс для доп функций, переключения между историей/чатами/карточками и т.д. > Компилируемый, чтобы не жрал ресурсы, как поделия на питоне, и был быстрым. Какой забористый у тебя фетиш, чтож, у всех свои загоны. > чтобы быстро можно было редактировать текст. Как раз интересен юскейс такого. > Какого? Он не будет вязаться с твоей концепцией, совершенно противоположное. В базовые элементы входит оформление, типа структуризации тех же постов, возможность свайпов без потери прошлых вариантов, возможность скрывать сообщения исключая их из контекста, но оставляя видимыми, редактировать отдельные, исправляя или удаляя часть и продолжая ответ на него. Возможность сделать форк чата, чтобы там в моменте покумить, разыграть другую арку, что-то потестить, сделать промежуточный суммарайз и прочее прочее, а потом вернуться в основной. Быстро и удобно переключаться между разными карточками/промтами. Есть еще несколько другая парадигма интерфейса как у гопоты с другой направленностью. Это что касается интерфейса, по функционалу там важны возможности формирования промта в нужном формате, включая как просто импорт всего-всего из карточки, переходя через правильные форматы, разметку с рядом заморочек, и заканчивая экстра фичами, типа разной осностки для промтинджекта для того же суммарайза, персоналити и прочего. > Сервер лламы, когда контекст заполняется, сам удаляет примерно половину старого и перемещает оставшийся фрагмент в начало. Это при использовании шифтов, оно вносит негативный импакт. Самое разумное решение здесь - подробный суммарайз части постов и постановка его их место. > Мой клиент обрезает текст по началу хода перед тем, как отправить запрос на сервер, так, чтобы контекст не переполнялся и сервер не обрезал его сам. Так все фронты делают. > тут фокус на допиливание текста прям в процессе его написания, а не чатика по ходам Типа пишешь книжку-историю вместо чата? Как тогда там промт формируется и где идет деление между новой и старой частью? Куда ставятся инструкции? > AMD начинают по соотношению цена/скорость выигрывать Проблемы с совместимостью и прочим. Если действительно окажутся выгодными то можно брать, но пока хз. > какая инфа между картами передается Тензоры межслойных активаций, там мало.
>>1226085 Едва вы хотите написать ответ, что-то необычное видится вам с этом посте. По вашей спине пробегает холод. Нечто знакомое угадывается в зеленом тексте. Зеленом. ЗЕЛЕНОМ. Они пришли за вами и сюда. Гоблины!
>>1226060 >>1226032 >>1226044 Ща разберем >Модель от гугла. Очень хорошо может в русский. Чрезвычайна умна для своего размера. При сравнительно малом весе обладает сообразительностью уровня 70В моделей. а местами даже даёт им пососать Скопировано с описания с Gemma 2, но соответствует и Gemma 3. Все правда, по сути перечисление плюсов >НО достаточно соевая Факт >может хитро пропихивать сою незаметно Возможно. Не сталкивался, но видел как писали об этом аноны >постепенно руиня РП ОБИДЕЛИ ГЕММУ! Можно и убрать, ведь соя не факт что вообще руинит рп. >Адекватных мержей не существует Если говорить про РП, то факт. Реально ничего не вышло за почти три месяца >обладательница жирнейшего контекста Факт. Контекст более чем в два раза больше чем у квена, из-за чего она быстро перегоняет его в размерах >Источник бесконечных холиваров и неутихающих срачей Абсолютный факт. Буквально в каждом треде срач. Даже из-за ее описания посрались >Без сомнений умница Положительный мем >И помни : Гемма ни в чем не виновата Отрицательный мем Баланс Короче норм описание, оставляй И мистраль тоже в средничках оставь, незачем вдруг менять
>>1226109 Попытка глупца зафорсить свое хрю ради тешенья чсв и охлаждения жопы социальным доказательством, неприемлемость компромиссов. Именно поэтому единственным адекватным решением может быть нейтральное описание с изложением разных мнений.
>>1226118 >Попытка глупца зафорсить свое хрю ради тешенья чсв и охлаждения жопы социальным доказательством, неприемлемость компромиссов. Ты реально после этого что-то про нейтральность пишешь? Вижу ты совсем поехал, геммашиз
>>1225867 >Обновлено до 2411 Анта бака? Какой смысл указывать более зацензуренную версию? Ставь на 2407 линки по дефолту, и явно пропиши, что в 2411 повышенный уровень сои (сам я не проверял, но видел какие-то метрики на обниморде) Еще напиши, что врамбояре могут использовать спекулятив декодинг с Mistral-7B-Instruct-v0.3. Я использую ваниллу и мне это дало пару токенов к скорости генерации. Возможно, и на тюнах будет полезно, но я лично не проверял. Я полгода сидел на бегемоте 1.1, а до этого - на миксе 1.1 и магнума v4. Поначалу мне казались очень достойными, много положительных впечатлений было. А под конец заебали вусмерть и начали казаться тупыми. В связи с чем я сижу на ванилле. Но и она уже начинает надоедать. Мне кажется, что она слишком хорошо следует инструкциям. Я привык бегемот направлять в автор ноутсах глубиной 4. Ванилла же так фокусирует внимание на них, что сама карточка для нее становится очень второстепенна и если есть некий конфликт между описанием в ноутсах и карточкой, то она не будет отыгрывать конфликт, а просто отдаст приоритет ноутсам. Надо попробовать перестать их юзать. Как же мне не хватает множественных ноутсов для чата, чтобы одни были после описания персонажа, вторые - на глубине...
>>1226124 Угадайте шиза по модели. Уже готовый паттерн сформировался: любое несогласие со своей идеологией пытается перефорсить, придумывает клички, агрессирует и серит. Выше разговор про форсеров и шизов был - так вот он, главный мусор треда.
>>1225604 >семплеры модель данных - стохастический попугай
сэмплеры - sample - "образец, проба" - алгоритмы (и их параметры) по которым из пула всех возможных "слогов" пробуется, выбирается, отсеивается, собирается именно тот текст который выводится тебе на экран
Почему у меня стабильно со второго свайпа модель лучше слушается инструкций? Это всегда так или из-за какой-то реализации на бэке, фронте?
Скажем так, на сообщение она старается ответить "максимально в тему", но при этом шиза может протекать. На втором свайпе наблюдается слегка отход от темы, но шанс, что модель высрет хуйню, значительно ниже.
>>1225020 Только вот маленькие значения смуфинга работают схоже с повышением температуры и способствовать лупам не могут. Что в очередной раз доказывает, что сэмплеры - это плацебо, если не уходить в крайности.
>>1226237 ChatML, температуры и минп - на странице модели. Что тебе ещё надо? Совсем поехали со своим мастер-пресетами шизоидными. Сиспромт хоть от клода ставь, он всё понимает.
Скачал gemma3-27b-abliterated-dpo (IQ_4XS) - прогнал через несколько личных тестовых промптов - начинаю понимать причину восторгов фанатеющих по ней.
- Очень качественный русский. Мистраль 24B нервно курит рядом, даже спец-тюны. (Не говорю, что у мистраль он плох - но тут прямо чем-то совсем живым периодически веет.) - Всеядность. Жрет что дают, без особых претензий к разметке в промпте, и все равно выдает что-то годное, даже если разметка там совсем странная или никакая. Т.е. она будет прощать грубейшие ошибки настройки. - На английском - вот прямо есть субъективное ощущение как она мелкие детали промпта собирает, комбинирует в целое, и использует. На русском - хуже, но вроде бы тоже это есть.
Разумеется, такие повадки удобны для тех, кому надо просто запустить и рпшить/кумить, а не курить мануалы полчаса. Чего бы в фаны не записаться с такого? Даже если потом косяки полезут - первое впечатление она произвести умеет, факт.
>>1226241 Даже на самой блядской карточке которая у меня есть, где тебе с порога язык в жопу и хуй в рот засовывают, гемма умудряется всё это зацензурить в мясо, так что без контекста даже не поймёшь на экране секс или чаепитие. Воистину уникальная модель
Таки что с Qwen 3 32b? Как-то быстро прошел релиз Qwen 3. Тюнов нет, шум поутих через несколько дней. Не годится для рп? Что насчет кода, QwQ все еще лучше?
>>1226261 >QwQ все еще лучше? Нет, Qwen3 32b лучше. В том числе что дает ответ за меньшее количество токенов и меньше лупится. QwQ прототип всей серии Qwen3
>>1226220 > 1, которые и бомбой с рельс не собьешь, до 5 - которые просто запустить без лупов или рандома в первом сообщении - уже искусство Так это же одно и то же, лоботомия и деградация. Просто в первом случае оверфит проявляется в большей дискретности. >>1226241 Все так. Обычная ванилла в случаях делает это еще лучше, но для чего-то жесткого или расчленения нигеров ей придется сначала указать что все дозволено и сеттинг превыше морали, но взвешивать между ленью и разницей уже самому. Самое простое объяснение: модель дохуя умная, знает как обожание и формализм, так и полную жесть, дефолтная установка положительная, но следование логике и инструкциям превыше указаний. >>1226254 May be... just may be не думал что проблема в чем-то еще, а не в модели? Помимо юскейса и субъективизма. >>1226261 > Не годится для рп? Годится. Только совсем беглый пробег по ней, но создается впечатление что у всех квенов3 отличные задатки для рп. Довольно сомнительно что васяно-тюны могут сделать там лучше, кроме сужения вариативности и внесения слопа, а хороших еще дождаться надо. Может и не было.
Попробовал наконец ускорение через драфт модель юзать - гемма же в разных размерах есть. Так вот - фигня получается с любым драфтом до 4b включительно. --tensoroverride после пары проб чтоб занять весь vram дает примерно такую же прибавку к скорости (может даже и больше), но при этом качество генерации не садится. А с драфтом - субъективно хуже.
мне кажется, что настройки таверны (сиспромт, темплейты) не всегда применяются? в какой момент они применяются-то? например я изменил модель в убабуге, не трогая ничего в таверне
>>1226502 >>1226505 >унгабунгапроблемы Наоборот. В случае Text Complation таверна не всегда видит, что модель на беке уже другая, если ее там поменяли вручную (не из таверны). Правда это почти ни на что не влияет. Если только таверна не умеет менять модель на конкретном беке иначе сама может вернуть старую (на уге не умеет, на табби - умеет).
А сиспромты и темплейты применяются всегда - те, что активны, если это Text Completion. Если Chat Completion - то обычные темплейты игнорятся (для него свои - особенные, могут и из модели подгружаться), сиспромпт может использоваться, но не обязательно (настраивается уже в chat completion).
>>1226526 >А сиспромты и темплейты применяются всегда - те, что активны, если это Text Completion. Ага. То есть, если у меня в таверне вот так, то все ок должно быть, так?
Хм. А как вы вообще гоняете, Text Completion или Chat Completion?
>>1226538 По разному. У ТС больше детального контроля, у СС - симуляция API больших дядей, и только через него некоторые расширения таверны работают. Так же через CC можно автоматически базовый темплейт разметки модели получить - вариант для совсем ленивых (потому, что оно хотя работать как-то и будет, но затачивается скорее под "ассистента" чем RP или что-то еще). Свое сделать под конкретные хотелки - обычно лучше выходит.
>>1225747 > Товарищ смайлофаг, не рассматривал ее вместо некрокарт из видоса? Денег за гигабайт примерно столько же, но будет меньше мощность, больше линий на карту, и пропускная способность памяти в 3 раза выше.
И это четвертое упоминание за последние три дня. Скорость в 3-4 раза выше, судя по тестам чувака одного, так что да, вариант очень хороший, судя по всему. Единственный минус — она слегка горячая и не молодая уже. Если P104 умирает — пофиг, а если эти отваливаться начнут, чуть грустнее. Ну и собирать надо под ROCm, вероятно, но это детали, тащемта.
Я пока занят, но, думаю, дешевая цена может продержаться недолго (как было с Tesla P40), так что, кто планирует брать — я бы брал раньше, чем позже. Это правда выглядит хорошо.
> отпишусь, как придет Очень жду! Будет круто, если она покажет свои 15-20 на гемме 27.
>>1225774 > Насчет mi50 забросил идею, читал где-то, что они между собой почему-то не ладят. Тогда одна на 32 гига звучит тоже неплохо, согласись. =)