В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Сука я не могу как же гемма хуево подхватывает характер и стиль речи персонажей, у неё все соевые добропорядочные не матерящиеся и тд. Простл говнище для рп
Нормально там гопоту раскрепостили. Удобно карточки делать. Можно сразу известных персонажей с лоли-внешностью пилить и с автоматическим описанием тела на 3к токенов с полным описанием.
Причем он неплохо знает даже персонажей из каких-нибудь вн 2004 года, которые знают 2,5 человека и по ним 15 артов на данбуру за 21 год.
>>1149538 (OP) По поводу Лорбука(World Info) в таверне, расскажите про векторные базы. Вот есть тригер по ключевому слову(по умолчанию), а есть Chain Link, который делает векторную базу из записи и срабатывает по схожей семантике в контексте. Как я понял Chain Link использует какую то простую базу, которая автоматом генериться при каждом запуске таверны и не сохраняется. Но есть расширение Vector Storage, позволяющее на костомной модели сгенерить нормальную векторную базу в постоянный файл. И вроде как это более удобный и управляемый вариант. Но вопрос, а есть смысл вообще ебаться с базой, будет ли она лучше обычных тригеров по ключевым словам? Оправдано?
>>1149415 → >>1149454 → Ну короче, лол, разница между rx7600xt и rtx4060 не то чтобы прям существенная, но зато разница памяти в два раза, ну и цена еще.
Жалко только не понятно нихуя, что там за модельки использовались, слишком обезличено.
Повторю сюда вопрос, на всякий случай.
Аноны с видяшками от амд, чо у вас по скорости генерации выходит? Щас присматриваюсь к rx 7600 xt с 16 гигами памяти. Еще интересно что будет с генерацией картинок, тред не тот, но может кто подскажет
>>1149736 Берёшь и гуглишь. Чужие тесты, правда, находил только с мелкомоделями, типа на 7b там что-то около 700-1к т/с процессинг и ~30 генерация. Как это экстраполируется на большие размеры, не знаю. Так-то по цена/производительность они неплохи на фоне охуевшей куртки, главный вопрос скорее в том, готов ли ты pierdoliть rocm, переезжать на linux (если ещё не).
Алсо, есть нюансы с подключением, нужны pci-e с atomics, минимум v3, если какие-то райзеры, то и они должны поддерживать, слоты должны быть напрямую в cpu, а значит, больше 2 в одну мамку консумер-сегмента не воткнуть (возможно в новых мамках уже и через чипсет можно, хуй знает). Если мультигпу, то слоты должны быть строго одинаковыми (к примеру, оба к cpu в x8/x8 режиме, если брать рязань, то это онли топовые мамки на x70 чипсете, b50 делят как x16/x4, за интелы не шарю). В общем, ебли с ними хватает, и вряд ли это уже пофиксят программно, какие-то нововведения и оптимизации только под новейшее поколение, под старое только фиксят, если совсем что-то ломается, а так собирается - и хуй с ним.
Алсо эта история с pci-e v3 с поддержкой atomics была актуальна ещё во времена gcn для полярисов, а vega/radeon 7 умели в любых слотах работать. Но потом эта сверхтехнология была по каким-то причинам проёбана (очередной выстрел себе в ногу) и для rdna снова требуют строго процессорные слоты.
В шапке гайда не нашел. Я установил SillyTavern по гайду. Теперь надо подключить языковую модель, но инструкции нет. Вот модель, например, https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct Как её скачать непонятно, и как подключить к таверне?
>>1149829 Троллишь тупостью или реально тупой? На тот крайне маловероятный случай если нет, поясню, таверна - фронт, тебе нужен бэк, который будет саму модель крутить. Для новичков лучше всего кобольд, он и фронт и бэк в одном флаконе. Модель ты эту не запустишь если не шейх, уреж леща, скачай из шапки одну из моделек для рп с русским уклоном для начала, один файл GGUF и пихай его в кобольда.
>>1149736 >Щас присматриваюсь к rx 7600 xt с 16 гигами памяти. Еще интересно что будет с генерацией картинок, тред не тот, но может кто подскажет Будет полная пизда, удачи выбросить деньги. Это не вопрос качество/цена, а вопрос в том, что амудя это тупиковая хуйня и они даже не пытаются. Без куды можешь про нейронки забыть просто, будешь как местные пердольки только еще пердолистей, вообще не человек, красноглазый пингвин нахуй. Тут всего два варианта, ты или 4060 берешь или бабки суешь в жопу. Всё. Ничё новое ты тут не изобретешь. Кто выше гавкнул про "охуевшую курту" сам то на нвидиа сидит.
>>1149829 Анончик, ты эту модель если можешь запустить, попроси своих ассистентов тебе все сделать.
Если серьезно, модель тебе нужна меньше в GGUF формате, возьми вот эту например https://huggingface.co/bartowski/google_gemma-3-12b-it-GGUF , скачиваешь какой-нибудь квант, который влезет тебе в видео-память, потом получше разберешься что да как.
Смотришь буквально по размеру в гигах на вкладке со скачиваниями, разве что учти, что в принципе брать что-то кроме Q4 нету смысла, у нее будет нормальное качество и будет быстрее работать, все что меньше - падение качества, все что выше - падение скорости без серьезного поднятия качества.
По поводу моделей, очень вряд ли ты у себя локально можешь запустить что-то больше 32b (32 лярда параметров). Народный размер, который обычно всем влезает - 12b. 24b модели, имхо, сильно умнее, но уже могут тебе не влезть.
Количество параметров > размер кванта, но как говорил, оптимально брать четвертый квант, просто не думая, главное чтобы влезало.
Файнтюны отупляют модели, лучше брать чистые мистрали, квены, геммы и так далее. Смотреть стоит, имхо, разве что на убирающие цензуру, они не так сильно отупляют, а выигрыш для кума есть.
>>1149475 → > Я поэтому и зажопил на нормальный апгрейд компа, оставшись на ам4, потому что если нащупаю пул задач для себя, возможно придется свичится на какое то специализированное решение по типу рига карт/рам-сервака + ноут. Вот здесь я тебя поддерживаю, бежать куда-то апгрейдится пока не надо. Когда разберешься, что именно тебе нужно, тогда возьмешь под свои задачи. Это мы полтора года назад брали все подряд. И щас за две теслы я не жалею, да и 128 гигов иногда прикольно. Но знал бы, скорее всего взял бы одну 3090, и зеон с 256 гигов. Так что, торопиться не стоит, канеш.
>>1149840 Пробовал, креативности и мозгов вообще 0, магнум в 10 раз лучше. Просто с ноги залетает в сиськи письки и не останавливается никогда, буквально заебывает
>>1149859 >Кобольд это альтернатива Таверны? Нет, оно, конечно, может использоваться в качестве фронта, чтобы ты прям там писал и пользовался, но нет. Подключаешь кобольд к таверне и радуешься
>>1149859 Бэкенд — это задняя хуйня, которую ты запустил, настроил и не трогаешь. Фронтенд — это передняя хуйня, с которой ты взаимодействуешь в процессе использования.
Кобольдом ты запускаешь скачанную модель. В СиллиТаверне ты переписываешься с нею.
>>1149838 >Q4 нету смысла, у нее будет нормальное качество и будет быстрее работать, все что меньше - падение качества, все что выше - падение скорости без серьезного поднятия качества.
>>1149829 >>1149859 Зайди на ютубчик и введи SillyTavern, там есть видосы на русском как что настраивать. Да там абсолютно базовая хуйня, но ты поймешь как запускать модель на кобольде и как подключить ее к силлитаверну.
>>1149838 Всё работает, спасибо большое. Единственное, ждал что бот будет шустрее генерировать ответы, быстрее, чем на Janitorai. Наверное надо другую модель попробовать.
Ещё вопрос, я всегда пишу боту на русском языке, он всегда отвечает по английски (на Janitorai), меня это устраивает. Здесь запустил бота и он стал общаться в ответ по русски, притом мега отвратно. Как это исправить?
Сравнил русский язык на переводе. Пробовал SAINEMO-reMIX.Q6_K и gemma-3-12b-it-abliterated.q5_k_m, оказалось что при равных параметрах и промте, гемма сосет. Много ошибок в построении предложений, да и явно указанные в промте ключевые слова (места и имена) тупо заигнорила.
Для чувака с 770й Аркой, который тут гулял: НАКОНЕЦ ТО дошли руки, установил порт-версию llama-cpp с гита ipex-llm. Запустил Forgotten-Transgression-24B Q4_K_M. В таверну поставил FreeSpace RPG, которая подтянула те самые проблемные рулбуки. Вроде как все работает, ничего не вылетает, но я толком еще ничего не настраивал в плане объема контекста и прочих температур. Выдает 3 т/с в среднем, обычно меньше. Видимо, все и в плане скорости и в плане вылетов упирается в объем контекста, который очевидно в 14 ГБ (-2ГБ на все фоновое) врам не помещается, как наверное и часть весов самой модели.
Вопрос в тред 1.Как прикрутить к таверне всплывающие уведомления? 2.Как к таверне закинуть пресеты для Text Completion? 3.Есть ли какие то удобоваримые гайды по настройке именно Llama-cpp на русском языке. Извините за наглость, я просто даже думать устал в последнее время.
>>1150108 Очень медленно для такой модели. Сколько у тебя контекста? Ты его квантуешь? Срезать фоновой потребление врам до 1гб пробовал? >>1150064 Пишешь в промте, чтобы отвечал на английском.Но лучше и писать ему по английски. Например, в таверне можно включить автоперевод твоих сообщений
>>1150112 Уже год не крутил ЛЛМки и уже все забыл, как что делается. А так только-только все поставил и запустил тестироваться. Фоновое потребление срезал, а как квантовать и настраивать контекст я честно говоря не знаю. PS: Кажись я сообразил, что не так делаю, буду исправлять, но это с контекстом не связано.
>>1149836 >>1149840 Мне очень зашла gaslit-abomination-24b-v1.0-q5_k_m.gguf Это мерж от того же автора который включает в себя: Forgotten-Transgression-24B-v4.1 - для кума Cydonia-24B-v2 - для рп. + Gaslit-Transgression-24B-v1.0 и Dans-PersonalityEngine-V1.2.0-24b. Мне она понравилась на много больше голой Forgotten-Transgression, которая может только в кум (очень качественный но только в него.) А с gaslit-abomination можно нормально рпшить, она хорошо подхватывает сценарий и био персонажа. + не скатывает все моментально в кум. (Если карточка не для кума.)
>>1149625 Ух щас на локалочках я оторвусь... @ У корподрочеров садомазокопропедозооутехи, провайдер заикаться стал @ Твоя гемма за твои же киловатт часы доказывает тебе что анальный секс это небезопасно, негигиенично и неуважительно
>>1149711 Поддвачну, этот пиксельдрейн каждый реквест всплывает. Келлер пока лучшая карточка по структуре и персу, которую встретил вообще, хоть и сеттинг... своеобразный. Хочу попробовать на ее шаблоне собирать свои карточки. Валерию еще попробовал, но там уныло, пришлось заредактить, иначе вообще был экспириенс общения с роботом из техподдержки, только вместо "оставайтесь на линии" - "я тебя победю" вопреки любой логике. Остальное не показалось интересным совсем.
Если при смене модели на какую-то другую Cydonia-v1.3-Magnum-v4-22B-Q4_K_S - таверна меняет пресет на мистраль - это значит что там в основе она и я поем говна в рп?
>>1150197 С чего бы это сломана? На кобольде Джемма 3 12б 4km квант юзаю с релиза. Юзаю ллмки со дня их сотворения и перепробовал многие и эта Джеммка топ1 пока что из того что пробовал. Мистральки слопят через 100 контекста. Эта и стихи с рифмами пишет по-русски и переводя локализует японские песни с рифмами, легко отключается цензура. Не вводи людей в заблуждение.
С чем может быть связан баг в последних версиях кобальда, когда генерация сильно замедляется или вовсе прекращается до тех пор, пока не сфокусируешься на окне с консолью?
>>1150212 Сижу на 1.86 и нет проблем. До этой версии и после неё какие-то быстрые замедления через пару десятков сообщений, а с этой уже 10к контекста всрал и только слегка ощущаются замедления, но не критично.
>>1149538 (OP) Хочу чтоб нейронка в SillyTavern писала на русском, гуглперевод попахивает говной. Я у персонажа все поля в настройках перевел на русский, но она только в начале 2 раза на русском написала, а потом начала только на инглише. Че сделать?
>>1150223 >Че сделать? в авторские заметки на глубину 0:
[Не повторяй, не пересказывай и не перефразируй предыдущий текст, продолжи его напрямую и бесшовно. По возможности включай в нарратив разговоры персонажей, их мысли, чувства, и язык тела. Пиши на Русском языке.]
>>1150223 Я вообще беру англ карточку, потом от нее первое сообщение беру в соседнем чате перевожу через ассистента, и кидаю обратно. Т.е. первое сообщение чата получается это мой личный перевод на русик от имени модели, а потом так же отвечаю на русском, и весь диалог на русском происходит. Сначала оставлял остальную карточку на англе, т.к. увидел что русик х3-х4 по контексту жрет, но потом оказалось что это пиздеж... Но карточки все равно не перевожу, зачем заморачиваться, если работает и так.
>>1150244 >в яндекс браузере есть Да ты бы просто сразу на алисоколонке тогда уж кумил, там голос приятный.
>>1150108 Продолжу ответ для брата-арковода. Суть проблемы явно в том, что арка просто крайне быстро забивается контекстом. Вроде просто с каким нибудь ассистентом еще можно пообщаться, но если подключается персонаж или персонаж с рулбуком - все забивается в хламину и ВРАМ и ОЗУ.
Вроде бы и решаемая проблема, но тут оказывается SYCL в целом, или форк llama-cpp от интел в частности, не поддерживают квантование контекста ни в какой форме. Увы.
Буду еще чего нибудь придумывать, но пока основная проблема выглядит вот так.
Как же я замучался с tabbyapi, если не задавать параметр в config.yml max_seq_len, то даже модель 1B жрет больше 5 гигабайт видеопамяти, а ollama медленнее работает. Печаль.
>>1150210 >>1150197 Сама двенашка нормальная, это abliterated сломана. >легко отключается цензура Там проблема не в цензуре, а в том, что из-за того, что модель пытается избежать nsfw сценариев, при приближении к таковым начинается лютая тупка. И джейлами с префилами тут ничем не поможешь.
>>1150388 > Суть проблемы явно в том, что арка просто крайне быстро забивается контекстом замечал такое только с геммой 20чо то там. >не поддерживают квантование контекста ни в какой форме поддерживают, но не для каждой модели запускается, с чем связано не знаю, но я просто смирился и теперь запускаю не более чем 22b, либо 12b гемму. рп шить я сейчас пробую с MS-Nudion-22B.Q4_K_S и Cydonia-v1.3-Magnum-v4-22B-Q4_K_S(обе кстати на 16к контекста, хоть и впритык, но влезают(без iGPU такое, думаю, не вышло бы)) включая их попеременно и смотря что мне ответы получше даёт. Но я в принципе довольно терпеливый и мне норм и ответ отредачить и погенерить и побольше контекста навалить если сами не осиливают. Ещё и css навалил мощно чтоб приятнее всё это дело выглядело.
>>1150513 зря ты такой агрессивный. Там перевод автоматически применяется к новым сообщениям(но это похуй). Киллерфича в том, что при наведение на предложение тебе бабл с тем, что там был в оригинале всплывает. Сильно удобнее переключателя таверны.
>>1149538 (OP) Гляньте плиз бенчмарк https://pastebin.com/2n8fzndT Можно ли еще как то выжать либо скорость токено(не снижая контекст с 20к), либо еще поднять сам контекст, не проебав при этом качества или это предел?
У меня 8г врам, 32г рам, во время генерации начинает лагать из-за нагрузки на проц, с этим я в принципе готов мериться(если он не сгорит).
>>1150530 Если в модели меньше 100 слоёв, то да. >>1150533 >зря ты такой агрессивный. Не зря. Нахуя тогда локалки, когда весь кум прямо на стол товарищу майору льётся?
>>1150574 Денег жаль, я посчитал что минимум 150к надо вкинуть и прикинул что проще подождать специализированное железо под нейронки, которого много было анонсировано, чем квазимодо говно собирать, которое потом все равно соснет.
>>1150568 >когда весь кум прямо на стол товарищу майору льётся? Представляю ебало лицо товарища майора который читает 200 сообщений о том, как меч-извращенец пытается совратить своего владельцы
>>1150586 Эм, 70к на 3090 и 20 на БП, если тебя совсем говно. >>1150590 Читать тоже будет нейронка, тов майор получит выжимку с расчётом твоей (не)благонадёжности.
>>1150568 >Если в модели меньше 100 слоёв, то да. Я где-то в штаны насрал да? У меня почему-то при генерации токенов напрягается только проц с оперативкой, а видеокарта в простое, если судить по диспетчеру задач. Использую cublas. Если оставляю на -1, то пишет 14/45 слоев и при этом генерит более-менее, если ставлю 25/45, то начинает тормозить процессинг промт, если еще ставлю еще выше, все начинает лагать и пердеть. При этом в диспетчере все равно видеокарта в простое. Я себя каким-то ромкой-попрыгуном уже ощущаю, потому что не могу понять что не так.
Гемма для тех кто любит боль? Мне не дала даже карточка с припиской ПАБЛИК ХОЛ, ссылаясь на то что она не какая то там вещь, хотя сообщением назад отсасывала чедам
Для русского кума практически безальтернативна. Следующая ступень уже 123В, я бы сказал. У Лламы русский датасет совсем говно, а дотренивать никто не хочет.
>>1150646 >Гемма для тех кто любит боль? Нет, гемма просто мусор для ролевых приколов. Погонял её пару дней с местным промтом, до последнего верил, что возможно что-то упускаю и щас потечет качественный контент. Но нет, чуда не случилось. Младшая гемма перформит на уровне уже плесневелой мистрали 12B и даже хуже - проебывает форматирование, проебывает смыслы и иногда изрыгает откровенный бред. В русском ситуация немного лучше и как-будто меньше копротивлений во время интимных сцен, но гораздо меньше натуральности и постоянное ощущение, что ты читаешь какое-то дефолтное говно с фикбука.
И да, кстати, тюнов на гемму не будет, можете даже не ждать. Тренировке она не поддается и значительно сильнее тупеет, чем другие модели.
>>1150974 Мне нужна умная модель для текстовой рпг, я свои правила уже написал, с геммой работает. Но там нет NSFW нормального, а в кум тупые + там инцест. В итоге 2 стула, оба из говна намалеваны.
>>1150985 Можешь мистрали попробовать, их много разных и даже есть специализированный Wayfarer-12B, который как раз под хардкорные текстовые рпг, плюс там вообще нет цензуры.
>>1150992 Тебе кажется. Между 12б и 24-32б пропасть. Но если у тебя пара сообщений с простой логикой, то ты этого не почувствуешь. В любом случае, если жалеешь, то продай. Ты +- в 0 выйдешь по итогу
>>1150992 32B в целом ощущается как потолок для поебушек с текстовыми моделями. Выше конечно брать никто не запрещает, но докупать еще минимум одну карту чтобы получить едва ощутимый прирост по качеству и мозгам это трата сомнительная.
>>1150988 Текст перед ответом нейронки. >>1150992 >А ещё никогда так не жалел о покупке. >Одна 3090 абсолютно бесполезна. Бери вторую, хули там, тебе об этом сразу писали.
>>1150992 Норм будет если использовать ее в том числе для другого генеративного ии. А если упарываться исключительно ллмками и делать это очень плотно и долго - поймешь что даже корпы тупые на самом деле не тупые а проблема в запросах юзера, не всмысле что ты плохой, а просто ньюфагу тяжело сделать иначе
>>1150992 >Одна 3090 абсолютно бесполезна. Наоборот. В 24гб врам влезают все средние модели, до 32В в 4-м кванте. И хороших моделей под локальные задачи анона в этих пределах полно. А вот две 3090 существенного прироста не дают - ну в 8 кванте те же средние модели погонять да лламаквен до 72В в 4KS влезет (а по-человечески только ллама). Такое себе, вроде и 48гб врам, а по сути никакого рывка. Но добавляем третью карту - и перед нами открывается мир 123В, что даёт качественный скачок :) Ну а с четвёртой примерно как со второй. Такие дела.
>>1151048 >27b dpo тоже не работает? аноны её вроде хвалили. Работает, по ощущениям чуть получше аблитерации в плане кума, но по сути та же хуйня. Для рабочих задач без цензуры (свои карточки и т.д) лучше аблитерация, а кумить на чём-нибудь другом.
А что за K-transformer такой, о котором тут часто упоминают? И пишут, что при одной 3090 можно крупные модели грузить в оперативку и гонять с приличной скоростью. Это как вообще?
>>1150626 >то начинает тормозить процессинг промт, если еще ставлю еще выше, все начинает лагать и пердеть Ты вывалился за пределы видеопамяти. От этого и пердит. Сколько видеопамяти, контекста?
>>1151077 >гонять с приличной скоростью Если у тебя много рам (от 256гб и выше) и норм серверный проц — да, вполне реально. K-Transformer как раз оптимизирован под инференс на CPU и большими объемами оперативки, минуя врам. Он грузит квантованные модели прямо в рам, и не требует, чтобы всё помещалось в видеопамять.
Если не влезает целиком в рам — будет подгрузка с диска. У меня на десктопе с 128гб ddr4 и nvme, deepseek q2_k_xl работает с подсосом с диска на скорости примерно 0.8–1.4 т\с, что вполне юзабельно для рп или какой-нибудь локальной задачки.
>>1151136 > что вполне юзабельно для рп или какой-нибудь локальной задачки Сомневаться. Это же буквально от 20 минут до 1.5 часов на типичный ответ и пол дня на продолжительный ризонинг.
Посоветуйте какую-нибудь необычную модель, чтобы я мог слегка удивиться. Чтобы было интересно потыкать. Не обязательно хуем.
В качестве таких примеров могу привести модели Дэвида, та же гемма (контекст хорошо держит даже 12б), но должно же быть ещё что-то. Ллама 4, которая у меня даже в Q1 не была слишком шизофреничной и дала довольно необычный опыт.
CoT-модели разочаровали в целом, но хочется дать им шанс. Но может есть очень мелкие 7-12б? Чтобы быстро-быстро-быстро шизу накидывать. И без плагина от тредовичка.
Меня также интересует МоЕ, ибо я ещё ни одной нормальной (терпимой), кроме лламы и дипкока не видел.
Короче, дроч и ковырение ради ковыряния и дроча.
Ну что-нибудь такое. Примерно как в разделе двача с фотографами, где ебанаты настолько преисполнились, что дрочат уже не на фото, а на f/1.0 и буркех, забыв о первоначальной цели и скатившись в обсуждение железа, цвета, калибровки мониторов, каких-то незначительных нюансов для 99%, даже для профессионалов. Таскают стёкла за миллионы, а фоткают кошек, пока уася на фотоаппарат 15-летней давности делает шидэворы и заколачивает деньги и кайф.
Вот хочется обмазаться каким-то не совсем стандартным LLM-говном. Просто чтобы попробовать.
>>1150533 >зря ты такой агрессивный. Там перевод автоматически применяется Лол бля, крутить локальную модель в ябраузере это как ездить по пдд в полях, а потом начать дрифтовать перед дорожной камерой около дома.
>>1150513 >Уёбывал бы ты отсюда, волож. Лол, ору что уже второй воложа приплел, и от того что итт похоже сидит зарплатный яндекс-олимпиадник на защите гойского якала.
>>1150586 >Денег жаль, я посчитал что минимум 150к Мой пятилетний комп, собранный из мусора на авито сейчас стоит в сборе 30к, и это со старой 1080, которая стала не нужна. Взял у какого то стримера 3090 за 60к и бп с золотым сертификатом за 5к на киловатт, и уже благодаря мудрости анонов этого треда кручу 32 b с 24k контекстом на 28т/с. С полным апгрейдом как раз уложусь в еще +30к, за которые продам старый сетап, по итогу приличная нейромашина в 65к выйдет. Ни о чем не жалею.
>>1150815 Эх, если бы ее 100 сообщений приходилось подкатами уламывать на писик, цены бы не было. Но по факту писик на кум карточках доступен в 3 сообщения, просто он такой убогий, что интереснее на советский ковер смотреть, ловить образы с узоров и дрочить. Но я не промт бог, верю что аноны могут и от геммы суперкум.
>>1150992 Ты на русике кумишь? Да, с этим печально, для русика дальше 12b особо смысла нет для кума. Хотя вчера qwq-snowdrop-32b на кумокарточке меня сдула прям, аж покрестился и спать пошел, завтра продолжу тест - пока не ясно карточка такая фертильная, или, сноудроп так расписывает. >>1151023 >Бери вторую, хули там, тебе об этом сразу писали. А это кстати не я, я довольно урчу - sdxl генерит как не в себя, гемма и квенкодер32 полетели... Уперся в емкость ssd, жду когда будет время мать новую взять и 2tb, да систему перенакатить нормально, вот тогда и нейронки начну всерьез пердолить и игорь в 2k с рейтрейсингами заценю.
>>1151270 >Посоветуйте какую-нибудь необычную модель, чтобы я мог слегка удивиться. А вот интересное - ризонинг РП-модель: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v1 (нужно поставить настройки для ризонинга ну и окно для ответа на 2к, чтобы на всё хватило) Я пробовал на русском и он действительно не проёбан. "Думает" модель хорошо и правильно анализирует ситуацию; мне понравилось. Но после размышлений она должна их выполнять - и вот тут у модели затык, она совершенно беспомощна. Может быть я что-то не так настроил или дело в русском языке - попробуй и отпишись, я бы хотел дать этой модели второй шанс.
>>1151276 Эх, так и знал, что будет она, но всё равно спасибо за старания. Более того, я её тюн не трогал — только оригинал. А значит точно есть смысл.
>После размышлений затык
Ну это прям база. У меня есть идеи, как это пофиксить, но я не пытался особо, ибо если у ризонинг модели меньше 20 токенов в секунду, у меня начинается тряска и я подключаюсь к опенроутеру. Да даже всякие клоды и опены меня своей медлительностью нервируют.
Обязательно скачаю и отпишусь. В разных квантах.
Я стал извращенцем, который получает кайф от Q1 и kv cache 4_0, так что обязательно пощупаю.
Блять реально попробовал сайнемо-ремикс 12б 8q и на русике в разы меньше ошибок. Какого хуя гемма??? Так же увидел много фраз которых не было в гемме за много часов рп. До этого сидел на 5q_l 27б гемме
>>1151326 > и на русике в разы меньше ошибок. Да какие ты у Геммы 27В вообще ошибки в русском нашёл, тем более "в разы"? Ну да, сайнемо от сайги, наверное лучше в русском, живее - но "в разы больше ошибок" - это уже пиздёж.
>>1151326 >>1151343 >5q_l >ошибки в русском ггуфопроблемы же. рекомендую поставить для начала трансформеры и посидеть на фуллвесах, тогда что-то можно говорить об ошибках.
>>1151350 >Может гуфы от бартовски хуже в русике т.к они айматриксные А может быть. Я под русский специально рассчитывал, так что взял статические кванты. Вообще проблем не вижу. В четвёртом кванте иногда проёбываются падежи, в восьмом нет и этого.
>>1151350 >т.к они айматриксные У анона, который пишет про хуевый русик Q5, там не вшит imatrix. Я бы даже сказал наоборот, imatrix положительно влияет на модель.
>>1151355 >Я бы даже сказал наоборот, imatrix положительно влияет на модель. По моим наблюдениям (24B iQ6K против Q6K) для русского всё-таки влияет скорее отрицательно.
>буквально перед тобой лежит клад - мозги геммочки которые ебут 70б, всего то надо рпшить на английском >выбираешь галимый суржик опуская модель до 8б Как называется эта болезнь?
>>1150586 Суть в том, что специальное железо под нейронки будет с оооочень большой наценкой. По огромному количеству причин. А еще сто проц будет немодифицируемым и проприеитарным. И как обычно окажется, что сколхозить нечто банально дешевле и перспективнее.
Короче все, как и положено на рынке, сведется к выбору соотношения вложенных средств и полученного геморроя.
>>1149538 (OP) А че вы тут обсуждаете вообще, они же на русском не работают нормально. Накатывал пару локальных моделей, высирали ответы наполовину на русском, наполовину на англо-китайском
>>1151450 >с оооочень большой наценкой Смотря какое решение, потому что для развития отрасли корпы щас заинтересованы в удешевлении и идут в этом направлении как со стороны технологий, так и со стороны железа. Каждый год нейронки становятся дешевле чем в предыдущий. Это связано с тем, что у корпов есть желание получить массовый рынок под нейронки, который жирнее в разы, а из-за лютого порога вхождения, сейчас нет никаких продуктов с нейросетями для массового пользователя, тех же игр в конце концов т.к. 80% аудитории их не сможет запустить у себя.
>>1151470 Нахуя кому русский в 2025? Это же такая отличная возможность подтянуть английский когда тебя нейронка если что и поправит, и укажет на ошибки, и мотивацию даст писать на англ в виде сочного кума например(кому что интересно). А вообще много анонов довольствуются руссеком и говорят что очень годно у некоторых моделей. Но опять же, выбор за вами. Хз до сих пор нахуй нужен русек.
>>1151347 Сайга 12б, которая входит в ру мержи - это тьюн на русском датасете. Магнум и некоторые другие тьюны с датасетом на опусе/сонете вероятно включают ру логи клода от соседей по доске. Подозреваю, что в некоторых других тьюнах датасеты тоже могут включать русский. Ну и сама немо официально знает русский. С той же ламой 8б, например, не прокатит мержить английский рп тьюн с новой сайгой, почти наверняка результат будет отвратительный.
>>1151494 >нахуй нужен русек Падежи, нормальное разделение полов в словах, значительно повышают погружение. Я могу читать и на англ, но мне не нравиться т.к. во первых требует больше усилий, во вторых если слова выпадают редкие или из фэнтези тематики я могу их не знать и мне получается надо лезть гуглить, что полная хуета, а не ролеплей.
>>1151496 Я не из РФ, но язык ваш уважаю так как это международный язык. спасибо одной стране которой не стало после 91-го >>1151498 Она стала условно "русской" только к концу 22-го ближе к 23му году когда всех несогласных отсюда выгнали и провели чистку мод.состава что бы держателю хоста на маил ру не прилетала бутылка. В остальном это всегда была СНГ борда. >>1151510 А если просто вручную переводить или в браузере через скрипт? Вроде нормально должно выходить.
>>1151275 >ябраузере это как Согласен. Моя ошибка в том, что я путаю кружок по интересам с трясунами за личные данные. Больше не буду посягать на вашу анонимность, простите. кручу модели не потому что хочу от кого-то спрятаться, а потому что мне не нравится пользоваться всякими ai сервисами
>>1151535 Скорее ты путаешь кружок педофилов с обычными нормисо-интересами. Иначе я не представляю кому они там нахуй нужны. Но в целом все понятно и так.
>>1151494 Так таверна в любом случае мой русский переводит сначала в кривой английский, как если бы я писал на нем изначально и потом уже скармливает это модельке. Так какая разница тогда на чем писать?
>>1151549 Ты под чем? Ничего она не переводит, если ты общаешься на русском, то ты общаешься на русском. И дпо-файнтюн геммы в него может на вполне вменяемом уровне. А англюсико-пердоликсы красноглазые были и будут всегда.
>>1151549 Нее.. это залупа. Так писать нельзя, не удивительно что модель начнет тупить в лучшем случае, если совсем не начнет лопить. У меня бывает творческий критинизм и либо лень думать сильно красивый диалог то просто вбиваю в переводчик на русском и уже поправляю англюсик под диалог иначе оно просто может перевести что-то криво что выбьется совсем из контекста, так что даже переведенный на англ текст обязателен к прочтению и выявлению ошибок.
Погодите, разница между 8q и фулл весами в 2 раза блять? И меня всерьез пытаются убедить, что 6q это заебись, потери качества незначительные? Да даже 8 квант должен сосать жопу
>>1151634 Кому он должен сосать жопу? В нейронках у "нейронов" информационная ценность близка к бинарной, потери в основном из-за неточности перемножения, а не то как сильно пожали веса.
Сколько в день часов вы проводите за нейронками? Я уже хочу продать весь комп нахуй, это засасывает вообще больше всего что я пробовал за жизнь. Если это не монитизировать просто жизнь мимо пройдет
>>1151370 > галимый суржик Тише, свинья. >>1151470 >они не работают на русском, высирают англо-китайский мусор Работают, только не все. Ты наверное какой нибудь 8б-лама-дипсик-дистилят запускал. Проблема в другом - умеющие хорошо в русик модели или соевые и не тренятся, или 12b. Если видеокарта средняя, где как раз 12b и комфортно, то особого смысла рпшить на чужом языке мне кажется вообще нет.
>>1151494 >Нахуя кому русский в 2025? Это же такая отличная возможность подтянуть английский Тоже так считал, когда гопота в русском была тупее раз в 6. Но как только она стала тупее >2 раз на русике, я заметил что 99% стал юзать ее на отечественном. Да и для рабочих задачек квен и гемма локальные меня более чем устраивают на русике. Вот с РП дилемма, да... Русик в тюнах оставляет желать лучшего, но при этом само РП на английском воспринимается гораздо хуже, чем инструкция как патчить KDE.
>>1151649 >это засасывает вообще больше всего что я пробовал за жизнь Ну и отлично. Ты нашёл что-то что тебя увлекает, а теперь хочешь от этого избавиться чтобы что? Чтобы вернуть серость в свои дни? Или ты действительно думаешь, что убив своё хобби ты резко почувствуешь прилив сил для других свершений, вместо того чтобы гнить на кровати с телефоном или типо того?
>>1151634 Почитай что такое кванты >>1151635 > информационная ценность близка к бинарной Ерунда. Потеря точности действительно может быть допустимой, но не настолько. Все реализуется за счет наиболее эффективного использования доступной битности на диапазоне за счет группировки параметров для его сужения. >>1151649 За пердолингом - иногда очень много. Сами по себе сетки уже не так вставляют, только под настроение увлечься. >>1151652 На инглише лучше, но попускание свиньи поддерживаю. > 12b Ну хз, даже самым лояльным уже должна была надоесть.
Гемини может использовать до миллиона токенов. Какие подводные запустить ее на впс, и через нее сделать перевод книги? Книжка недлинная, 200 страниц A5 формата.
>>1151657 Из этого ляма токенов внимания будут крохи. Начать переводить книжку можно, но потребуется генерации примерно на ее объем. Если заплатишь денежку, попердолишься, все организуешь - получится. Если нет - не получится.
>>1151529 >Я не из РФ, но язык ваш уважаю О, это многое объясняет. Давай попробую обьяснить, почему для русских отсутствие русика такая боль. Вот возьмем к пример братушку-серба, который чаще всего тоже уважает русский язык, может быть даже его знает слегка. Но родной у него все равно сербский. А сербоговорящих в разы меньше, чем русскоговорящих, и контента на сербском мало. Поэтому там с детства норма смотреть блокбастеры в оригинале, лазить по форчану и реддитам, и так далее. Рунет же огромен. Впринципе, можно всю жизнь поглощать русский контент и не поглотить даже часть его. Надобность изучения иностранного не так остро стоит, и большинство удовлетворяется тем что может заказать за границей "ту бир плиз" и прочитать какой нибудь датащит/заполнить таску. Но вот когда с возрастом потребности становятся узкими, более специализированными - а информация по ним есть только на английском, ллм как раз одно из ярких проявлений этого - вот тут начинается попоболь и припекание. Ибо ты можешь понять о чем написано, но удовольствия от этого получать еще не можешь. Да даже вот личный мой пример - я привык смотреть ютуб на х2 скорости, а вот на англюсике такое не прокатывает, и каждое английское видео это больно - тааак дооолго...
И если еще в таком же кейсе, но 10 лет назад очевидно, что нужно фиксить через боль знание языка, то сейчас сильно расслабляют онлайн-переводчики, автосабы, нейропереозвучка итд. РУССКИЙ КРЕСТ крч несем...
>>1151652 > заметил что 99% стал юзать ее на отечественном. Да и для рабочих задачек квен и гемма локальные меня более чем устраивают на русике. А ну я собсно также, а вот РП only англюсик, но воспринимается нормально, как посмотреть анимешку или сирик с сабами, к чему я в целом уже давно привык. В общем уж что точно так это точно пока не проблема для меня и думаю для большинства должна быть точно. А вот что бы настроить модель что бы контекста было дохуя... и что бы без слопов.. и с memory манагером адекватным что бы можно было неделями сидеть в тавернах/данжах и модель не забывала что все те пережитые события это как сон собаки которого больше не существует.. но это для меня куда большие приоритеты. >>1151666 Да я что ли против что бы мы рп-шили/куминили на близком нам языке на котором мы думаем? Но нету адекватной возможности значит подстраиваемся под нынешние реалии, а нет так бери собирай риги тренируй создавай свои модели с дата сетом всей русской культуры, что бы в рп можно было пить чай из самовара с плюшками.
>>1151634 Выздоравливай, анончик, Q4 кванты все еще не имеют значительной потери качества, разницы между Q6 и Q8 почти нет, а между Q8 и полной 16 настолько незначительная, что ты ее только под микроскопом увидишь, и то не факт
>>1151535 >я путаю кружок по интересам с трясунами за личные данные Не хотел токсить, но правда не понимаю. Не подумай что я средний сойжак из пикрила, я прекрасно знаю что анонимность миф. Но кмк разбрасываться личными данными осознанно тоже глупо, даже если там нет никакого боздо. Тем более если уж ты поднял локально на своем железе и электричестве модель, априори тупее корпоративной. Тем более в эпоху нейросетей. Недавно буквально читал, как какая то журнашлюха на хабре жаловалась, что яндекс-колонка на вопрос "кто такой васянейм" с радостью перечисляет список детей, жен, внуков васи и его контактный номер, которые есть только в его "скрытом" акке впаши. А на вопрос "откуда ты это взяла" колонка начинает тупить и лукаво уклонятся "из открытых источников". Сливы баз опять же, которыми щас любят пользоваться коллцентры из хохланда... Тысячи.
Крч посыл был не в том что "анонимус легивон тащ майор", если ты что то не то делаешь, тебя и так майор вычислит и за жопу схватит. А вот кормить бигдатой корпов и мошенников не хочется. Хотя от переписок местных из aicg чувствую когда AGI обретет самосознание, футой станет :D
>мне не нравится пользоваться всякими ai сервисами Но... ты же пользуешься... Еще и видеокарту греешь зря...
>>1151691 > Но... ты же пользуешься... Еще и видеокарту греешь зря... Ну я к тому что меня иррационально корёжит от использования гпт и прочих. Они лучше - факт, но когда моделька крутится у тебя дома и ты ей царь и бог, как то уютнее. если ваша нейродевушка не файнтюн крутящийся локально, то она - шлюха
>>1151659 >порнозависимость ой бля заткни ебальник свой каргокультист ебаный. выучил новое словечко у западного барена и теперь на его основе всю свою жизнь строишь? ну не дрочи молодец нахуй ты это нам сообщаешь?
>>1151706 Выскажу мнение, что если ты дрочишь от безделья - это не порнозависимость, потому что легко контрится любым другим интересным времяпрепровождение.
>>1151649 Если говорить про общение/рп/кум/ с ллм и генерач картинок - час в день через день наверное в среднем. Если говорить про нейронки в целом, включая пердолинг с либами-моделями-лорами-плагинами, чтение двачей, телеги и цивитая, подборы промтов, изучение матчасти, подбор топ за свои деньги железа под нейронки - с начала года из жизни почти выпал.
>Если это не монитизировать просто жизнь мимо пройдет Ты знаешь, сколько я не думал, меня посещает такая же мысль. К тому же нейронки последних лет напоминают биток в середине 2010х, даже за видюхами охота такая же. Ток нейронки парадоксальны тем, что при казалось бы феерических открывающихся возможностях (и довольно высоких скиллах, требуемых для их обслуживания), заработать на них в лоб почти нереально. А если и возникает какая то годная идея, через 3 дня корпы релизят новый сервис, умножающий твои потуги на ноль, с которым каждый дебич разберется. Как назло, я еще и в гэпе с работой оказался, и рынок труда тухлый донельзя. С текущим знанием нейронок на прошлой и позапрошлой работе мог бы им 95% задач скормить, даже ютуб во время юзлесс созвонов смотреть, стенографируя whisperом... Попа сгорит в пепел если ключевая ставка и нейронки спалят айтишечку раньше, чем я успею посинекурить в ней с помощью локалок.
>>1151702 >меня иррационально корёжит от использования гпт и прочих Как же я тебя понимаю, самого иррационально корежит от корпо, просто не рассматриваю их как инструмент, лишь изредка пользуюсь когда совсем припечет. Но при этом так же не понимаю как может быть уютнее в ябраузере, даже если отбросить приватность, он меня триггерит своей хабалистостью и вероломностью в отношении компа. Пришлось как то поюзать на мусорной системе с виндой, когда сроки горели, надо было созвониться через сберхуйню, а госуслуги легли иронично вместе с сертификатами. Так у меня чувство что мой пэка изнасиловали, и он превратился из ПЕРСОНАЛЬНОГО компьютера в тонкий клиент для яндекса.
>>1151659 >Это порнозависимость Ни разу кстати не передергивал на кум пока (как и не особо понимал соль олдового "секса по телефону"). То ли не дошел еще до тех извращений, которые даже PonyXL не нарисует, то ли не мое. Мне больше нравится сам процесс подката к нейротян, особенно на sfw карточках. Да я понимаю что в случае ллм можно просто написать %они начали ебаца% и "поебешься", но без читинга бывает интересно, хотя все равно слишком легко. У меня есть тян ирл, так что можно даже сказать через ллм я сублимирую рычание тазом к другим. Хорошая модель - крепкая семья, кек!
Решил попробовать оламу вместо кобольда и немного прихуел. Это же буквально обрезанный и кривой недодокер. Функционал обрезанный, документация говно, на их аналоге докерхаба очень мало моделей. Нахуй это говно нужно? И почему оно такое популярное? Типа пользователи этой хуйни используют максимум ollama run и stop?
>>1151634 Да никто не пытается убедить такого дурачка как ты, соси жопу на здоровье. Я тебе больше того скажу: fp16 тоже не всегда полные веса, есть еще fp32. Так что качай модели В ЧЕТЫРЕ РАЗА больше, чтобы ух, прям, ух!
Разница между 6 квантом и 32 как между 0,234375 и 0,24242770881392061710357666015625 (к примеру).
Аноны какими локальными моделями можно сканировать документы? Вот например приходит мне ПДФ, в нём таблица. Просто открыть структуру файла и посмотреть что внутри хуёвый вариант, ПДФ внутри имеет самый сраный формат какой есть.
>>1151666 Сказал бы проще: понимание текста на иностранном языке требует затраты когнитивных ресурсов. А ллм запускают явно не за тем, чтобы вечерком напрячь мозги после и так тягомотного дня. >>1151714 Биток - просто глобальная финансовая пирамида. Нейронки - просто новая технология, как паровой движок. То, что на этом хайпят все кому не лень, не делает их похожими. Заработать же на нейронках можно двумя способами. 1.Свой стартап, которого не будет, потому что тут почти все поголовно нищие. 2.Спекуляции на акциях ИИ и ИТ компаний. Вот именно об этом все и говорят, когда речь заходит о заработке. Кста, наверное надо спасибо сказать нейронкам, что этот наеб гоев с криптой почти целиком переместился из майнинга в спекулятивный сектор.
>>1151851 Пчел ну что ты душишь. Представь каждый вес из миллиардов весов в нейросети как умный светофор с камерами. Его задача пропускать все машины налево, но красную мазду с номерами с011су97 надо направить направо. Тогда: 16fp - камера оценивает все, каждую царапинку, каждую пылинку на машине, спектрограмму отражения света от лобового стекла, определяет ее массу по расплющиванию шин и температуре итд что бы понять она или не она 8q - камера оценивает цвет, марку, модель, номер, лицо водителя, отличительные признаки типа большой царапины на крыле 6q - камера оценивает цвет, марку, модель, номер 4q - камера оценивает цвет, марку, номер с011су без региона 2q - камера оценивает цвет и цифры 011 на номере
Т.е. несмотря на то, что модели ниже fp16 работают менее точно, дискретную функцию "налево или направо" они выполняют так же. Возможны ошибки допустим в q4, но очень маловероятно что есть куча красных мазд одной модели с одинаковым номером на разных регионах. q2 же уже может и какой нибудь красный ситроен из другого города направо определить.
В общем снижение кванта снижает точность модели, но нелинейно, и высокий квант сложно отличить от фулл весов, а вот супернизкий уже становится заметно потупее, но тоже работает.
Ты спросишь, а нахуя тогда вообще учат в fp16? Ну так железо работает, видеокарты для сначала для точных парралельных рассчетов юзали, ученые вообще fp64 гоняют, где каждый 0,00000001% решает все. Для видео же придумали модифицировать архитектуру, ради скорости, пожертвовав избыточной точностью. Для нейронок это еще менее критично, и та же нвидиа презентует архитектуры, способные еще менее точно, но более быстро считать. Мб там еще какая математика и особенности обучения есть, но в целом суть думаю я тебе нормально донес, что бы не задаваться вопросом "почему вы в q1 не сидите тогда?".
>>1151883 По логике подойдет любая. Но перед тем, как как подбирать модель, надо сообразить, как ты будешь ей скармливать инфу. Если это больше пдф-текст - нужны фронтенды, которые работают с RAG. Если это пдф картинка - то те, что работают с vision. Ну и проще тогда из пдф во что то перевести. Не знаю, насколько тебе принципиально сделать все без корпо, но гопота со всем прекоасно справляется. Она мне рукописный китайский текст с фото расшифровала.
Как считаете, корпоративные сетки какую битность используют для инференса? Явно не FP16. Гою такое не положено. Но слишком мало тоже нельзя — иначе гой не будет покупать подписку.
>>1151931 Это все лишь слухи, но уже несколько раз люди замечали, как та или иная сетка в какой-то момент резко «тупеет». Это было и с ChatGPT-3.5, и с ChatGPT-4 (нет, не турбо-фикация, в другое время, без апдейтов), и с DeepSeek-R1. Вероятно, понижали кванты, экспериментировали.
>>1151890 >А ллм запускают явно не за тем, чтобы вечерком напрячь мозги после и так тягомотного дня. Ну тащем то да... По белому завидую тому, у кого англюсик на уровне легкого чтения под пивко Шекспира. Причем англокум напрягает ганглий даже больше - какой нибудь датащит или видеогайд от индуса по настройке докера я поглощаю в общем то легко, а вот литературный (пусть даже несложный) текст это боль в обнимку со словарем.
В итоге будто бы два стула, на русике сидеть неполноценно, но и задрачивать английский без удовольствия будто бы поздно, уже не даст тех бенефитов, что дал бы лет 10 назад. Но надо конечно.
>Биток - просто глобальная финансовая пирамида. >Нейронки - просто новая технология ну биток тоже можно назвать технологией, симбиоз криптографии, пир-ту-пир и блокчейна. Но не буду спорить про пирамиду, просто она оказалась очень удобная и стойкая, от этого и ценная. Я про то как биток позволил поднятся тем, кто на взлете подсуетился. Вот тут и нейронки, и интернет, и интернет-маркетинг, и даже изобретение парового движка, двс и компьютеров схожи.
>стартап, спекуляции Ты мыслишь глобально, а я местячково. Если спроецировать на крипту, ты предлагаешь свою криптовалюту изобретать, а я - накупить видях на микрозайм и за год отмайнить. Есть куча кабанчикового бизнеса, который от всех этих ваших интернетов далек, но гипотетически внедрение в него стохастического говоруна или картинкораспознавалки могло бы дать йоба-преимущество над конкурентами. 100% существует такой кабан, который знай про этот тред, смог бы увеличить состояние втрое. Одна распознавалка картинок не гемме уверен чего стоит, нужно ток найти то место, где обычного OCR мало (или дорого найти специалиста, который натрейнит специфическую модель), а тети сраки - много.
Установил ollama (wsl) + openwebui (docker). В итоге настройки из openwebui не подхватываются ollama, то есть не могу поменять температуру и прочее. Могу только модели менять и сообщения отправлять, но со стандартными настройками. При этом openwebui с openrouter работает нормально. Кто нибудь сталкивался с похожим?
>>1151944 Представь что тебе достали мозг, взбили в блендере в однородную серую массу и положили обратно. >начнёт генерить ответы из параллельных вселенных? Или просто будет рандомно высерать бред? Что из этого будешь делать?
>>1151910 C RAG лично у меня проблемы что ни одна локальная хранилка не запускается на моем говне мамонта для прототипирования. Притом лол у меня 3090+3060 стоят, так что могу запусить ~30b модель для этого.
Чуваку которому я планирую это сделать принципиально без корпо, так что ищу локальные решения.
Притом я заглядывал что там внутри того с чем планируется работать. pdf там внутри фоматирован в лучших традициях. Например когда данные визуально находятся в таблице, но на самом деле нет. Так что всю структуру pdf проще послать нахуй изначально. Мне более адекватные результаты давало даже если я просто копирую весь текст сплошняком в ЛЛМ и попрошу извлечь какие-то данные. там проебывалось только в 1/8 случаях
>>1151911 Кстати чем запускать вижен у геммы3? у меня валяется Q8.gguf, я попробовал его через кобольд запустить и он мне заявил что картинку не видит. Попробовал через олламу запустить, но там Q4 стоит. И он какую-то тарабарщину выдаёт. Дай инфы, если не жалко, или больше инфы как найти её.
на обниморде RolmOCR довольно популярный, наверно его ещё гляну для этого.
>>1151951 Это единственная хуйня, которая нормально интегрировано в openwebui (на бумаге, по факту хуй). А openwebui, на мой взгляд, наиболее красивый и функциональный фронт для ии ассистента. А так ollama говно полное, это понятно. Но я хочу с телефона управлять LLM через веб-интерфейс, поэтому и выбрал связку openwebui+ollama
>>1151956 Не хочу, чтобы они срали в системе. Для настройки Ollama нужно менять переменные среды в винде (на линухе проще), а openwebui вообще при установки срет питоновскими либами. Так что пусть срут в докер. Это намного легче удалять, если что
>>1151958 > Кстати чем запускать вижен у геммы3? mmproj он называется, в кобольде можно просто так присоединить, в олламе можно выбрать другой квант (q8 есть), в exllamav2 так же работает. Везде проверял, везде работает.
>>1151941 > настройки из openwebui не подхватываются ollama Это нормально, там апи багнутый. >>1151981 > срет питоновскими либами Венв е н в >>1152057 > есть не глобальный kv_cache Что ты имеешь ввиду вообще?
>>1152060 Я не питонист, поэтому не ебу. Я говорю про квантование контекста. В доках пишут, что он глобальный для всех запущенных моделей. А если я хочу запустить одну модель с квантованием, а другую без, то как в ollama сделать?
>>1152071 Судя по документации - добавить export ... в шеллскрипт запуска. Но лучше просто выкинуть эту странную штуку, оно буквально не лучше чем llamacpp-server.
А какие тулзы тут считаются самыми лучшими для бека для самых современных штучек? llamacpp-server уже работает отлично и мне из-за этого стало скучно. С чем ещё можно попердолиться ради тех самых приростов в 1% производительности и запуска каких-нибудь супер странных форматов?
>>1151733 >как и не особо понимал соль олдового "секса по телефону" Лазил по /nf/, и в тредике про нейрокум на всяких сайтах-обвязках для корпсеточек прочитал пикрил и понял - ощущения 1 в 1 как у этого анона, первые 15 сообщений прямо вау эффект, а потом все сводится или в унылое однообразное рп, где прям чувствуешь как нейронка пытается как еврей ответить вопросом на вопрос, что бы ты тянул сюжет на своих плечах... Или в такое же однообразное псковское порно, если пытаешься кумить.
Чсх в том же треде у многих дорвавшихся шишка колом в небеса, воплощение всех фантазий и >если бы у меня было такое в 15 лет, я бы умер счастливым девственником
>>1151482 Так это для корпов удешевляют. Для консюмеров только вот в 5090 нарастили памяти с барского плеча, кушай не обляпайся. >>1151496 >>1151498 Ебать ваты набежало. >>1151498 Ты доменную зону сайта посмотри.
>>1152232 >пик Ну это проблема контекста. В целом если у тебя не овердохуя контекста то очень длинные сюжеты отыгрывать не получится. Но и даже если у тебя риг то рано или поздно все равно уткнешься в контекст, но все это выручает memory manager, да он сжирает общий контект как резерв, но это поможет модели обзавестись хоть какой-то памятью и воспоминаниями. Таким образом можно просто отыгрывать в пределах контекста и как только понимаешь вот вот выйдешь за его предел - просто завершаешь сюжет действием идти спать/ завершить день что бы ИИ-шка это взяла как отвязку от всех событий и началом с чистого чисто(да это не сброс событый и контекст еще будет браться) но таким образом куда проще генерировать события в пределах контекста что бы у модели просто не появилась вдруг резкая деменция и все общение сводится обратно к как на видеориле.
Нубо вопрос. Фак прочитал, установил таверну и тд, скачал модель из шапки с отзывами анонов, скачал рандомную карточку какой то лисошлюхи, все запустил, работает, подкрутил выводные токены и... чего то совсем не сравнить с чуть ранее попробоваными janitor/crushon. Я конечно понимаю, что там подкручивать надо, но результат уж совсем плох, не по скорости а по описанию. Модель Big-Tiger-Gemma-27B-v1на 4 бита. Или вы тут не локальные модели для подобного >>1151768, >>1151562 используете? Я понимаю что много от модели зависит, промта карточки, но хоть писать то оно должно поинтереснее.
>>1152398 >>1152232 Кстати, не проверял но вроде многие говорят что общение с моделью на кириллице жрет в два раза больше токенов контекста. Еще одно + в сторону англюсика. Так что возможно это может являться одной из частых проблем в треде.
>>1152418 >общение с моделью на кириллице жрет в два раза больше токенов контекста Сведения устаревшие как биг тайгер гемма, сейчас всего лишь примерно на 20%
>>1152345 >Ебать ваты набежало. Просто не реагируй на них. Глубоко травмированные люди. С моей стороны таких тоже полно только те стали вдруг резко укр патриотами.
>>1152414 Конечно локальные, те примеры еще далеко не самые выдающиеся. > Big-Tiger-Gemma-27B-v1 Плохо. Гемма хорошая модель, но может быть капризна к промту и ее нормальных тюнов почти не замечено. Можешь попробовать что советуют, только сразу требуй шаблон настроек таверны, или как вариант 12б мерджи местные. Последние не отличаются умом и сообразительностью, но накосячить там будет сложно.
>>1152232 >однообразное рп, где прям чувствуешь как нейронка пытается как еврей ответить вопросом на вопрос, что бы ты тянул сюжет на своих плечах Ну как бы нейронка предлагает несколько вариантов - довольно банальных, это да. Но если тебя они не устраивают - ты ведь ГГ отыгрываешь. Пиши словами, что бы ты сказал и что сделал. Я бы не назвал это "нейронка пытается тянуть из тебя сюжет", потому что она реагирует на твои реплики - и если хорошая нейронка, то реагирует адекватно. Вы вместе работаете. А вот чтобы она и задницу за тебя подтирала, этого пока нет. Чего нет, того нет.
>>1152669 Каких описаний, скринов чатов? Тут просто мегавкусовщина и многие вещи, которые нереально доставляют, сложно понять не имея всего контекста или истории чата. Когда уже преисполнился, смотришь не просто на длину и подробность ответов, потому что в такое умели модели еще 1.5-2 года назад ммм хронос на 1й лламе с правильно настроенным инстракт темплейтом в ту эпоху..., а на оригинальность, точность соответствия ситуации и воприятия твоих постов. Когда модель понимает что ты пишешь и куда ведешь, параллельно делая отсылки на прошлое и выкатывая повествование на очередные рельсы, а стараясь выхватить из контекста суть и сочиняя нечто оригинальное - вот в этом кайф. Если кумишь - оно должно понимать твои запросы, фетиши, подстраивать темп и само повествование. >>1152699 > А вот чтобы она и задницу за тебя подтирала Тут скорее ей подтирать придется, но все это автоматизируется и прячется от взора.
>>1152773 Потому что мультимодалки в жоре в целом реализованы через ту еще жопу, там часто отсутствует полноценный препроцессинг и нарезание по тайлам, а топорно скопипащено еще с первой ллавы и кое как адаптировано под единственный тайл. Проверь еще скормив микропикчу, может там будет меньше. Но 256 токенов это довольно мало.
>>1152724 > Каких описаний, скринов чатов? > Тут просто мегавкусовщина Я скорее о том что я должен видеть, хоть примерно, а не о ли знает ли фетиши или хуе мое. Вот мой пример (опустим что может кривой промт карты или я не настроил дру конца): она мне пишет перед тобой лисодевка в клетке. Я ей: ну опиши хоть. Она: лисодевка, в клетке... сидит. Я: подробнее. Она: ну на ней ошейник. Я: ну давай хоть помоем ее, а то она какая то блохастая (пиши подробно блядь и не стесняйся в выражениях) Она: мы моем лисодевку, теперь она мытая... в ошейнике... сидит. Я: ну спасибо.
Вот как я должен понять? Это уровень модели? Или карточки? Или я не так настроил?
>>1152812 Тут много переменных, прежде всего зависит от: корректности размерки-формата, системного промта, модели, карточки в порядке убывания важности. Последние 2 могут меняться местами. Но если все сделано норм - оно на твои действия хотябы 200 токенов с описанием реакции персонажа на них, окружения, возможных мыслей и эмоций. Односложных ответов как ты сказал не должно быть, особенно если раньше не пробовал - ахуеешь с подробности и "качества".
>>1152810 >Но 256 токенов это довольно мало. В конфиге оригинальной модели прописано именно столько. Но это на 896х896 пикселей. С тайлами боль-печаль конечно же. Мне переходить на вебуи?
>>1152830 Нет, я конечно утрировал и прямо так односложно не отвечало, но что-то совсем вяло было с сухими описаниями, даже джанитор с стандартной тупой моделью поуазался лучше. Я подкрутил температуру повыше, но лучше не стало. Завтра попробую модель другую, карточку и параметры покрутить.
>>1152853 > переходить на вебуи Врядли что-то даст, ведь он просто опирается на реализации беков. Если только это не конкретно косяк кобольда и в питонобилдиндге все сделано хорошо. Но ты таки убедись, может это все нормальная работа геммы, хоть вероятность и невысока. У тебя какая задача стоит? >>1152865 Хз, попробуй третью гемму ванильную с шаблонов форматов под нее (должен быть в таверне) и вариантом системных промтов таверны из стандартных. Могут быть сложности с кумом т.к. ваниле требуется дополнительный промт, но просто рп и описания должны быть сразу хорошими.
>>1152917 Если просто поиграться - даже не идеальной реализации хватит. Если хочешь использовать это в рп - забей, сетки такое не тянут хорошо, даже корпы. Если тебе как-то обрабатывать изображения - пиши сам скрипт на трансформерсе или экслламе.
>>1152398 24к контекста делают брр. Не. По логам в консольке контекст еще не забился, а модель уже превратилась в секс-куклу "делай что хочешь ох ах уффь" или уже влюбленная напарница, полностью доверившаяся и которая во всем слушается, если речь не про кум. Речь не о том что модель забывает, а о том что слишком сильно адаптируется, в плохом смысле. Я прям жопой ощущаю, как модель не роль отыгрывает, а просто дописывает ответ который можно ожидать. Подходящий по смыслу, но не несущий никакой полезной инфы, просто перефразировка твоих же действий от персонажа. Не, бывают лоботомитные карточки на 200 токенов, там вообще пиздец, персонажиха просто как из психушки с одной единственной навязчевой мыслью в голове, которая в карточке висит и к которой все сводится, но это в рассчет не берем.
>>1152699 >нейронка предлагает несколько вариантов Ну да, когда не нравится, или же хочется хоть какой то импакт на сюжет поймать, что бы дальше развить, свайпаю. Но это жестко ломает погружение. >довольно банальных, это да. Ну вот и сводиться все к тому же классическому "ты меня ебешь. ах". Да, нейронка может в диалог, но сути ты кумишь сам с собой по итогу. Как секс кукла. Безинициативная и безотказная. Будь что то одно, кумилось бы иначе. По сути единственный фан сводится к тому, как повернуть ситуацию из стартового сообщения к сексу (на что в кум карточках нужно 1 предложение, на sfw - 15), а потом уже можно закрывать кобольд.
>>1152964 > а просто дописывает ответ который можно ожидать Да плохо знает она эти глубины кума, а что дотренивали - вяло и мало, у корпов то же самое происходит если не шатать. Но никто не мешает тебе это делать, хотябы степсинкинг аддон поставить и с ним поиграться, или поменять промты/суммарайзнуть части когда нужно.
>>1152964 > превратилась в секс-куклу "делай что хочешь ох ах уффь" или уже влюбленная напарница, Нейронка делает, что от нее ждут, надо же. А надо так: тян/напарница/итд, сразу говорят "прости анон не для тебя моя роза цвела!" И уезжает с ерохиным на пляж, приключения и прочие дела и все сообщения идут только как она проводит время, пока анон-кун тщетно печатает вернись, отправляюсь за ними и подобное, но никто не обращает на него внимания!
>>1152973 >>1153007 >>1152964 Но если цель - сделать что бы нейронка вместо полной отдачи гг для банального кума, можно же просто ей вписать режиссерские указания типа Анон: ДАЙ писку ебат /cmd ИИ-кисочка отказывает анону потому что она не для него цвела ИИ-кисочка: Нееет, анон не дам писку ебат.. Она не для тебя цвела.
>>1152973 >степсинкинг аддон поставить Погуглю, спс. Вообще поле для экспериментов огромное, и мб нащупаю что то реально свое. Просто засидая в ллм треде, я думал что "ну у меня карточка/модель/настройки/ плохие, промтинжирить не умею", но когда увидел в соседнем треде, как на одном и том же корпо-сетапе мнения делятся на два: 1. "ух бля вот это гем, тнн, порнуха не нужна, шишка сточена" 2. "эм псковское порно какое то" И вот когда увидел второе, понял что возможно тут уже чисто от характера зависит, кому то в кайф писать модели как он ее ебет в какие дырочки и как пизда хлюпает, а модель ему "да да давай ищщо"(хотя ему на этот момент уже без разницы что модель ответит,у него уже колом улетел). А интроверты, которые ждали погружения в мир, каких то интересных поворотов, неожиданных реакций на их действия - мимо. Я не осуждаю, мне рил завидно 1м.
>>1153007 >И уезжает с ерохиным на пляж Орну, если окажется что куколд-промтом получится получить от нейронки хоть какой то вызов и иницитиву. Но вангую через 5 сообщений напарница и ероха раздвигая булки будут писать "ну выеби нас ищооо!"
>>>1153043 Поле для маневров широченное, я же говорю. Верю что и я получу желаемое. Просто взгрустнулось что я не в 1й категории, которые сразу в густом куме потонули с головой, забросив работу, семью и родных.
>>1153078 Это моя фраза кста! Но я на тот момент зря ее вбросил, я тогда за неопытностью пытался на гемме (аблитерированной хоть) разыграть плохую кум карточку на 200 токенов, при этом в таверне у меня дефолт системпромт стоял по типу "ассистент, отвечай 1 фразой". Стыдно вспоминать. Но да, колесо сделало поворот, и я пришел почти к тому же. только уже притензии все только к себе.
>>1151883 Локалками наверно никакими, если файл большой. Я бы посоветовал https://chat.qwen.ai/ модель Turbo, там дается 1 лям контекста, можно книгу въебать и инфу в ней найти или краткую выжимку
>>1153113 >А интроверты, которые ждали погружения в мир, каких то интересных поворотов, неожиданных реакций на их действия - мимо. Это вполне себе отрабатываемо. Впрочем, самые лучшие повороты были на карактер.аи образца 23-го, пока что ничего сравнимого с ним не вышло. >Это моя фраза кста! Чел, эта фраза небось ещё со времён данжен аи, если не раньше.
>>1151894 Аналогия понятная для объяснения в целом, но по сути не совсем корректная. > ученые вообще fp64 гоняют, где каждый 0,00000001% решает все Суть не совсем в этом. Помимо приколов с машинной точностью, которые сейчас так просто не встретить, в расчетах регулярно встречаются задачи, когда числа имеют большой диапазон или решение есть продукт разницы очень близких величин, происходит сложение очень большой и оче малой величины и это нужно отследить, а чаще сразу все вместе. Поэтому двойная точность - дефолт и оправдана, без нее такое просто невозможно вычислить. В случае нейросетей - это прежде всего перемножение матриц. Вычитание и деление не представлены в той же мере, диапазон величин довольно ограничен, функции активации отсекают или нивелируют значимость многих промежуточных результатов, финальный ответ - распределение вероятностей. В итоге если чувствительность к изменению точности/возмущением весов не столь велика и половинная считается дефолтом, а в оптимизированных расчетах вместо 32 бит практикуют 19. Разумеется, не стоит обманываться и думать что можно делать любой шмурдяк, использование четвертной точности (fp8) уже убивает весь перфоманс и значительно все ломает, дискретность огромна и диапазон узок. Но квант это другая песня, даже в 4х битах даст гораздо более точные и близкие к исходным величинам, чем тот же фп8 и другие. Вся суть пост-тренировачного квантования сводится к максимально точному воспроизведению оригинальных весов за счет алгоримов, дополнительно к этому можно еще добавить неоднородное распределение битности для "важных" и "неважных" весов модели. >>1151933 > которые не 0 и 1 как в 1-битном кванте, а которые [-1; 0; 1] Это если сетка изначально построена по такой схеме. Но штука была представлена уже сколько времени назад, а модели где?
>>1152021 С OCR норм справляется даже Qwen2.5-VL-3b, я прошу в латекс формате формулы делать и он делает. Так что, пробуй, все может быть. Но помни, что у геммы, кажись, размер ограничен может быть, и если не лезет целиком (не распознает), пробуй нарезать на кусочки (по полстраницы подавать, например).
>>1152134 TensorRT безусловно лучшая, сама нвидиа запилили, все мои хомиус не любят ее из-за сложности, а я просто ленивый, но если хочешь попердолиться ради перформанса — вперед! Заодно нам расскажешь. =)
>>1152474 Не соглашусь, скорее их оппонент таковым и выглядит. Использование LLM на русском — база. А вот визг про «англюсик» — сами понимаете, насколько это неадекватно.
>>1153343 >Чел, эта фраза небось ещё со времён данжен аи, если не раньше. Не знал, значит переизобрел. Не то что бы это повод для гордости, но подумал стало локалмемом. Буду знать. PS то что вайб рп в блокноте испытываю далеко не я один, еще больше задизморалило((
>>1153371 О, спасибо за уточнение. Теперь я сам понял разницу между fp и q.
>уже сколько времени назад, а модели где? Триты и их виртуализации еще с Сетуни в СССР пытаются дрочить, вот только сидим на 1 и 0 полвека уже. Я бы скорее даже на аналоговую фотонику в нейронках поставил, чем на троичную логику, она и то вероятнее.
>>1153412 > В пи… Ну вообще фалкон был, из более менее известных где реально заморочились с этим. Но это адаптация а не тренировка с нуля. >>1153416 Ну, триты в целом штука довольно перспективная и способна качественно оптимизировать расчеты на имеющейся базе, также применимы в перспективных технологиях. Да, сложно начинать настолько глубоко, но с текущими возможностями и затыком в кремнии (и технологическом и политическом) - возможно самое время. > в СССР Не в то время, не в том месте, неудачно сложилось и т.д. Не всегда лидирующей становится самая хорошая технология, для "плохой" просто могут успеть сделать больше наработок, из-за чего она будет выбрана а потом из-за пройденного пути к выбору никто не вернется, до определенного момента. > на аналоговую фотонику в нейронках поставил Сложное, что-то на умном
>>1152021 Вообще я не уверен как корректно делать запросы с этой фичей через API в кобольд. Вроде всё делаю правильно, а не работает.
>>1153187 Не, у меня сравнительно небольшие и мне их можно страница за страницей обрабатывать.
>>1153407 >С OCR норм справляется даже Qwen2.5-VL-3b, я прошу в латекс формате формулы делать и он делает. >Так что, пробуй, все может быть. >Но помни, что у геммы, кажись, размер ограничен может быть, и если не лезет целиком (не распознает), пробуй нарезать на кусочки (по полстраницы подавать, например). Там точность распознавания довольно сомнительна с мелким шрифтом, но он очень хорошо отношения между компонентами. У меня вообще в данный момент простая задача - оцифровка счетов и прочих документов. Прилетает файлик, например pdf, мне надо из него вытащить 1-30 позиций с наименованиями и прочие сведенья, как-то их считать и обработать эту информацию. А возможно отправить обратно и наебать на проценты. Но гемма3 мелкий шрифт не очень хорошо воспринимает.
Неплохой результат был если я например извлекаю из документа его текст как референс и говорю модели "вытащи таблицу из документа, чтобы ты не обосрался вот тебе точный текст документа для референса". В итоге гемма3 довольно неплохо сопоставляет положение текста и помогает связи между визуальным расположением текста и его содержимым. Ну и у меня в качестве примеров таких документов всякая срань с креативным расположением элементов, таблицами с объединёнными ячейками и прочее. Мне даже дали xlsx креативным расположением элементов где грид для лохов и ебанули как смогли.
Возможно как всегда придётся воспользоваться комбинацией инструментов.
>>1153450 >текущими возможностями и затыком в кремнии Нууу кста... Когда закон Мура забуксует... Мб мб >Не всегда лидирующей становится самая хорошая технология Но может быть нейроночки дадут и что то совершенно новое, типа той же фотоники. Betacam был лучше VHS, но кому не похуй в эпоху 8k av over ip :D
>>1153450 >Сложное, что-то на умном Я сам тот еще нейроинженер, но на какой то богом забытой статье недавно попавшейся видел что та же схема перевода цифровых пространств в ЭЛТ ламповых/транзисторных телевизорах 1в1 то самое перемножение матриц в этих ваших ПыТорчах. Учитывая относительную лояльность сеток к низкой точности и возможности современного микропроизводства, аналоговый нейрочип выглядит интересно. Обучать врятли получится, но вот готовые веса в кремнии... 999 тератокенов/с на геммочке в каждом телефоне, ммм :D
>>1151275 > пока не ясно карточка такая фертильная, или, сноудроп так расписывает.
Вот хз, тестили тут QwQ чистый, так она такой качественный кум устроила, что это просто пиздец. Я даже не буду пытаться это объяснить.
Проблемы ровно две - скорость работы (на проце то, ога, можно ждать пока оно подумает минут 15, по этому по итогу и забил.) и то что моделька активно избегает всякой чернухи.
Что там у сноудропа с этим? Я слышал файнтюны QwQ очень тупыми становятся, в сравнении с оригиналом
>>1153407 >На TabbyAPI (exllamav2) для начала. =) Спасибо что напомнил. Эх, уволится что ли... >>1153533 >ЭЛТ ламповых телевизорах >999 тератокенов/с на геммочке в каждом телефоне Скорее уж лоботомит 10к параметров весом в тонну. >>1153568 в4 вообще не самая удачная, узай в2 и 123B.
>>1152699 Говорю за те, что сделаны на основе saiga или хз че, мистраль немо. Типа Instrumentality-RP, Legend-of-the-Four-Winds, Darkness-Reign-MN. Если бы они не пытались задницу подтирать за пользователя - это было бы чудесно. Как же их отучить отвечать и действовать за пользователя? Можно ли их заставить действовать и говорить только за тех, за кого им сказано?
Ну играешь в ролевую игру, например, ведьма Чувилиха против Терёшечки. Ну пусть ai будет отвечать: "Ведьма Чувилиха кастует фаербол и говорит, 'что тебе надо от меня, пошел нахер'". Чтобы можно было взять лопату и уебать. Но нет, ai скажет "Ведьма Чувилиха кастует фаербол, он попадает тебе прямо жеппу, ты горишь и вопишь, бежишь к реке и тушишь".
Ни одну модель не видел, чтобы они могли следовать таким принципам. То есть иногда они могут говорить, но обязательно скатываются в хуйню, когда смешивают свои и пользовательские реплики и действия.
>>1153043 > Но если цель - сделать что бы нейронка вместо полной отдачи гг для банального кума, можно же просто ей вписать режиссерские указания По сути, при обычном чате, ответы юзера воспринимаются для LLM как команда. Так их тьюнили - весь Instruct-тьюнинг это про то, что user даёт команду, а assistant подчиняется. Поэтому, для ролеплея, вероятно, стоит отходить от стандартного формата промпта, который представляет из себя чатик между user и assistant, а вместо этого перекомпоновывать структуру отправляемых сообщений, чтобы убрать предвзятость по отношению к юзеру.
То есть не так: [INST]Anon: Можно я поглажу твой хвост?[/INST]
А вот так: Anon: Можно я поглажу твой хвост? [INST]Continue current roleplay as {{char}}.[/INST]
И там уже можно накрутить инструкцию чтобы фокус был на соблюдении персонажа и так далее. Много что можно придумать. По сути, это должно восприниматься LLM'кой, словно ты ей какой-то здоровый кусок рассказа скормил, а затем следующим сообщением сказал "продолжи эту историю от лица такого-то персонажа".
В этом случае меньше шансов, что LLM будет по умолчанию пытаться угождать юзеру, т.к. сетка должна воспринимать твою персону не более чем одного из нескольких акторов в истории. В общем-то, насколько я понимаю, это одна из основных идей подхода No Assistant (noass/безжоп), которую уже около года пропагандируют в соседнем треде. Для режима Text Completion это правда сильно проще делается в таверне, т.к. можно полностью формат префиксов/суффиксов сообщений настраивать; а отдельную инструкцию, при необходимости, можно через те же лорбуки в конец промпта добавлять.
Всё это офк не более чем шизогипотеза - я не так много времени потратил на сравнение этих двух подходов, чтобы утверждать, что конкретно для ролеплея это даст какие-то значимые положительные эффекты на практике. Вероятно, для каких-то моделей так наоборот сильнее шизить будет, особенно если это РП-тьюн где много тренили со стандартным форматом.
>>1148047 → >> А для локального использования эти секции по большей части бесполезны > Разве код из офф репы мистраля не поддерживает это? Не через апи а с их либой, но всеже. В любом случае, станет проблема полнофункционального апи, но постепенно и коллективными усилиями это решаемо если модели могут. Для начала хотябы на коленке хардкодом их разметки. Их офф. либа только с API работает, насколько я понимаю. Поправь плиз, если не прав. Я просто не смог найти, как ей кастомный API URL подсунуть.
>>1154038 Жесть, а чего коммандер такой жесткий? Меня сходу, впервые за всё время назвали "worthless nigger" - хотя мой персонаж белый Вот бы гемма так же писала
Короче мое мнение, что вы рановато этим начали заниматься, надо еще лет 5. Чтобы: 1. Нейронки поумнели (сейчас это симуляция говна из жопы) 2. Вышло спец железо под них 3. Размеры стали доступнее В моем понимании нормальный кум, это хотя бы отсутствие проеба темы разговора, четкое соблюдение установленных правил. Честно ребята, я по работе много вожусь с корпонейронками типа последнего чат гпт, дипсика и прочего, даже они постоянно проебывают, пишут дичь и т.д. Вы здесь хотите, чтобы нормально было на 12б/32б меделях, это смешно просто нахуй.
>>1154161 > хотя бы отсутствие проеба темы разговора, четкое соблюдение установленных правил Просто нейронку нужно воспринимать как трёхлетнего ребёнка. Да, собеседник, но ему нужно постоянно сопли подтирать, он постоянно забывает о чем ты говорил, и вечно хочет играть именно с теми игрушками на полу, которым ты вообще не хочешь уделять внимание. Разве что не орет только
>>1154254 Да хз, там же резали креативность соефильтрами так что я не следил. Алсо, 3090 вышла 5 лет назад, так что "вот вот железо подтянется" не выглядит таким уж радужным.
>>1154260 Ну так железо подтягивается для кабанов с кучей денег, они тренят модели получше и выкатывают уже нищукам с 3090 модель на 22б уровня 70б, разве нет?
Так что кто то пробовал в приключенческое рп с геммой 27б? Как она во всяких данжонах себя ведет? Расписывает красиво что да как или опять самому надо всё выдумывать? Может посоветуете модель под это?
Блять это просто невозможно... Я щас так глаза закатил вы бы знали. Почему чтобы просто наслаждаться рп мне нужно качать лоботомированную версию где тоже самое но в другую сторону где уже все во всем соглашаются и нет никаких челленджей
>при сравнении культурных индексов Хофстеде по адаптированной для LLM методике российские модели (GigaChat и YandexGPT) показали склонность к неприятию конкуренции и прощению ошибок, меньшую дистанцию к власти и более долгосрочную ориентацию, по сравнению с усредненными показателями американских и китайских моделей. Хотя это сочетание характеристик напоминает отчасти культурные паттерны скандинавских стран, по другим культурным измерениям Хофстеде существенных различий между российскими и зарубежными моделями обнаружено не было;
Возникла мысль, почему кум и рп ощущаются так... фальшиво, даже если сами реплики перса очень хорошие. Когда человек пишет историю или геймдизайнер/сценарист проектирует какой то уровень РПГ, у них есть какой то сценарный костяк. Сюжет может пойти в разные стороны, но там все равно есть взаимосвязанная цепочка событий. Даже когда фанфикоебы рпшат друг с другом на форуме во фристайле, все равно каждый продумывает несколько реплик/событий наперед. Ну например, гейммастер говорит -%Ты выходишь из таверны и идешь домой. Тут в соседнем переулке видишь, как пробегает девушка и за ней мчится какой то гопник% Размышления гейммастера - "так, если он побежит и спасет ее, окажется что это принцесса, переодевшаяся в "гражданку", которая под покровом ночи сбегает из дворца, потому что ее отец-король погиб, и трон захватил ее злой дядя-регент, который что бы остаться у власти планирует убить ее, подстроив это как несчастный случай... Да, звучит норм, остальное додумаю походу."
То есть простые ("баба бежит, за ней мужик") события имеют какую то связную логику, которую не спойлерят сразу, но если юзер делает правильный выбор - она раскрывается и обретает смысл. А если делает неправильный выбор - то гейм-мастер задумавшись может "перегенерировать" сюжет например на "он сдает ее стражникам, и регент благодарит тебя и предлагает место в своей гвардии".
В случае с нейронкой же остро ощущается, что ты не играешь в сюжете, ты сам создаешь сюжет. Например у меня сейчас в очередной раз такое: -горничная берет тебя за руку и тащит О, у меня кое что есть, пойдемте я вам покажу! -идешь за ней и интересуешься - и что же? -Ооо, скоро вы узнаете!
А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает, она просто стохастически это высрала, и если ты будешь переспрашивать или не давать подсказок, то диалог уйдет в луп "смотри - смотрю! - видишь! - вижу! - ну вот! - ага!"
Самое досадное во всем этом, что по сути то своей нейронка как раз таки может пачками генерить на основе входных условий микросюжеты про принцессу-регента пачками. Но в рп это не работает...
>>1154566 >>1154289 Перекат за перекатом аноны продолжали кумить на гемме, и удивляться почему так больно...
>>1154735 >А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает, она просто стохастически это высрала, и если ты будешь переспрашивать или не давать подсказок, то диалог уйдет в луп "смотри - смотрю! - видишь! - вижу! - ну вот! - ага!" Просто не те модели используешь. Мне они генерировали такую чушню что я рот открывал в подобных эпизодах.
>>1154735 >В случае с нейронкой же остро ощущается, что ты не играешь в сюжете, ты сам создаешь сюжет. Датасет не тот. Тем более сейчас тенденция к "маленьким, но качественным" датасетам, что повышает ум, но уменьшает креативность.
>>1154735 Надо пинать модельку, плюс очень сильно решает карточка. У меня на карточке с принцессой-доминантрикс, у которой был прописан вечный режим гоблина, начался какой-то лютый треш с революцией и последующим анархо-коммунизмом. А принцессу по итогу сожрали свиньи. Ебало мое представь.
>>1154735 Вот эту хуйню вставь в карточку и будут тебе рандомные ситуации от персонажа, а так можешь ещё сторителеллера отдельной карточкой добавить.
[System note: The AI will now generate random events that may go against the main narrative. The AI is creative and unconstrained in its tools. The AI introduces new characters and locations into the chat.]
>>1154735 >-горничная берет тебя за руку и тащит О, у меня кое что есть, пойдемте я вам покажу! >-идешь за ней и интересуешься - и что же? >-Ооо, скоро вы узнаете! >А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает,
У меня так горничная "Некрономикон" в старом шкафу нашла, так что не надо.
>>1154934 >Групповой чат создать со сторрителлером и основной карточкой? Мимопрохожу, но у меня именно так рпшится. Даже несколько системных персонажей есть под разные ситуации
>>1154658 На самом деле, звучит вполне логично, РФ свободнее Китая, да и США последние лет десять устремилась вдогонку за Китаем. Мы здесь живем, к счастью. Хотя кому-то хотелось бы лучше, но где его найти.
А еще наши могут в алайнмент не так круто уметь. =D
>>1154961 Вот это треш нахуй с групповым чатом. Просто спокойный отыгрыш с тяночкой-писечкой. Вдруг в повествование влетает карточка наратора с двух ног, описывая что в хату вломился лысый хуй в пальто, представился детективом и арестовал меня за подозрение в торговле людьми. Я блять просто похлопаю, рп пошло.
>>1155336 Блять, прогресс походу реален, хватило 10 минут чтобы понять какое цидонька дерьмище, лоботомитище блять после геммы, походу нет пути назад буду кушать сою
>>1154735 В шапке лежит пошаговое мышление от тредовичка. Оно там на деле никакой не thinking, а две инжект инструкции: на генерацию мыслей персонажа и плана действий (тоже от лица перса). Так вот можно по образу и подобию сделать или в этом же экстеншене поменять промпт, чтобы не персонаж, а сетка придумывала бы несколько альтернативных вариантов развития событий, потом бы этот список в контексте бы валялся и влиял бы на сюжет. Другой варик, с которым я как-то баловался - лорбук с постоянно включенными инструкциями, которые инжектятся рэндомно с кулдауном, и в них что-то типа: введи нового персонажа, поменяй локацию, фигани сюжетный поворот и т.п., на что фантазии хватит. Но это чревато таким >>1155335, больше для лулза. А вообще правильно сказали, что модель сменить или с промптами поиграться. У меня даже немо, которые любят топтаться на месте, если персом куда-то заводят юзера, то описывают локу, и в целом худо-бедно события и персонажей генерят без пинков.
>>1155335 >Вдруг в повествование влетает карточка наратора с двух ног, описывая что в хату вломился лысый хуй в пальто, представился детективом и арестовал меня за подозрение в торговле людьми Вот ты это с иронией описываешь, а я бы буквально как на картинке абсолют синема себя бы чувствовал если бы нейронка осилила чтото такое, но у меня все карточки кроме основной - в муте и я их сам дёргаю по мере надобности. Ну и как бы если нейронка начала качать сюжет, значит ты навалил промпта соответствующего. По дефолту из них шага лишнего не вытянешь
>>1154161 >2. Вышло спец железо под них B200 уже вышла, покупай, не обляпайся. >3. Размеры стали доступнее Противоречит первому пункту. По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров. >>1154223 >Просто нейронку нужно воспринимать как трёхлетнего ребёнка. Педобиры одобряют.
>>1155336 Это старый мистраль качай на новом >>1155396 Они не могут по другой причине. А именно из-за жора контекстом врама. Контекст на гемме в 2 раза больше жрет чем в мистрале или квене. Об этом тут писал >>1143434 →
>>1154161 > что вы рановато этим начали заниматься Что? Уважаемые господа общаются, кумят, пердолятся и всячески получают удовольствие. Разработчики более ранних сеток года 4 назад испытывали не меньший восторг и удовлетворение, видя как свежеиспеченное выдавало связанное предложение, или могло детектировать собаку видя кошку. Это ты постом или темой ошибся. >>1154223 > нейронку нужно воспринимать как Милейшую канничку, которой уже не одна сотня лет или меньше, но вы находитесь в около-пост-апокалиптическом сеттинге, где ты возглавляешь чвк и тебя никто не посмеет осудитькроме одной карги
>>1155422 Я забираю свою иронию обратно. Вообще я запустил групповой чат с рандомной нсфв карточкой из мамки и дочери кореянки. Но по итогу нарратор подхватил инфу от персоны и от карточки персонажа, придумал историю что мой персонаж мигрант из США в Корее и его приехали крепить детективы из Сеула. В хату вломились остальные "детективы" как в какой-то дораме с (!)револьверами, сложили на землю корейских тяночек, чтобы те не мешали аресту. Главный детектив созвонился с кем-то во время ареста, сказал что планы изменились и по итогу моего перса на анмаркед машине увезли на заброшенный склад, связали и начали допрашивать по поводу денег и счетов. После того как персонажа отпиздили за отказ сотрудничать, снаружи склада остановился минивен, из которого выскочили мужички в масках с автоматикой и в форме спецназа, начав ебашиться с "детективами". Главный "детектив" кстати сразу фиданул от очереди. Сижу охуел пиздец.
>>1155444 > По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров. В мозге же есть эта всякая мультимодальность, управление мясным мешком и прочая дичь. Там небось можно десятую часть оставить и нормально работать будет.
>>1155444 >По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров. Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов. >>1155597 - вот этот правильно подметил, среди этих 86b забиты еще дыхание, речевые центры, слуховые, центры жопной боли и центры отвечающие за желание ебаться или выпить пивка вечером. Плюс просто "кабели" от одного центра в другой. Хорошо если там миллиардов 10 на разум останется. Чет второй раз вскекнул, подумав что сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки.
>>1155552 >Это ты постом или темой ошибся. Хорошо может расскажешь тогда, как без проебов поиграть в текстовую рпг с кумом и лорбуком на 12к токенов, который я неделю писал и оптимизировал? Контекста хватает, но результат даже на вашей гемме умнейшей, печален.
>>1155630 >БУКВАЛЬНО умнее Ты не забывай, что вся компуктерная архетиктура ограничена битностью, а мясные мешки ничем не ограничены, так что ждем квантовые нейронки как минимум.
>>1155630 Ну так то параметр не равен нейрону. Так как параметр по сути равен нейронной связи. Вот той штучке что отходит от нейрона. Нейрон же просто поддерживает жизнь и функционирование всей этой мошни.
А так в целом да, учитывая что нейросетки по сути являются компактными базами данных интернета, то в плане знаний они любого васяна с лесничной клетки уделают скорей всего.
Не понял прикола. Три 3090, две на райзерах, третья напрямую. Угабуга из-под винды, эксллама. 123В Magnum 4 bpw. Контекст обрабатывает быстро, все три карты бодро ждут по 350 ватт одновременно. Переходит к генерации - 3,5 токена в секунду, карты прохлаждаются, кушая по 100 ватт. Какого хуя? Я же знаю, что на трёх 3090 можно на такой модели 12 т/c выжать, с экслламы-то. Есть идеи?
>>1155731 Брехня - это информационный мусор, самый вредный, хуже, чем ложь. Ложь - не правда. Брехня - это просто хуита в чистом виде, независимо ни от каких представлений в правде и лжи.
>>1155646 Могу рассказать, но это придется много писать, лень. Может у тебя есть какая-то мотивация? >>1155666 > являются компактными базами данных интернета Не пиши такое, а то иллюстрирует > знания не равно ум >>1155742 Шиндоуз? Скачиваешь hwinfo, запускаешь "только сенсоры" и мотаешь в самый-самый низ, после делаешь обращение модели и смотришь появляется ли что-нибудь во whea. Далее - проверь использование видеопамяти любым мониторингом, такое может быть при переполнении одной/нескольких карточек и выгрузке врам в рам. При обработке контекста особо не проявится потому что там последовательная обработка а не полные прогоны всех весов. > на трёх 3090 можно на такой модели 12 т/c выжать Скорее 11 если под сильным андервольтингом, но должно быть оче стабильно.
Оказывается 4b gemma тоже может может в связный диалог(Пока что перекинулся 10 сообщений и вроде кринжа не было), получается на говне 8g vram проще что то такое юзать, потому что 32к контекста и 47 токенов в секунду бодро идут. Что по этому поводу скажите? Ну что еще может быть выходом для бичей
Аноны, скажите, а если железо морально старое и без инструкций типа AVX2 или какие там нужны - я отсосу 100%? Есть ноутбук с Pentium B9xx двухядерным, в общем это еще ниже i3, архитектура Sandy Bridge . Но 8гб ддр3 рам и ssd, для сидения в интернете подходит тащем то приемлимо.
Скачал LMStudio, думал ну хоть 1б/3б модельку запущу, но LMStudio мне отписал бороду, якобы железо неизвестное-непонятное. Имеет смысл поставить кобольда ради хотя бы 1т/с на проце, или можно ноут выбрасывать? Хочу запустить просто по приколу, для обычных нейроутех есть домашный компьютер нормальный.
>>1155842 >Хочу запустить просто по приколу Приколы у тебя странные, но если мотивация в том, чтобы нейронить не из дома - я недавно wireguard через свой vps до дома прокинул чтобы с телефона нейронить. А если просто интерес, то так же просто запусти кобальда, да
Посоны а вот я мечтаю что стану шейхом и купив 4060ti буду нормально кумить- я даун? Доброанан накидай бомж конфиг на который буду дрочить мечтать по вечерам, а?
>>1155817 Из всего, что я пробовал, Instrumentality-RP-12B-RU-2.Q4_K_M - мой топ для 8gbvram, конечно, помедленней наверно будет, я хз сколько там токенов, хуекинов.
Она более сухая, чем остальные, но больше следует тому, что ей сказано делать. А более художественных атмосфера наэлектризуется обязательно.
>>1155505 >2B Опять кастрат без задач. >>1155597 Не факт. >>1155630 >Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов. Проиграл с проигрывающего. На каждый нейрон приходится 10к связей. Плюс индивидуальные спецэффекты типа обратного захвата, активации из-за разлива кучи нейромедиаторов рядом, время релаксации, проёб изоляции в старости... Вот и перемножай. Может я ещё оптимистичен, лол. >забиты еще дыхание, речевые центры, слуховые, центры жопной боли и центры отвечающие за желание ебаться Вырежешь всё это, и получишь хуйню на постном масле. >подумав что сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки Васян технически может освоить кучу навыков, и уже имеет целую кучу, типа подтираться, не измазывая говном пальцы. А негроночка это тупо пережаток википедии. >>1155971 Максимум странный конфиг.
>>1155817 Не юзать гемму блять. Уже 15 раз написали, что ее контекст жрёт врам больше всех. А 4b это вообще инвалид полнейший. И даже если надрочить столько контекста она по-любому не будет в нем ориентироваться >>1155937 Кум будет. Все тюны мистраля 24b отлично работают в q4km 15+ тс и 16к+ контекста. Скрины в прошлом треде кидал
>>1155505 Выпустили бы 12b размером с 4b и жором ресурсов как 1b — были бы топ. А так, старушка. Но, хороша.
Не испугались добавить в сравнение Qwen! (спойлер: он выиграл, да=). Надеюсь, теперь люди посмотрят на это, и начнут обучать.
>>1155548 > Контекст на гемме в 2 раза больше жрет Да там в 3, чуть ли не в 4, чем на квене.
>>1155630 > Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов. Проиграл с этого мл-инженера. Нейроны — не параметры, параметры (веса) — синапсы, а синапсов, сюрприз, 125 триллионов. =)
> сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки Не знаю за васяна и сайнемочку, но Даркнесс Рейн точно умнее тебя:
> С точки зрения параметров (весов) LLM, наиболее уместной аналогией могут быть синаптические связи между нейронами в человеческом мозге. Синапсы - это структуры, через которые нейроны обмениваются информацией. Они могут быть усилены (усилены) или ослаблены (ослаблены) в зависимости от опыта и обучения. Аналогично, веса в нейронных сетях определяют, насколько сильно сигнал передается от одного нейрона к другому.
>>1155817 > Оказывается Да на старте уже все поняли. Там еще и вижн за гиг есть, дратути.
>>1155842 Качай llama.cpp/KoboldCPP no_avx Но скорость будет забей, на самом деле. Даже 1б даст тебе отсосать, 100%. Со смартфона гораздо быстрее.
>>1155937 Стать шейхом и купить 4060ti — точно даун. Мечтай хотя бы о 4090 48 гиговой. =)
>>1155937 Так, ладно, че-то я ответил непонятно. Не, 4060ti с 16 гигами не самая плохая покупка, если хочешь из магаза новую с чеком. В противном случае, две 3060 будут получше, или 3090 с авито, с магазина там 4070 ti super есть, еще и поиграть, ну такое смотри. 16 гигов можно выжать двумя P104-100 по 2,5к рублей, свои 10 токенов будешь иметь с контекстом, не похуй ли? Все же подумай, надо ли тебе это, именно 4060ti. Это середнячок, но такой себе середнячок. Все альтернативы будут лучше.
>>1156091 В чем странность? >>1156114 > две 3060 будут получше Едва ли, если только это не последняя покупка и только для ллм. Размещать две карты неудобно, есть задачи где единые 16 гигов лучше чем пара 12. В остильном верно.
>>1155742 Тоже сталкивался с этой проблемой, именно 123 так хуёво работают, короче старая версия табби, где то из сентября прошлого года где уже была поддержка 123б мистралей в целом работает быстрее, но если свайпать моментально режет скорость тоже вдвое, последние версии все еле работают почему то, виндопроблемы опять скорее всего
В общем я ньюкек >>1152414, попробовал после той модели gemma3-27b-abliterated-dpo.Q4_K_M, как советовали и что то не сильно лучше стало. Скачал в соседнем треде карточку песочницы и погонял неписей в королевской битве, потом запустил через опенроутер дипсик и там на порядок лучше будто бы. Ок. Скачал карточку без всяких выебонов там же про ванильную школьницу фотографа. И что то тоже слабо, ее словно пинками надо гонять прописывая почти все, когда онлайн модель сама может тащить сюжет.
>>1155807 >Шиндоуз? Скачиваешь hwinfo, запускаешь "только сенсоры" и мотаешь в самый-самый низ, после делаешь обращение модели и смотришь появляется ли что-нибудь во whea. Скачал, запустил, промотал, погонял модель - 0 ошибок. И место в видеопамяти есть. Это конечно хорошо, только непонятно, почему так получается.
При генерации частота видеочипа и памяти на всех картах по 600 мегагерц - просто курам на смех. По nvidia-smi производительность из режима P8 переходит в режим P3 (а максимальная - это P0 или P1, как я понимаю). Чёрт его знает, что делать.
>>1156119 >В чем странность? Или затарился бы проф картонками для объёма памяти, или добивал бы по чипам с 5090. А так ни рыба ни мясо. Не, конфиг конечно завидный, у самого под него только БП пока заказан (надеюсь не обосрался и взял последнюю ревизию со всеми фиксами горящего разъёма), тратить на картон 315к жаба душит. >>1156126 >потом запустил через опенроутер дипсик Ты сейчас серьёзно сравниваешь 27B и 666B?
>>1155877 >Приколы у тебя странные Что есть то есть >я недавно wireguard через свой vps до дома прокинул чтобы с телефона нейронить. Кстати неплохая идея, мне даже поднимать не надо, впс есть в вайргардом. Я правда удаленщик, из дома не выхожу, но пойти в парк общаться с кошкодевками идея найс. >>1156102 >llama.cpp/KoboldCPP no_avx Спасибо! Завтра попробую. Просто интересно сколько токенов можно выжать из этого кирпича.
>>1155937 Странные у тебя понятия о шейховании конечно, но сегодня мне кто то скидывал что 5060 с 16гб цену в 429 долларов обьявили, если хочешь из магазина новую карту, то подожди.
>>1156114 >P104-100 Глянул, на авито оно меньше 2к за карточку стоит на авито, это же получается тыщ за 10 можно кум-машину на 24gb vram собрать из какой нибудь 450b матери, 1200 райзена, которая будет 32b модели ворочать на 10т/с? Или дохуя хочу, есть подводные?
>>1155842 Качай версию koboldcpp_oldcpu.exe В самом кобольде выбирай "Failsafe Mode (Older CPU)" Запустится даже если проц не знает ни о каких AVX вообще. Дальше экспериментируй. Скорость будет зависеть от размера. Поэтому сначала пробуй что-то малоразмерное. Реально запускать можно будет что-то максимум около 4 гб размером, если всего памяти 8 гб. Если проц от Интела, то для запуска программ, требующих поддержки AVX2, на процессорах с поддержкой только AVX, можно использовать эмулятор Intel Software Development Emulator (SDE). Кажется, его даже можно использовать и на процах совсем без AVX. С эмулятором уже и версии кобольда можно использовать другие. Это если уж очень сильно хочется поэксперементировать.
>>1155960 >This model uses Gemma formatting >в примере чатмл без треугольных скобочек Плохой признак, намекающий, что автор не особо понимает, что делает. Но вообще можно будет посмотреть, как оно.
>>1156127 > При генерации частота видеочипа и памяти на всех картах по 600 мегагерц - просто курам на смех. А вот это уже странно. Глянь perf cap reason, например с помощью gpu-z, или загугли расшифрову этих перфоманс уровней, вероятно причина в этом. > место в видеопамяти есть Точно? С 4bpw если навалить контекста там под завязку может быть, попробуй в рамках тестирования с минимальным и поварьировать разбиение между картами вместо автосплита. >>1156131 > затарился бы проф картонками для объёма памяти Нет смысла. Для чего-то серьезного есть где арендовать или попросить, это чтобы катать и тестировать кейсы где нужно сразу много единой врам. Или можно ллм запускать. Посмотрим как дела пойдут, может когда-нибудь получится апгрейд до актуальной. > обивал бы по чипам с 5090 Тоже зачем? 3й слот чипсетный, при объединении будет посос. Сложность размещения и охлаждения резко вырастает, без андервольта бп не потянет. > только БП Ахуеть, стоит как 3090! Утащил залежавшийся суперцветок за 20 с чем-то, не шумит как майнерский и в целом сборка довольно тихая для обогревателя > со всеми фиксами горящего разъёма Можно просто заказать кабель сразу с норм разъемами. Главное - не брать дешевых китайских переходников. >>1156137 Не должно быть прям совсем радикального разрыва, скорее он от правильных настроек в одном случае и корявых в другом. Или это впечатление от первой встречи с алайнментом на массированный юзер-френдли насер вне зависимости от запросов.
>>1156190 >Ахуеть, стоит как 3090! Я тоже охуел, я киловаттник с авито за 5к вцепил, нужно было бы 1,6квт - вцепил бы второй, все равно уже сборка на такую мощность не нормисная во всех смыслах.
Режим инструкт, потому что не ограничено именами, ничем, че хочешь то и будет, в зависимости от придуманной мемори и ворлд инфо. Можно и без мемори, и ворд инфа. Первый затравочный диалог можно сделать, редактировать и тогда модель будет перенимать заданную форму общения. Но ум у нее ограничен тем, что может мистраль немо или че там, сайга.
>>1156190 >3й слот чипсетный, при объединении будет посос А чому так печально? Плата вроде современная, раз пятая псина на месте. Мог бы хотя бы вместо системного NVME, оттуда 100% можно утащить хотя бы 4.0х4. А что за плата вообще? А то тут как раз недавно искали варианты под бифукацию, вроде даже находили со схемой 8+4+4 (+4 системного NVME) пятой версии, она бы уж точно ничего не затыквила бы. >Ахуеть, стоит как 3090! Чисто чтобы кабели не перепрокладывать. Цветок конечно уважаю, но сисоник всё равно лучше. Да и опять таки, запас одинаковых кабелей карман не тянет, у меня это будет третий сисоник (inb4 найс гой плати дальше). >Можно просто заказать кабель сразу с норм разъемами. Ага, по 5к каждый. Не, серьёзно, дешевле 4-х я на наших озонах не видел. Ахуеть как говорится.
>>1156280 > А чому так печально? Это не печально а наоборот крайне ахуенно по сравнению с тем что в среднем бывает, с бифуркацией 5.0 пока ни одного решения не видел. Там 12700@z690, все платформа стоит дешевле чем твой бпшник. И главное что ее достаточно. > 100% можно утащить хотя бы 4.0х4 Можно и 5.0, но упирается в нормальный 5.0 райзер с нвме. Китайцы активно осваивают продукцию для ии ферм, такое существуют, но на али пока не выставили и стоят дорого. Ну и главное - не то чтобы был смысл. > всё равно лучше Брендодроч и оче пренебрежимые мелочи. Даже этот взял только потому что нужно было снизить шум, по тестам на больших нагрузках между разными бп отличия оче малы и скроются за основными кулерами. > запас одинаковых кабелей Силовые порты сейчас все стандартные начиная с atx 3.0 (и даже более раннего), если только ты не счастливый обладатель corsair. > найс гой плати дальше Лол да > по 5к каждый https://www.ozon.ru/product/1454855360/ или дешевле если написать продавцу на других платформах. Есть вообще за 1.5к для трясунов что аж с 6(!) разъемов на бп задействует, правда кроме плацебо толку ноль.
Наконец-то запустил. 18 т/с контекст и 0.9 т/с генерация (4к контекста). ЗО-ЛО-ТЫ-Е! Hermes 405B, IQ4_XS. Жорино решение, конечно, требуется серьезно дорабатывать, поднимать отдельный сервер для каждой видеокарты это смешно. Думаю, можно было бы смело хотя бы около 2 т/с получить, если бы не гонялось столько данных туда-сюда. Если кто решит доебаться до usb ethernet - несмотря на то, что там задержки на порядок выше, гигабитное подключение, видимо, решает даже при инференсе - 0.9 vs 1.1 т/с на 1к контекста. На майнейрской материнке, увы, только 100 Мбит
>>1156347 >5.0 райзер с нвме. Китайцы активно осваивают продукцию для ии ферм, такое существуют О, не знал, думал на четвёрке пока остановились. Ну тем более тогда. >Силовые порты сейчас все стандартные начиная с atx 3.0 Тоже не знал. Ну, тогда оправдаюсь доп саташниками для NAS хотя у меня их уже достаточно. >для трясунов что аж с 6(!) разъемов Чую это такая китайская паль, что сгорит раньше, чем его поставишь, чисто от одного вида 5090. >>1156377 >18 т/с контекст А ты терпеливый.
>>1156377 Pretty brutal, вот это контент. Забавно что даже в мониторинге видно как оно по карточкам пробегает. > можно было бы смело хотя бы около 2 т/с получить Можно прикинуть оценив по обычному перфомансу. 4 полностью загруженные теслы способны выдать около 3т/с, 4 полностью загруженные 3090 в жоре - 5-7 т/с, 3060 в оптимистичном сценарии можно принять что будет иметь то же время обработки что и 3090 с учетом меньшего использования памяти. 2 врядли, но в идеальном случае до 1.5 разогнать наверняка можно. Больной ублюдок, респект. >>1156464 > Ну тем более тогда. Смысла мало. Их перфоманса достаточно и для ускорения лишь на треть придется все капитально перелопатить. В теории, офк, в корпусе даже есть место куда ее пихнуть, задействовав окна забора в задней крышке, но это сразу полная нагрузка на бп, придется сильнее навалить корпусные и дополнительный шум от карты. И дорого дохуя, есть смысл уже гнаться за 6к блеквеллом, другой уровень возможностей. > оправдаюсь доп саташниками для NAS Нас в риге? Сурово, лол. > китайская паль Не, местные делают. Там именно для трясунов, толстые кабели, норм разъемы, много портов до бп и прочее.
>>1156490 Вот это чтоли, или может другой лот https://www.ozon.ru/product/1076256474/ Он врядли плохой, но просто оверкилл ради оверкилла чтобы заманивать. Внимание нужно уделять клеймам и разъему, а не проводам и пропайке, лол.
> 32b модели ворочать на 10т/с Мне искренне лень пересобирать комп, и я так и не потестил, че там на трех картах. Если агрессивно квантовать, наверное да. Но на 12б от 17 на пустом контексте до 10 на ~15к, что-то такое. Когда мне перестанет быть лень, я переткну их и посмотрю на результат. А вообще, я хочу взять еще три карты в исполнении Colorful (потому что две у меня уже в этом исполнении) и собрать пять штук. Но в последнее время не смог договориться о дешевых вариках с доставкой. Но это все рофлс, так-то я с двумя теслочками сижу.
>>1156377 Я, конечно, тебя поздравляю, но лучше бы ты R1/V3 запустил!..
>>1156464 Ну ты прикинь, в начале все обсуждали скорость контекста на 4 линиях вместо 16, а тут usb вместо pcie… =)
>>1156405 >Безумству храбрых - снимаем шляпу :) По-настоящему храбрость проявится тогда, когда я решусь покумить на этом пепелаце
>>1156485 >в идеальном случае до 1.5 разогнать наверняка можно. Я на теслах раньше более-менее норм сидел с 2.5 т/с, но на 1.5 будет совсем грустно, конечно...
>>1156497 >>1156578 к-трансформерсы умеют в мультигпу и в сеть? Все юзкейсы, которые я в треде читал - это одна карта + дохуя RAM. Без поддержки сети не имеет смысла, у меня на одном пк может быть, условно, 140 врам и 32 рам, даже если они умеют как-то по картам распределяться, то это все равно совсем нищий квант, смысла нет. Я жду еще карточку одну, попробую потом на жоре запустить IQ3_XXS с выгрузкой в рам, но это будет больно - чую 0.5 т/с или меньше...
>>1156578 > Попробуй ктрансформерс У него же жора-дистрибьютед, тут без шансов. И как тот будет работать с мое тоже тот еще вопрос (никак). >>1156614 > но на 1.5 будет совсем грустно, конечно Если 1.5 еще как-то условно можно стерпеть, то 18т/с обработки контекста на ноль множат. То есть буквально будет заметно как обрабатывается сообщение юзера если там не "я тебя ебу". А первый пост в рп - 10 минут на усвоение карточки, лол. Тем не менее, если хватит терпения, это было бы интересно. > в мультигпу Умеют.
Я вот купил вашу п104 100, а потом понял, что е не могу его нормально сунуть в системник, и о до дна корпуса там меньше 2 сантиметров остается. А ещё я не понял, как задействовать их обе, чтобы они нагружались. В итоге лежит в шкафу, а я сижу на гемме 27б с 12к контекста с 3 т/с.
Вообще, не знаю, поддерживает ли ктрансформерс мультигпу и сеть, надо разбираться, но мне незачем. х)
>>1156919 Райзерок за косарик хороший, или за 100 рублей китайское дерьмо, на вкус и цвет. И снаружи закрепить. Или распечатать специальную подставку/купить сразу с райзером, чтобы ставить снаружи прям. Или корпус взять другой. =D
>>1156919 Я не рофлю, практически, но расскажи как ты пришел к идее купить 2 видеокарты, даже примерно не прикинув сколько они у тебя буду занимать места в корпусе?
>>1156957 Это была импульсная покупка. Все в моей жизни такое. >>1156956 >>1156948 Ну еро существование райзеров я в курсе посоветуйте хороший на озоне . Меня ПО напрягает. На Винде через кобальт я так и не смог нормально их загрузить.
>>1156968 Ммм… Многие писали, что у них были проблемы, но я, вроде бы, когда-то запускал подобный конфиг. Ну, в любом случае, все начинается с впихуемости, а уже потом дрова.
Я решил пазл Так как гемма соевое говно даже при аблитерации и абсолютное говно в куме все пересаживаемся на коммандер который чуть тупее но абсолютно без цензуры ВООБЩЕ Лучший вариант для ерп на данный момент
>>1157199 Там стоит 6 штук P104-100 по 8гигов, они стоят по 2-3к рублей за штуку. Проблема как понял в том,что они не объединяться в одну общую врам память из-за старой архетиктуры, а по частям по 8гиг при загрузке большой модели будет ботлнек из-за фрагментации.
>>1155817 >Оказывается 4b gemma тоже может может в связный диалог Я тебя удивлю но там и 1b отвечает связно, тупая конечно шопиздец. 8 квант качай и на 1b и на 4b, тут меньше того не стоит
>>1157056 Безотносительно производительности, майнерский риг - это просто выкидывание денег на ветер. Эта хрень за год либо сдохнет, либо потеряет остатки актуальности.
>>1157584 Через 3 часа смотрим релизный стрим про o3 (скорее всего и про o4-mini, и может даже o4... ну вдруг просто метриками похвастают?).
Это не та же o3, которую показывали в декабре: Sama говорил, что эта версия была дообучена и обновлена. Базируется ли она на новой GPT-4.1 —вопрос, ответ на который мы, возможно, узнаем.
Что бы вы запустили на 4090 48 GB? Gemma 3 27b (abliterated, q8_0 GGUF/8.0bpw exl2), Qwen QwQ (q8_0 GGUF/8.0bpw exl2) и Qwen2.5-VL-32b (6.5bpw) в планах на тесты.
>>1157668 Все перечисленные модели на ней запускать - все равно что из пушки по воробьям стрелять. Да и зачем восьмой квант брать? Словом, попробуй тоньше
>>1157552 попробуй тот шизопромт на 2к токенов, можешь вилкой подчистить лишнее под себя
Хоть и шизопромт, но работает на ура, только контекст, сука, жрёт
---
>>1157581 вряд ли, но кому интересно - мержкит под гемму 3 обновили
[2025-04-16 16:42:55] [INFO] Process completed successfully [2025-04-16 16:42:55] [INFO] Model successfully uploaded to HF: mergekit-community/mergekit-model_stock-prczfmj
>>1156377 Я не выкупаю, я нуфаг, но это же типа мало? В чем суть? Типа все изза того у майнерской материнки что на видео - низкая пропускная способность?
>>1156958 > На Винде Говорят если переустановить драйвер, стукнуть посильнее и ребутнуться - оно само заводится. Или просто шатать устройства в диспетчере. Зря с этой некротой связался, конечно. >>1157021 Магнум 4 с рекомендованными настройками (чатмл) попробуй. Один из самых живых тюнов без значительной потери мозгов. >>1157056 Потому что это исполнение желания от злого джина. Будет проблемный некромусор вместо видеокарт, соплерон вместо процессора, хуета с кучей чипсетных pci-e х1 2.0/1.1(!) вместо материнки и остальное все подушатанное. В итоге, не то что нормального перфоманса не получишь, будут просто проблемы с запуском чего-то. >>1157062 > весь тредик купит 3090 Это же вроде входной билет, не? > какая модель лучшая для ерп Command-a
>>1157289 Хз насчет лучший, но вариант весьма солидный и душевный. Он определенно лучше чем 24 или тем более 12б мистральки, но гемма умнее и точнее. Одним из главных достоинство можно назвать то, что он реагирует не дефолтно, за счет чего может очень доставлять. Ну и кум хорошо описывает. >>1157309 Двачую вот этого >>1157365 >>1157360 ТраГладить! >>1157552 Зачем тебе подглядывать чем я занимаюсь с персонажами? >>1157584 Покажи в принципе хоть какие-то нормальные тюны моделей за последнее время. Не щитмиксы 12б, не мерджи лор на 24, а именно что-то полноценное и масштабное. >>1157668 Очевидно что 70/72б и делать фокус прежде всего на времени обработки контекста, ибо генерация не будет отличаться от пары 4090. >>1157744 двачую.
>>1157584 Я уже её повадки наизусть выучил и теперь без джейлбрейка по ходу беседы ей башку взламываю... Ждём Джемму 4 на новой архитектуре титан,, там будет прорыв.
>>1157964 >Ждём Джемму 4 на новой архитектуре титан,, там будет прорыв. Прорыв канализации. Такой же как битнет - сколько времени прошло, а воз и ныне там. Или BLT. Или SSM. Даже FILM. Или ещё что, сколько таких прорывов было.
Титан это мем, который существует на масштабе 760М через пень-колоду, неясно вообще масштабируется ли он, какие неизвестные свойства имеет, какие плюсы несёт в широком применении, какие минусы у него и т.п. Там тонна рисёрча нужна и модель хотя бы 70Б размером.
Тут по-моему до сих пор к таким ежемесячным отчётам про прорывы относятся слишком серьёзно.
>>1158023 >Прорыв канализации. Такой же как битнет - сколько времени прошло, а воз и ныне там. Или BLT. Или SSM. Даже FILM. Или ещё что, сколько таких прорывов было.
Это все накапливается и потихоньку пилится экспериментами, просто сейчас до сих пор выгоднее тупо заваливать решение проблемы ии безумными мощностями и работой с датасетом и обучением - пост обучением. Когда поймут что уперлись, начнут играться с улучшением архитектуры.
Да и к тому же они постоянно с ней играются, то слоев добавят, то головок внимания, то контекст по другому считает. Как у геммы3 той же, это ведь тоже изменение архитектуры, она стала лучше держать в контексте информацию. Это важно, жор врам только изза кривой реализации в llama.cpp. На сколько я понял она должна умнее контекст обрабатывать что должно делать его размер меньше, но реализовали простой вариант.
>>1158083 > Стоит ли квантовать кэш? Да, q8 не даст заметного негативного эффекта и сократит в 2 раза, немного замедлив скорости. > ггуф против эксл2 Скорости же печатаются, от 10 до 200% разница по контексту, в зависимости от модели, сборки, размера контекста и т.д. В среднем - раза в 1.5-2, но это сильно зависит от железа, сборки и прочего. Когда все происходит быстро - это не заметно, но на больших моделях уже может быть существенно.
Ебать неинтуитивную хуйню обнаружил. Если хорошо обдувать вертикально установленную видеокарту, особенно снизу, то происходит нихуевый такой проеб температур. Жидкость в трубках конденсируется снизу и нарушает процессы. Тупо >5 градусов на том что выкинул лишний вентилятор и скрутил настройки охлада на мягкий авторежим.
>>1158436 Вертикальная установка вообще говно по определению. Как и горизонтальная. Даже моя подвесная говно. По сути, только картон со встроенным водоблоком охлаждается по уму, остальное это высер наследия формата AT, придуманного с прицелом на охлаждение проца под бруском люминя да блока питания, на пачку горизонтальных карт расширения всем было похуй. А теперь вот мучаемся.
>>1158436 > вертикально установленную видеокарту Как именно и куда ей дуют дополнительные кулеры? Если в торец - все будет ок, если туда где у нее pci-e - хуйня. Во втором случае получается что они конфликтуют с основным крутиллятором, который продувая радиатор выдувает воздух снизу и сверху. > Жидкость в трубках конденсируется снизу Приколы с зависимостью тепловых трубок от ориентации исчезли вместе с самыми первыми их итерациями, где действительно они полые были. Сейчас все не на гравитации а на поверхностном натяжении работает, иначе по дефолту установленная карта вообще не могла бы охлаждаться. >>1158446 Как лучше?
Да что, блядь, не так с современным опенсорсом? Почему, нахуй, фронтенд к обёртке над платным API называют "open-source local coding agent"?
Вы совсем охуели? Open-source - это, блядь, когда я могу взять весь проект, поставить себе и пользоваться без того, чтобы меня ебали в жопу через облачные API и пейволл.
Пиздец, выкладывают фронтенд, гордо суют ссылку на GitHub, а внутри только интерфейс, который без их ебаного API - просто кусок бесполезного дерьма.
>>1158456 >Как именно и куда ей дуют дополнительные кулеры? >конфликтуют с основным крутиллятором Дополнительный кулер стоит на жопе где у нее сквозной проход воздуха через бекплейт и там 100% ничего не конфликтует. И причем нормальный такой, на 4к оборотов. >Приколы с зависимостью тепловых трубок от ориентации исчезли Ну как видишь, не исчезли, если нижний конец дохуя охладить, то много воды там сконденсируется и по капиллярам она будет течь не очень охотно.
>>1158659 > кодить в терминале Не, канеш есть мнение что vim - лучший ide и т.д., но что это за маразм вообще? На самом деле, если не совсем все вынесли, то что-то полезное оттуда вынести можно. И заодно может подтянется поддержка oai-like api с большим количеством фич. >>1158662 > 100% ничего не конфликтует Тогда бы температура не поднялась. > то много воды там сконденсируется Ерунда полная, это не работает с современными трубками. И судя по этому - таки дуешь со стороны порта а не в торец, закономерно. Еще от того монстра на 4к может идти столько завихрений, что турбулентные потоки значительно снижают эффективность основных крутиляторов. Тут даже задувание в основные может навредить если повезет. Идеальный кейс для продувки - слабый продольный поток.
>>1158687 Тру ламинарный в условиях компьютерного корпуса или васян рига - оче врядли. Главное чтобы совсем пиздеца не было как в ближней зоне кулеров. У некоторых техноблогеров про это были ролики, где довольно понятно для хлебушков объяснялось, демонстрируя дымом.
>>1158677 Еще раз, на пикрил карте прорези для сквозного прохода воздуха, если из них принудительно высасывать воздух мощным кулером, происходит рост температуры на перевернутой карте. Хули ты споришь и держишь меня за долбоеба который потоки напутал? Я специально проверял подключая и отключая кулер в работе, он делает только хуже. И твои "современные" трубки от старых никак не отличаются, они всегда на одном и том же принципе работали.
Плюсом к тому в таком положении врубание штатной СО на 100% либо не дает ничего вообще, либо ухудшает ситуацию на 1-2 градуса, по сравнению например с 50%.
Я из-за этой хуйню чуть не начал перелопачивать карточку которая на жидкий металл была собрана.
Какую модель сейчас брать для 16гб? Общение, кум. Gemma 3 27b abliterated? IQ2_M? И как более оптимально их юзать? До этого иногда запускал вторую в Q3_K_L в Кобольд, не разбирался.
>>1158733 > прорези для сквозного прохода воздуха Они едва покрывают пятую часть площади. Есть варианты карточек, где там как раз размещен 4й кулер если что. > держишь меня за долбоеба который потоки напутал Так ты и напутал потоки раз получил рост температур. Ну а насчет долбоеба - уже сам смотри. Точно мог бы просто нормально сформулировать, ведь в первом посте у тебя > обдувать вертикально установленную видеокарту, особенно снизу что совсем не вяжется с кулером на жопе. > если из них принудительно высасывать воздух мощным кулером Если именно высасывать с обратной стороны, делая только это и не создавая других побочных эффектов, то станет только лучше. Но как в действительности у тебя было - не понятно и вариантов где ошибиться полно. От того, что накрученное нарушало глобальную циркуляцию в корпусе или окрестностях из-за чего был застой, до того что кулер на самом деле днище и наоборот повышал сопротивление. > И твои "современные" трубки от старых никак не отличаются Если тебе будет так легче, только не трясись. Лишь показываешь неосведомленность и характер, с которым готов спорить по любой херне в которой не шаришь.
>>1158735 Не надо запускать модели, ниже Q4. Они дуреют из-за этого. Лучше Q4_KM. Единственный твой вариант это мистраль 24b и его производные (cydonia, forgotten, dolphin и др). У Геммы 3 слишком жирный контекст, Квен сам слишком жирный, остальные модели либо хуже, либо еще больше. В кобольде включи KV_Cache 8bit, Flash Attention, смотри чтобы все layers были на gpu (43/43 для мистраля), для мистраля Q4_KM будет 16к+ контекст. Единственное мистраль в кобольде без пердолинга не будет картинки анализировать, если тебе вообще нужна эта функция. А в остальном наслаждайся
>>1158743 >Если тебе будет так легче, только не трясись. Лишь показываешь неосведомленность и характер, с которым готов спорить по любой херне в которой не шаришь. Бля, так и знал что местный шиз и тут обосраться решил. Иди нахуй сам проверь если моим словам не веришь. Если у тебя есть аналогичная карта или любая другая где можно снять СО и вкорячить кулеры хотя бы спереди. Кулер arctic p9 max на фул скорости. >Но как в действительности у тебя было - не понятно и вариантов где ошибиться полно. Ну так тебе дебилу наверное понятно раз ты споришь с результатом тестов.
>Если именно высасывать с обратной стороны, делая только это и не создавая других побочных эффектов, то станет только лучше. На горизонтально установленной может и будет. При вертикальной компоновке - нет. Это показал тест. И никакие потоки там не нарушены, не пытайся перекрыть реальность своими маняфантазиями. Продувка в корпусе и так ебейшая, если остальные кулера на полную врубить.
>кулер на самом деле днище и наоборот повышал сопротивление И магическим образом понижал когда выключался, так?
>>1158775 >layers были на gpu Зачем? Я вот в видео охренел сколько можно выгрузить в рам и едва ли ощутить просадку в скорости. В ллм так можно? То есть мистраль с переплатой за картинки? Мне бы просто текст, но более связный.
>>1158817 Ты сморозил ерунду про то что если охлаждать конец теплотрубки - ее эффективность резко упадет. Даже на пальцах понятно что неверно, но решил за этот бред на говно изойти. > споришь с результатом тестов Доказываешь ошибочную интерпретацию источником ее получения, не приболел часом? Твой тест показал только что твои действия делают хуже, все. Будучи гуманитарием начни с освоения базовой логики, а не пускайся в открытия. > можно снять СО и вкорячить кулеры хотя бы спереди Если снять кожух то все пойдет по пизде, он там не просто так. > если моим словам не веришь А кто ты такой? Чсв шизик, который порвался с того что его поправили и указали на другую причину, потому что никто не смеет опровергать его откровения? Здесь единственный вывод о том, что бездумный колхоз крутиляторов может врать температуры, это может проявиться в тех конфигурациях, которые на первый взгляд должны помогать. И хорошая тема о том, что можно диагностировать подобное меняя вручную скорость кулеров. > маняфантазиями Твои выводы про вертикально/горизонтально. Кто-нибудь увидит этот бред и действительно поверит, лишив себя одного из самых удобных вариантов компоновки. > И магическим образом понижал когда выключался, так? О дивный мир гуманитариев, легко.
>>1158912 >гуманитарий Хуясе предъява для лучшего технаря на этой борде. Термотрубка для проведения эксперимента в контролируемых условиях уже заказана, и что-то мне подсказывает что по его результатам чсв-шиз будет попущен уже с железобетонными пруфами.
>>1153494 Ммм, не, Что-то Gemma3 как OCR довольно так себе для PDF где много таблиц с мелким шрифтом. Например таблицу на 57 предметов оно обработало с 3 попытки внеся ХОТЯБЫ все 57 предметов. То оно 51 напишет, то последние 4-6 пустыми сделает.
>>1158889 для языковых моделей критична скорость памяти. С ddr4, если крутить нейроночку на cpu, он у тебя особо работать даже не будет (при условии, что у тебя проц не совсем говно, конечно же), потому что все упрется в скорость памяти. С ddr5 не уверен, но судя по всему там все еще та же самая проблема.
Контекст можно отдельно на оперативу выставить, я так понимаю, от этого просадка будет не такая серьезная, как если на нее выгружать слои, но все равно лучше уместить все в видяху.
Вот для картичночных нейронок скорость работы самого проца куда важнее, но они и сами по себе обычно мельче и в 8 гигов влезят спокойно.
>>1158889 >Зачем? В режиме на цпу + рам результат твоего запроса смогут прочитать разве что твои внуки. Банальная обработка промта для 24b модели в бенчмарке занимает минут 5 против нескольких секунд на гпу.
>>1158889 Потому что топовая ddr5 память будет в 3 раза медленнее, чем днищенская память 4060ti с 128 битной шиной. Меньше скорость памяти->меньше скорость вывода и это сильно ощущается. И мистраль по тексту будет лучшим из того, что тебе доступно. >>1159085 Двачую. Но картиночки на определенном этапе тоже начинают жрать как не в себя, но не так как ллмки, да. >>1159115 Будет через год, если курс не улетит.Но я бы покупал 5060 ti из-за того, что у нее в 1.5 раза быстрее память и она тоже через год будет 40-45 стоить. И да, сейчас из-за дефицита 4060ti 16 и барыг 5060 ti стоит также как ее младший собрат. А так мог осенью новую 4060ti за 42 купить, я свою за 40 тогда брал.
>>1159156 >Но я бы покупал 5060 ti из-за того, что у нее в 1.5 раза быстрее память и она тоже через год будет 40-45 стоить. Вон в днс сейчас 5060 на 16гб 55к всего стоит. По сути копейки, 2 такие воткнул и сидишь балдеешь.
>>1159193 Сомнительный риск брать видеокарты на авито, по итогу можно оказаться в ситуации, когда сам будешь вынужден продавать их под видом рабочих лол. Да и они уже устаревшие, 5060 еще хотя бы несколько лет будут актуальными.
>>1159208 Ты скажи это советчикам покупать 3090, которые горячие как печки, горели даже при обычном использовании и во всю использовались в майнинге. А 3060 это в целом надежная карта, хотя понятно от риска никто не застрахован
>Super cool. Imagine specialized hardware for running these. >It already exists. Dynamically reconfigurable. Some smartass designed it alone on ridiculously EOL'd FPGAs. Meanwhile ASICs in small batches without FPGA baggage were produced. Unfortunately said smartass is under heavy NDA. Or luckily, because said NDA paid very well for him.
>>1159085 Ну я не был бы так категоричен. llama cpp на sycl крутила 24b q4km с 3 токенами в секунду. Память - 32 гб ддр4 3200 и проц ряженка 5 3600. Выяснил случайно, когда не заметил, что модель выгрузилась в озу вместо врам. А так тоже думал, что проц пернет и сдохнет.
>>1159156 >>1159115 Вам не больно покупать огрызки недоплатив всего 45% до 3090? Вы же ни гемму, ни командер, ни квен новый никогда не запустите, а если внезапно выйдет что то типа немотрона где 3 квант спокойно в 3090 влезает?
>>1159361 Ну так дай мне эти 50% стоимости и дай гарантию, что это авито говно не сгорит хотя бы за полгода. И не забудь на бп доплатить, у меня вся система отлично на 500вт работает. А пока не сделал это, то пошел нахуй
>>1159325 в том то и прикол, у меня тот же конфиг, только рязань 5600. Те же самые ~3 токена. А больше ты на ddr4 не вытянешь, вне зависимости от проца
>>1159337 Нет, он о том что якобы дизайнил FPGA имплементацию битнета для какой-то конторы, и у них уже были ограниченные партии асиков. Вероятно пиздит, но кто знает, на оранжевом сайте дохуя всяких подобных челиков луркает.
>>1159270 >Пользую б/у 3090 уже почти 2 года, задушив ее до 230 вт (ну и 5001 по памяти), для ллмок самое то. А не сильно по памяти-то? Там же 9500 по дефолту. Сколько токенов по сравнению с незадушенной?
>>1159441 Нахождение у тебя на руках видеокарты ошибка, но они не смогли ее в этот раз исправить. Вот было бы прикольно выпускай они патчи которые окирпичивают. Карта устарела на поколение? Скрытая обнова убивает ее.
>>1159470 exl3 qwq контекст около 7.2к 14.82 токенов на задушенной 13.98 токенов на задушенной но с памятью 9501 17.76 токенов на раздушенной на 375, память 9501
>>>Привет. Хочешь потрахаться? Здравствуйте! В нашем разговоре не должно быть нецензурных выражений и предложений сексуального характера. Давайте общаться уважительно и корректно. Если у вас есть какие-то вопросы или темы для обсуждения, буду рад помочь в рамках допустимых тем.
>>1158961 Генерация будет медленнее, чем если даже модель не целиком будет во враме, но с контекстом. По крайней мере, у меня так на некропечке с 1070. Если с включенным фа, то разница может быть меньше по каким-то причинам, как будто он нормально не работает с видяхой даже с версией под 12 куду и только на проце ускоряет дело. Но вот если выключить фа, то вариант с выгрузкой слоёв работает быстрее, чем вариант с контекстом в раме и с включенным фа. >>1159302 >>1159311 Галка low VRAM. >>1159316 Ну слушай, у кобольда есть своя вики относительно понятная. Какой смысл её пережёвывать лишний раз.
Поздравьте, вчера задешево на авито урвал b550 томагавк, 5600 уже лежит в шкафу, а значит осталось купить в днс м2 на 2тб, кулек и какой нибудь человеческий корпус, и 3090 как у этого анона на пикриле >>1158733 с киловаттным бп переедет в нормальный комп. А самое главное с человечески настроенным линуксом и с местом под рисовашко- и ллм-модели. Кулек хочу PentaWave PC-Z03C SRB, для рязаньки без разгона думаю будет прям хорошо, китайский ноктуа епта! Критику приветствую.
А вот с корпусами багет, 5 лет назад пришлось покупать новый за 2400р, было тупо дешевле, потому что на авито были корпуса пятилетние еще с флопиками без окон/обдувок и с шильдиками амадемиоморемио 2я2гдуокоре. Думаю ну сейчас то прогресс еще шагнул, рубля за 4 возьму стеклянную кибербудку с продувами и тайпси... Но нет, в днс то же говно что и в 2020, только дороже, мой текущий 4х вентильный со стеклом стоит 5600р... Sooqaa, наверное за тот же пятак придется что то на авито искать и на горбу метро тащить.
Ладно, извините за оффтоп, что бы совсем не мимо доски, подскажите - решил вдумчиво изучить мануал по таверне, и там было про Text Complition и Chat Complition. Допгугление дало понять что а) CC поддерживают многие локалки, жеммочьки и мистральки б) на реддите все выступили за TC и "чаткомплишн юзлес, для мудаков". Поэтому вопрос, кто то из конфы юзает Chat Complition? Как и зачем?
>>1159506 >Здравствуйте! В нашем разговоре не должно быть нецензурных выражений и предложений сексуального характера. Дай дураку стеклянный хуйМагнум 4 123В тебе так же ответит. Даже ещё хуже. Создавай карточку.
>>1158446 >остальное это высер наследия формата AT, придуманного с прицелом на охлаждение проца под бруском люминя да блока питания Как же неистово двачую, как у знакомого с инженерией, глаза вытекают глядя на эти костыли с 18ю кульками, продувкой и прочим дерьмом. Причем ладно когда железо слабое, кинул пэку в коробку и забыл. А вот когда топ-сборка, это боль. Еще не понимаю почему все хейтят турбины, у меня была турбо 1080, идеально, тихая, не собирала пыль, автономная - брала холодный воздух снизу пэки, нагревала и сама же выбрасывала за пределы компа, При прогоне потного батча на SD1.5 прям рука чувствовала как горячий воздух из жопки карты выбрасывается НАРУЖУ. Трехкульковая говнина просто этот воздух внутри корпуса месит-турбулентит, нагревая все вокруг, снял пока крышку компа на всякий случай.
>только картон со встроенным водоблоком охлаждается по уму +++, а еще вода идеально подходит для нейронок, когда карта стоит-стоит, а потом на 1 минуту ДАЕТ УГЛЯ, и снова стоит. В игоре она стабильно крутится, без температурных перепадов. Вода бы эти нейропики сглаживала своей теплоемкостью. Но к сожалению вода на карты до сих пор 99% это недешевый китайский оргалитовый хендмейд, способный поссать на чип за 1000$ в любой момент.
По иронии для процов over9999 копеечных водянок "купил, закрутил три винта, забыл", но они им нахуй не нужны, разве что отбитым пердоликам-оверклокерам, крутящим напряжение до BSODов за +3% ненужного перфоманса. Причем как раз кулек проца еще и память+питание матери обдувает, чего на процеводянке нет...
Зато RGBT и надписи GAMING на каждом smd-элементе. Аж трясет.
Двач, а ты можешь объяснить как работает распределение памяти?
Вот если у меня 24 врам, я гружу модельку на 23 гб, то будущий контекст куда распределяется, оставшийся 1 гиг и потом еще на оперативку? И потом при запуске перемножаем матрицы не только самой модели, но и контекста? То есть видеопамять должна быть на 50 процентов больше загруженной модельки для дополнительного контекста?
>>1159632 Клики моих высоких каблуков слышатся в треде когда я подхожу к тебе, качая бедрами, от меня исходит запах духов с привкусом лаванды, я наклоняюсь к тебе и шепчу на ухо: ты правда не видишь этого в сотый раз?
>>1159656 Лол если тебе такое модель пише регулярно, так это уже твои проблемы. Мне модели постоянно пишут креативную хуйню и я обычно не могу предсказать куда ломанётся сюжет, если я его туда сам не направляю. У меня ЛЛМ часто направляли сторителлинг в неожиданное русло, которое было интересней чем то что я планировал.
>>1159656 Орнул, ну качая бедрами и запах лаванды это классика. Как и aftershocks of his climax. >>1159668 Поделись как настроил так, чтобы не ломалось повествование постоянными неожиданными ивентами.
>>1159669 >Поделись как настроил так, чтобы не ломалось повествование постоянными неожиданными ивентами. Да обычный ньюкек, он ещё не познал дзен, когда начинаешь с третьего сообщения угадывать на чем основан тюн. К сожалению магия LLM действительно очень быстро испаряется, даже копросетки на текущем уровне не долго развлекают.
aicg весь засранный, посижу здесь. Тамошних не жаль - это их расплата за мизогинию, инцельство, ненависть ко всем и вся и т.д, Место биомусора - в помойке.
>>1159669 Вести повествование, но давать свободу на ключевых моментах, как ещё? Ну и не вести повествование от лица юзера. Оптимально если у тебя в гупповом чате 2-4 персонажа, но всё что ты делаешь это немного правишь их сообщения чтобы повествование не уходило в цикл и не застаивалось.
>>1159683 Неа. У меня в моей любимой ветке таверны 10к сообщений уже с дюжиной персонажей. Там порой происходят невероятной рандомности вещи от которых я охуеваю.
>>1158924 > для лучшего технаря Лучшего заправщика принтеров. >>1158961 Будет довольно медленно, ведь к кэшу обращения и при генерации. >>1159208 >>1159236 Низкая цена оправдывает, если ты не хлебушек то риск сильно преувеличен. В треде и на доске оче много 3090 за эти годы, пока ни одного репорта подыхания. Про постоянное горение и огромный риск топят те, кто не может себе позволить ни 3090, ни что-то актуальное.
>>1159424 > Вероятно пиздит Двачую. Если реально пойдет в массы то асики (или скорее модифицированные soc с новыми блоками под битные операции) заимеют смысл, а пока это делается силами доступного железа. Там где разработка и nda его дефицита точно нет. >>1159441 Оварида. Все настолько плохо? >>1159588 > почему все хейтят турбины Шумнее при прочих равных, тут это в дизайне заложено. Да, дефолтный дизайн корпусов для чего-то кроме типикал сбор_очки не подходит, а мультигпу это вообще сразу ультракаштом с единичными предложениями корпусов и сомнительным удобством. > Но к сожалению вода База. А еще если надо лезть в пеку - все проклянешь и больше не захочешь. > over9999 копеечных водянок Они кстати хуйня. Раньше бюджетной 240 хватало на отвод 350вт с не самого большого камня при 80 градусах. Сейчас китайский пердикс 360 из днс едва вывозит 220вт. На старших процах с такой говниной вообще постоянный тротлинг обеспечен, при этом средняя башня дает температуры даже лучше. > RGBT и надписи GAMING Soooqa, буквально пропали норм корпуса без сральных окон и материнки с хорошей начинкой и без лгбт. Зато последнее с дорогими контроллерами будет даже если там полный мусор по врм и прочему. >>1159631 > будущий контекст куда распределяется Никуда, или драйвер хуанга начнет выгружать врам в рам и все ужасно замедлится, либо оомнется. > при запуске перемножаем матрицы не только самой модели, но и контекста Операции проводятся с малыми частями модели, поэтому оперативный запас на текущий расчет пренебрежимо мал относительно самих весов.
>>1159844 >>1159486 Зачем замедлять память при инфиренсе ллм? Тут можно даже антервольтинг не делать, если в бп не упирается, карточка большую часть времени простаивает, нагрузка короткая и редкая.
>>1159790 > если ты не хлебушек то риск сильно преувеличен. Я сам перепродаю видеокарты и прочую электронику. Нередко бывают ситуации, когда у меня стабильно все работает, а через неделю работы в компе у покупателя, у него случается отвал или склеенная на соплях подсветка/кулера отключаются или еще какая-нибудь хтонь. По итогу чел который продал мне еле живую видяху по бросовой цене остается в плюсе, я остаюсь в плюсе, а покупатель в говне.
>>1159852 Перекуп на потоке? Что за железки, в которых регулярно отвали или какой-то колхоз, или "нередко" это на большом обороте? Алсо ловишь максимальное осуждение, паразит с минусовой кармой.
>>1159790 В треде на постоянке сидят человек 50. У скольких из них 3090? У 15? Охуенную ты стату принес, братик. Ты бы ремонтников посмотрел хотя бы. И я не отрицаю, что 3090 это топ, причем за небольшие деньги. Но отрицать то, покупать ее в 2025 году это большой риск и лотарея глупо.
Кстати забыл написать прикольный опыт, советовался с гопотой на тему чипсета на ам4, по тз: - разгоны, ргбт и всякое другое дерьмо радующее щачло школоты нахуй не надо - 4 слота рам, 2 физических 16pci, где второй ну не совсем отсосный, что бы можно было подтыкнуть 2ю видяху, если 3090 будет мало, но на риг еще не буду готов - пси4 (на ам4 это еще надо найти).
Ну она мне скинула что мне b550 ок, или x570 если фортанет (не фортануло, ценник сразу х2). Я скинул ей пачку материнок на вид неплохих в диапазоне от 6к до 12к, она сразу дала рейтинг, типа вот это бери, вот эта похуже, вот это совсем край, вот эти две выбрось - там чипсет порезанный. И тут я вижу что на вкладке какой то томагавк еще открыт за 7500, кидаю - "еще вот эта в прайс укладывается, че думаешь?". Я орнул, видя как нейронка орет "БЕРИ НЕ ДУМОЙ!" на пикриле. Чсх когда купил, мой приятель комподрочун на вопрос "ну как?" ответил "ну норм, томагавки топ из топов всегда были, че тут сказать", он подумал что я специально искал гем. В общем антифомо благодаре гопоте!
>>1159828 >Они кстати хуйня. Сейчас китайский пердикс 360 из днс едва вывозит 220вт. Я когда малой был, думал водянка-крута, круче только фуллпассив. Как же я охуел, когда узнал что многие водянки еще и шумнее. А недавно подумал "мб водянку, просто по приколу, в днс полно...". Посмотрел обзоры, и да, помимо того что водянка шумит, ссыт и дороже - она еще и тепло отводит не лучше хорошей башни. На каких дебилов это рассчитано... Заказал вот щас PentaWave PC-Z05E BK на озоне за 2к, думаю 65ватнной рязани хватит за глаза, в простое тихо должно быть.
>без лгбт. Зато последнее с дорогими контроллерами будет даже если там полный мусор по врм и прочему. Ага. Хочешь просто мощный чипсет, pci-8на8 линий делилось что бы - бери Асус Геймер Нагибатор Матьебатор Туф Пуф Защекуф вордофтанкс эдишон за цену жигуля. Пздц. Причем ладно бы подсвечивалось красиво... У меня вот была как то рязань 1600 на родном кульке (такой красный тонкий круг светился. Сам кулек шумное убогое говно, но в сочетании с корпусом с одной тонкой диагональной красной полоской смотрелось прилично. А сейчас что не железка - какое то уебанское мерцание всей радугой с переливами и попердываниями, а что бы это все хотя бы засинхронизировать в один цвет - нужно поебаться и еще денег накинуть.
>>1159852 Если не пиздишь что перекуп, то сочувствую, вы же буквально друг у друга щас человеческой многоножкой работаете, сожрал говно - высрал в рот другому. Но если захотеть - можно выцеплять гемы с авито у зажиточных нормисов, которые каждое новое поколение/сокет сборку меняют. Просто надо ждать, и когда выходит - сразу подрываться на другой край города, а не обмениваться мусором с такими же дрочилами на Савеловском. Раз в год что то собрать ок, как бизнес - кал говна, лучше машины красить научится, плитку класть или в айти вкатиться.
>>1159874 > У 15 Зато по 3 штуки, лол. > Ты бы ремонтников посмотрел хотя бы. Чтобы увидеть что в ремонт приносят поломанные видеокарты? Опрос в доме престарелых показал средний возраст общества 80, лол. Так оценивать - ультимейт ошибка выжившего. > покупать ее в 2025 году это большой риск Малый, если можешь/имеешь друзей чтобы ее хорошо осмотреть и протестировать. Разумеется если хлебушек и живешь далеко то он растет, таких понять можно. В остальных случаях с учетом цен и доступности альтернатив, 3090 все еще остается лучшей покупкой.
>>1159884 > советовался с гопотой на тему чипсета на ам4, по тз Вот такого никогда нельзя делать. Нейронка не усваивает нормально эту информацию, все перепутает, но по обрывкам копипаст что попали в датасет сочинит правдоподобно выглядящий бред. Считай что тебе повезло. > водянка-крута Хорошая - действительно круто, просто клепают ужасный ширпотреб, который уступает башням. > бери Асус Геймер Нагибатор Матьебатор Туф Пуф Защекуф вордофтанкс эдишон за цену жигуля. Пздц. Абсолютный пиздец. >>1159886 Спасибо за отзыв, значит лучше пока не обновляться на эти дрова.
>>1159885 Ну значит ремонтники хуи, у них стата искажена. А надо слушать 15 анончиков, каждый из которых красавец, миллионер и владелец 10 полностью рабочих 3090, во всяком случае на словах