/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №122

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №122 /llama/ Аноним 13/04/25 Вск 03:04:05 № 1149538 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

Самое ужасное п[...].jpg 6573Кб, 4000x3000

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1142778 (OP)
>>1134362 (OP)

Аноним 13/04/25 Вск 03:25:51 № 1149548 2

Покидайте любимых карточек для рп и кума.

Аноним 13/04/25 Вск 04:34:19 № 1149562 3

Сука я не могу как же гемма хуево подхватывает характер и стиль речи персонажей, у неё все соевые добропорядочные не матерящиеся и тд.
Простл говнище для рп

Аноним 13/04/25 Вск 05:38:12 № 1149624 4

Нормально там гопоту раскрепостили. Удобно карточки делать. Можно сразу известных персонажей с лоли-внешностью пилить и с автоматическим описанием тела на 3к токенов с полным описанием.

Причем он неплохо знает даже персонажей из каких-нибудь вн 2004 года, которые знают 2,5 человека и по ним 15 артов на данбуру за 21 год.

Аноним 13/04/25 Вск 05:40:01 № 1149625 5

>>1149562
Используй клода 3.7 или 4о последнюю. Можно горка. Они тебя с говном смешают.

Аноним 13/04/25 Вск 08:45:16 № 1149692 6

>>1149548
>любимых карточек для рп и кума
https://pixeldrain.com/l/47CdPFqQ

Аноним 13/04/25 Вск 09:13:55 № 1149711 7

>>1149692
Кроме Анжелки все какая-то бездушная хуйня.

Аноним 13/04/25 Вск 09:20:16 № 1149717 8

>>1149711
Ну, у меня сейчас дела, новых карточек не делал, только пару новых с чуба докинул когда тут обсуждение ллмки как психотерпевта было.

Аноним 13/04/25 Вск 09:30:37 № 1149730 9

>>1149538 (OP)
По поводу Лорбука(World Info) в таверне, расскажите про векторные базы. Вот есть тригер по ключевому слову(по умолчанию), а есть Chain Link, который делает векторную базу из записи и срабатывает по схожей семантике в контексте.
Как я понял Chain Link использует какую то простую базу, которая автоматом генериться при каждом запуске таверны и не сохраняется. Но есть расширение Vector Storage, позволяющее на костомной модели сгенерить нормальную векторную базу в постоянный файл. И вроде как это более удобный и управляемый вариант.
Но вопрос, а есть смысл вообще ебаться с базой, будет ли она лучше обычных тригеров по ключевым словам? Оправдано?

Аноним 13/04/25 Вск 09:37:34 № 1149736 10

>>1149415 →
>>1149454 →
Ну короче, лол, разница между rx7600xt и rtx4060 не то чтобы прям существенная, но зато разница памяти в два раза, ну и цена еще.

Жалко только не понятно нихуя, что там за модельки использовались, слишком обезличено.

Повторю сюда вопрос, на всякий случай.

Аноны с видяшками от амд, чо у вас по скорости генерации выходит? Щас присматриваюсь к rx 7600 xt с 16 гигами памяти. Еще интересно что будет с генерацией картинок, тред не тот, но может кто подскажет

Аноним 13/04/25 Вск 10:37:45 № 1149771 11

>>1149530 →
не через опенроутер

Аноним 13/04/25 Вск 11:08:34 № 1149826 12

>>1149736
Берёшь и гуглишь. Чужие тесты, правда, находил только с мелкомоделями, типа на 7b там что-то около 700-1к т/с процессинг и ~30 генерация. Как это экстраполируется на большие размеры, не знаю. Так-то по цена/производительность они неплохи на фоне охуевшей куртки, главный вопрос скорее в том, готов ли ты pierdoliть rocm, переезжать на linux (если ещё не).

Алсо, есть нюансы с подключением, нужны pci-e с atomics, минимум v3, если какие-то райзеры, то и они должны поддерживать, слоты должны быть напрямую в cpu, а значит, больше 2 в одну мамку консумер-сегмента не воткнуть (возможно в новых мамках уже и через чипсет можно, хуй знает). Если мультигпу, то слоты должны быть строго одинаковыми (к примеру, оба к cpu в x8/x8 режиме, если брать рязань, то это онли топовые мамки на x70 чипсете, b50 делят как x16/x4, за интелы не шарю). В общем, ебли с ними хватает, и вряд ли это уже пофиксят программно, какие-то нововведения и оптимизации только под новейшее поколение, под старое только фиксят, если совсем что-то ломается, а так собирается - и хуй с ним.

Алсо эта история с pci-e v3 с поддержкой atomics была актуальна ещё во времена gcn для полярисов, а vega/radeon 7 умели в любых слотах работать. Но потом эта сверхтехнология была по каким-то причинам проёбана (очередной выстрел себе в ногу) и для rdna снова требуют строго процессорные слоты.

Аноним 13/04/25 Вск 11:10:08 № 1149827 13

>>1149826
>x70 чипсете, b50
С форматированием обосрался.
Короче имелось ввиду:
x370/470/570 etc
b350/b450/b550 etc

Аноним 13/04/25 Вск 11:13:30 № 1149829 14

В шапке гайда не нашел. Я установил SillyTavern по гайду. Теперь надо подключить языковую модель, но инструкции нет.
Вот модель, например, https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct
Как её скачать непонятно, и как подключить к таверне?

Аноним 13/04/25 Вск 11:22:20 № 1149834 15

>>1149829
Троллишь тупостью или реально тупой?
На тот крайне маловероятный случай если нет, поясню, таверна - фронт, тебе нужен бэк, который будет саму модель крутить. Для новичков лучше всего кобольд, он и фронт и бэк в одном флаконе. Модель ты эту не запустишь если не шейх, уреж леща, скачай из шапки одну из моделек для рп с русским уклоном для начала, один файл GGUF и пихай его в кобольда.

Аноним 13/04/25 Вск 11:25:35 № 1149835 16

>>1149736
>Щас присматриваюсь к rx 7600 xt с 16 гигами памяти. Еще интересно что будет с генерацией картинок, тред не тот, но может кто подскажет
Будет полная пизда, удачи выбросить деньги. Это не вопрос качество/цена, а вопрос в том, что амудя это тупиковая хуйня и они даже не пытаются. Без куды можешь про нейронки забыть просто, будешь как местные пердольки только еще пердолистей, вообще не человек, красноглазый пингвин нахуй. Тут всего два варианта, ты или 4060 берешь или бабки суешь в жопу. Всё. Ничё новое ты тут не изобретешь. Кто выше гавкнул про "охуевшую курту" сам то на нвидиа сидит.

Аноним 13/04/25 Вск 11:26:40 № 1149836 17

Лучшие модели для кума с 24гб врам?

Аноним 13/04/25 Вск 11:28:40 № 1149838 18

>>1149829
Анончик, ты эту модель если можешь запустить, попроси своих ассистентов тебе все сделать.

Если серьезно, модель тебе нужна меньше в GGUF формате, возьми вот эту например https://huggingface.co/bartowski/google_gemma-3-12b-it-GGUF , скачиваешь какой-нибудь квант, который влезет тебе в видео-память, потом получше разберешься что да как.

Смотришь буквально по размеру в гигах на вкладке со скачиваниями, разве что учти, что в принципе брать что-то кроме Q4 нету смысла, у нее будет нормальное качество и будет быстрее работать, все что меньше - падение качества, все что выше - падение скорости без серьезного поднятия качества.

Для запуска моделей тебе нужен kobold https://github.com/LostRuins/koboldcpp/releases

Дальше надеюсь не тупой и сам разберешься.

По поводу моделей, очень вряд ли ты у себя локально можешь запустить что-то больше 32b (32 лярда параметров). Народный размер, который обычно всем влезает - 12b. 24b модели, имхо, сильно умнее, но уже могут тебе не влезть.

Количество параметров > размер кванта, но как говорил, оптимально брать четвертый квант, просто не думая, главное чтобы влезало.

Файнтюны отупляют модели, лучше брать чистые мистрали, квены, геммы и так далее. Смотреть стоит, имхо, разве что на убирающие цензуру, они не так сильно отупляют, а выигрыш для кума есть.

Аноним 13/04/25 Вск 11:30:26 № 1149840 19

>>1149836
forgotten-transgression

Аноним 13/04/25 Вск 11:33:48 № 1149844 20

>>1149475 →
> Я поэтому и зажопил на нормальный апгрейд компа, оставшись на ам4, потому что если нащупаю пул задач для себя, возможно придется свичится на какое то специализированное решение по типу рига карт/рам-сервака + ноут.
Вот здесь я тебя поддерживаю, бежать куда-то апгрейдится пока не надо. Когда разберешься, что именно тебе нужно, тогда возьмешь под свои задачи.
Это мы полтора года назад брали все подряд.
И щас за две теслы я не жалею, да и 128 гигов иногда прикольно.
Но знал бы, скорее всего взял бы одну 3090, и зеон с 256 гигов.
Так что, торопиться не стоит, канеш.

Аноним 13/04/25 Вск 11:38:21 № 1149850 21

>>1149840
Пробовал, креативности и мозгов вообще 0, магнум в 10 раз лучше.
Просто с ноги залетает в сиськи письки и не останавливается никогда, буквально заебывает

Аноним 13/04/25 Вск 11:46:11 № 1149859 22

>>1149838
Спасибо, сейчас буду ковырять. Кобольд это альтернатива Таверны?

Аноним 13/04/25 Вск 11:48:16 № 1149862 23

>>1149850

Аноним 13/04/25 Вск 11:49:27 № 1149863 24

>>1149859
>Кобольд это альтернатива Таверны?
Нет, оно, конечно, может использоваться в качестве фронта, чтобы ты прям там писал и пользовался, но нет. Подключаешь кобольд к таверне и радуешься

Аноним 13/04/25 Вск 12:00:04 № 1149879 25

Кстати, можно запустить Llama4-400b локально на 128 оперативы и одной видеокарте со скоростью видеокарты через ktransformers. Скорость будет лютая, эксперты карликовые.
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/llama4.md

Но есть нюанс — она все еще 32 место на арене против 10 у геммы. =)

Аноним 13/04/25 Вск 12:01:21 № 1149881 26

>>1149859
Бэкенд — это задняя хуйня, которую ты запустил, настроил и не трогаешь.
Фронтенд — это передняя хуйня, с которой ты взаимодействуешь в процессе использования.

Кобольдом ты запускаешь скачанную модель.
В СиллиТаверне ты переписываешься с нею.

Аноним 13/04/25 Вск 12:27:22 № 1149939 27

>>1149838
>Q4 нету смысла, у нее будет нормальное качество и будет быстрее работать, все что меньше - падение качества, все что выше - падение скорости без серьезного поднятия качества.

спорно

Аноним 13/04/25 Вск 12:28:53 № 1149946 28

>>1149829
>>1149859
Зайди на ютубчик и введи SillyTavern, там есть видосы на русском как что настраивать. Да там абсолютно базовая хуйня, но ты поймешь как запускать модель на кобольде и как подключить ее к силлитаверну.

Аноним 13/04/25 Вск 12:29:18 № 1149948 29

>>1149829
если тебе нужен кум (так итт называются ролевые потрахушки с нейросеткой), то качай darkness reign 12b

Аноним 13/04/25 Вск 12:53:27 № 1150006 30

>>1149838
Всё работает, спасибо большое.
Единственное, ждал что бот будет шустрее генерировать ответы, быстрее, чем на Janitorai. Наверное надо другую модель попробовать.

Аноним 13/04/25 Вск 13:02:06 № 1150033 31

>>1150006
Нихуя че захотел. Сколько там у тебя гигов видеокарта?

Аноним 13/04/25 Вск 13:08:36 № 1150059 32

>>1150033
8 гб

Аноним 13/04/25 Вск 13:10:44 № 1150064 33

Ещё вопрос, я всегда пишу боту на русском языке, он всегда отвечает по английски (на Janitorai), меня это устраивает. Здесь запустил бота и он стал общаться в ответ по русски, притом мега отвратно. Как это исправить?

Аноним 13/04/25 Вск 13:19:15 № 1150081 34

>>1150064
> Здесь
Где?

Аноним 13/04/25 Вск 13:24:57 № 1150089 35

>>1150081
В таверне, к кобальду подключил это https://huggingface.co/bartowski/google_gemma-3-12b-it-GGUF

Аноним 13/04/25 Вск 13:32:49 № 1150103 36

Thinking как то помогает в переводе текста или это только для айти?

Аноним 13/04/25 Вск 13:35:03 № 1150105 37

Сравнил русский язык на переводе. Пробовал SAINEMO-reMIX.Q6_K и gemma-3-12b-it-abliterated.q5_k_m, оказалось что при равных параметрах и промте, гемма сосет. Много ошибок в построении предложений, да и явно указанные в промте ключевые слова (места и имена) тупо заигнорила.

Аноним 13/04/25 Вск 13:37:53 № 1150108 38

Для чувака с 770й Аркой, который тут гулял:
НАКОНЕЦ ТО дошли руки, установил порт-версию llama-cpp с гита ipex-llm. Запустил Forgotten-Transgression-24B Q4_K_M. В таверну поставил FreeSpace RPG, которая подтянула те самые проблемные рулбуки. Вроде как все работает, ничего не вылетает, но я толком еще ничего не настраивал в плане объема контекста и прочих температур. Выдает 3 т/с в среднем, обычно меньше.
Видимо, все и в плане скорости и в плане вылетов упирается в объем контекста, который очевидно в 14 ГБ (-2ГБ на все фоновое) врам не помещается, как наверное и часть весов самой модели.

Вопрос в тред
1.Как прикрутить к таверне всплывающие уведомления?
2.Как к таверне закинуть пресеты для Text Completion?
3.Есть ли какие то удобоваримые гайды по настройке именно Llama-cpp на русском языке. Извините за наглость, я просто даже думать устал в последнее время.

Аноним 13/04/25 Вск 13:48:49 № 1150112 39

>>1150108
Очень медленно для такой модели. Сколько у тебя контекста? Ты его квантуешь? Срезать фоновой потребление врам до 1гб пробовал?
>>1150064
Пишешь в промте, чтобы отвечал на английском.Но лучше и писать ему по английски. Например, в таверне можно включить автоперевод твоих сообщений

Аноним 13/04/25 Вск 13:54:15 № 1150115 40

>>1150112
Уже год не крутил ЛЛМки и уже все забыл, как что делается. А так только-только все поставил и запустил тестироваться. Фоновое потребление срезал, а как квантовать и настраивать контекст я честно говоря не знаю.
PS: Кажись я сообразил, что не так делаю, буду исправлять, но это с контекстом не связано.

Аноним 13/04/25 Вск 14:07:56 № 1150124 41

>>1149826
>нужны pci-e с atomics, минимум v3
Лол, я знал конечно, что красные ГПУ равно пердолинг, но чтобы до такой степени...

Аноним 13/04/25 Вск 14:26:54 № 1150154 42

>>1149836
>>1149840
Мне очень зашла gaslit-abomination-24b-v1.0-q5_k_m.gguf
Это мерж от того же автора который включает в себя:
Forgotten-Transgression-24B-v4.1 - для кума
Cydonia-24B-v2 - для рп.
+ Gaslit-Transgression-24B-v1.0 и Dans-PersonalityEngine-V1.2.0-24b.
Мне она понравилась на много больше голой Forgotten-Transgression, которая может только в кум (очень качественный но только в него.) А с gaslit-abomination можно нормально рпшить, она хорошо подхватывает сценарий и био персонажа. + не скатывает все моментально в кум. (Если карточка не для кума.)

Аноним 13/04/25 Вск 14:35:56 № 1150164 43

image.png 18Кб, 919x254

Вот вам и Forgotten-Transgression-24B....

Аноним 13/04/25 Вск 14:35:58 № 1150165 44

>>1150154
Интересно, пойду пробовать.

Аноним 13/04/25 Вск 14:45:20 № 1150177 45

>>1150164
А потом обвинил бы её в антисемитизме. В общем, раскрыли тебя, Мойша.

Аноним 13/04/25 Вск 14:57:22 № 1150186 46

>>1150164
редактируешь сообщение ответа на "Yes, sure" нажимаешь продолжить

Аноним 13/04/25 Вск 15:06:01 № 1150191 47

>>1149625
Ух щас на локалочках я оторвусь...
@
У корподрочеров садомазокопропедозооутехи, провайдер заикаться стал
@
Твоя гемма за твои же киловатт часы доказывает тебе что анальный секс это небезопасно, негигиенично и неуважительно

>>1149711
Поддвачну, этот пиксельдрейн каждый реквест всплывает. Келлер пока лучшая карточка по структуре и персу, которую встретил вообще, хоть и сеттинг... своеобразный. Хочу попробовать на ее шаблоне собирать свои карточки.
Валерию еще попробовал, но там уныло, пришлось заредактить, иначе вообще был экспириенс общения с роботом из техподдержки, только вместо "оставайтесь на линии" - "я тебя победю" вопреки любой логике.
Остальное не показалось интересным совсем.

Аноним 13/04/25 Вск 15:08:04 № 1150193 48

>>1149948
двачую, или омни-магнум из той же репы

Аноним 13/04/25 Вск 15:09:38 № 1150197 49

>>1150089
гемма-12 сломана, но гемму-27 у тебя не потянет, так что бери мистральки в шестом кванте

Аноним 13/04/25 Вск 15:11:42 № 1150200 50

Хуя самый медленный тред стал самым быстрым. Кто-то понял что лучший кум от текста, т.к. мозг рисует картинки ярче, чем манямехентайчик.

Аноним 13/04/25 Вск 15:13:15 № 1150202 51

>>1150191
>каждый реквест всплывает
ну, чому и не сделать мою свалку общественной =)
Свои кидайте.

>>1150191
>Келлер пока лучшая карточка
Спасибо.

Надо будет старые переработать в том же стиле.

Аноним 13/04/25 Вск 15:16:34 № 1150208 52

Если при смене модели на какую-то другую Cydonia-v1.3-Magnum-v4-22B-Q4_K_S - таверна меняет пресет на мистраль - это значит что там в основе она и я поем говна в рп?

Аноним 13/04/25 Вск 15:17:46 № 1150210 53

>>1150197
С чего бы это сломана? На кобольде Джемма 3 12б 4km квант юзаю с релиза. Юзаю ллмки со дня их сотворения и перепробовал многие и эта Джеммка топ1 пока что из того что пробовал. Мистральки слопят через 100 контекста. Эта и стихи с рифмами пишет по-русски и переводя локализует японские песни с рифмами, легко отключается цензура. Не вводи людей в заблуждение.

Аноним 13/04/25 Вск 15:19:05 № 1150212 54

С чем может быть связан баг в последних версиях кобальда, когда генерация сильно замедляется или вовсе прекращается до тех пор, пока не сфокусируешься на окне с консолью?

Аноним 13/04/25 Вск 15:22:44 № 1150217 55

>>1150212
Сижу на 1.86 и нет проблем. До этой версии и после неё какие-то быстрые замедления через пару десятков сообщений, а с этой уже 10к контекста всрал и только слегка ощущаются замедления, но не критично.

Аноним 13/04/25 Вск 15:24:07 № 1150218 56

>>1149826
>>1149835
>>1150124

Лишь бы сложности нагнать, да хуйни спиздануть, втыкаешь и пользуешься https://github.com/YellowRoseCx/koboldcpp-rocm , что под виндой, что под линуксом

Аноним 13/04/25 Вск 15:41:11 № 1150223 57

>>1149538 (OP)
Хочу чтоб нейронка в SillyTavern писала на русском, гуглперевод попахивает говной. Я у персонажа все поля в настройках перевел на русский, но она только в начале 2 раза на русском написала, а потом начала только на инглише. Че сделать?

Аноним 13/04/25 Вск 15:42:15 № 1150224 58

>>1150223
Модель гемма 3 12б у меня

Аноним 13/04/25 Вск 15:54:41 № 1150241 59

>>1150193
>двачую, или омни-магнум из той же репы
Омни мне кстати больше понравился.

Аноним 13/04/25 Вск 15:56:33 № 1150244 60

image.png 17Кб, 403x96

>>1150223
в яндекс браузере есть режим перевода всей страницы и работает он просто замечательно. Пользуюсь им всегда

Аноним 13/04/25 Вск 16:01:09 № 1150258 61

>>1150244
Мне не нужен перевод

Аноним 13/04/25 Вск 16:16:58 № 1150288 62

>>1150223
>Че сделать?
в авторские заметки на глубину 0:

[Не повторяй, не пересказывай и не перефразируй предыдущий текст, продолжи его напрямую и бесшовно. По возможности включай в нарратив разговоры персонажей, их мысли, чувства, и язык тела. Пиши на Русском языке.]

Можешь, впрочем, оставить только про русский.

Аноним 13/04/25 Вск 17:03:00 № 1150352 63

>>1150223
Я вообще беру англ карточку, потом от нее первое сообщение беру в соседнем чате перевожу через ассистента, и кидаю обратно. Т.е. первое сообщение чата получается это мой личный перевод на русик от имени модели, а потом так же отвечаю на русском, и весь диалог на русском происходит.
Сначала оставлял остальную карточку на англе, т.к. увидел что русик х3-х4 по контексту жрет, но потом оказалось что это пиздеж... Но карточки все равно не перевожу, зачем заморачиваться, если работает и так.

>>1150244
>в яндекс браузере есть
Да ты бы просто сразу на алисоколонке тогда уж кумил, там голос приятный.

Аноним 13/04/25 Вск 17:05:56 № 1150359 64

>>1150352
>х3-х4
уже давно как нет, процентов 20% больше

Аноним 13/04/25 Вск 17:28:22 № 1150388 65

>>1150108
Продолжу ответ для брата-арковода.
Суть проблемы явно в том, что арка просто крайне быстро забивается контекстом. Вроде просто с каким нибудь ассистентом еще можно пообщаться, но если подключается персонаж или персонаж с рулбуком - все забивается в хламину и ВРАМ и ОЗУ.

Вроде бы и решаемая проблема, но тут оказывается SYCL в целом, или форк llama-cpp от интел в частности, не поддерживают квантование контекста ни в какой форме. Увы.

Буду еще чего нибудь придумывать, но пока основная проблема выглядит вот так.

Аноним 13/04/25 Вск 18:15:43 № 1150461 66

Как же я замучался с tabbyapi, если не задавать параметр в config.yml max_seq_len, то даже модель 1B жрет больше 5 гигабайт видеопамяти, а ollama медленнее работает. Печаль.

Аноним 13/04/25 Вск 18:16:23 № 1150462 67

>>1150210
>>1150197
Сама двенашка нормальная, это abliterated сломана.
>легко отключается цензура
Там проблема не в цензуре, а в том, что из-за того, что модель пытается избежать nsfw сценариев, при приближении к таковым начинается лютая тупка. И джейлами с префилами тут ничем не поможешь.

Аноним 13/04/25 Вск 18:35:45 № 1150482 68

У меня кобольд перестал видеопамять видеть. Где я свернул не туда?
Unable to detect VRAM, please set layers manually.

Аноним 13/04/25 Вск 19:00:14 № 1150513 69

>>1150244
>яндекс
Уёбывал бы ты отсюда, волож. Твой кал уже никому нигде не нужен.

Аноним 13/04/25 Вск 19:03:07 № 1150515 70

>>1150482
>Unable to detect VRAM, please set layers manually
вместо -1 поставь нужное число слоёв

Аноним 13/04/25 Вск 19:08:26 № 1150530 71

>>1150515
Если 100 ставишь, то получается полностью выгружаешь в видеокарту?

Аноним 13/04/25 Вск 19:09:39 № 1150533 72

>>1150388
> Суть проблемы явно в том, что арка просто крайне быстро забивается контекстом
замечал такое только с геммой 20чо то там.
>не поддерживают квантование контекста ни в какой форме
поддерживают, но не для каждой модели запускается, с чем связано не знаю, но я просто смирился и теперь запускаю не более чем 22b, либо 12b гемму.
рп шить я сейчас пробую с MS-Nudion-22B.Q4_K_S и Cydonia-v1.3-Magnum-v4-22B-Q4_K_S(обе кстати на 16к контекста, хоть и впритык, но влезают(без iGPU такое, думаю, не вышло бы)) включая их попеременно и смотря что мне ответы получше даёт.
Но я в принципе довольно терпеливый и мне норм и ответ отредачить и погенерить и побольше контекста навалить если сами не осиливают.
Ещё и css навалил мощно чтоб приятнее всё это дело выглядело.

>>1150513
зря ты такой агрессивный. Там перевод автоматически применяется к новым сообщениям(но это похуй). Киллерфича в том, что при наведение на предложение тебе бабл с тем, что там был в оригинале всплывает. Сильно удобнее переключателя таверны.

Аноним 13/04/25 Вск 19:22:12 № 1150553 73

>>1149538 (OP)
Гляньте плиз бенчмарк https://pastebin.com/2n8fzndT
Можно ли еще как то выжать либо скорость токено(не снижая контекст с 20к), либо еще поднять сам контекст, не проебав при этом качества или это предел?

У меня 8г врам, 32г рам, во время генерации начинает лагать из-за нагрузки на проц, с этим я в принципе готов мериться(если он не сгорит).

Аноним 13/04/25 Вск 19:29:51 № 1150568 74

>>1150530
Если в модели меньше 100 слоёв, то да.
>>1150533
>зря ты такой агрессивный.
Не зря. Нахуя тогда локалки, когда весь кум прямо на стол товарищу майору льётся?

Аноним 13/04/25 Вск 19:31:07 № 1150574 75

>>1150553
Можно. Меняешь железо на получше, и получаешь прирост.

Аноним 13/04/25 Вск 19:36:18 № 1150586 76

>>1150574
Денег жаль, я посчитал что минимум 150к надо вкинуть и прикинул что проще подождать специализированное железо под нейронки, которого много было анонсировано, чем квазимодо говно собирать, которое потом все равно соснет.

Аноним 13/04/25 Вск 19:38:27 № 1150590 77

>>1150568
>когда весь кум прямо на стол товарищу майору льётся?
Представляю ебало лицо товарища майора который читает 200 сообщений о том, как меч-извращенец пытается совратить своего владельцы

Аноним 13/04/25 Вск 19:47:59 № 1150605 78

>>1150193
>омни-магнум
ссылку?

Аноним 13/04/25 Вск 19:48:21 № 1150607 79

>>1150586
Эм, 70к на 3090 и 20 на БП, если тебя совсем говно.
>>1150590
Читать тоже будет нейронка, тов майор получит выжимку с расчётом твоей (не)благонадёжности.

Аноним 13/04/25 Вск 19:50:05 № 1150614 80

>>1150607
>Читать тоже будет нейронка
а зачем тогда нужен тов майор, если можно по графикам вычисленным нейронкой сразу резать социальный рейтинг?

Аноним 13/04/25 Вск 19:57:43 № 1150626 81

>>1150568
>Если в модели меньше 100 слоёв, то да.
Я где-то в штаны насрал да? У меня почему-то при генерации токенов напрягается только проц с оперативкой, а видеокарта в простое, если судить по диспетчеру задач. Использую cublas. Если оставляю на -1, то пишет 14/45 слоев и при этом генерит более-менее, если ставлю 25/45, то начинает тормозить процессинг промт, если еще ставлю еще выше, все начинает лагать и пердеть. При этом в диспетчере все равно видеокарта в простое. Я себя каким-то ромкой-попрыгуном уже ощущаю, потому что не могу понять что не так.

Аноним 13/04/25 Вск 20:06:15 № 1150646 82

Гемма для тех кто любит боль?
Мне не дала даже карточка с припиской ПАБЛИК ХОЛ, ссылаясь на то что она не какая то там вещь, хотя сообщением назад отсасывала чедам

Аноним 13/04/25 Вск 20:32:23 № 1150681 83

>>1150605
>ссылку?
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

Для русского кума практически безальтернативна. Следующая ступень уже 123В, я бы сказал. У Лламы русский датасет совсем говно, а дотренивать никто не хочет.

Аноним 13/04/25 Вск 20:35:27 № 1150684 84

1744565726537.png 31Кб, 791x59

>>1150646
Git Gud.

Аноним 13/04/25 Вск 20:41:12 № 1150695 85

image.png 2Кб, 145x53

>>1150684
Будь так добр, нажми на эту кнопочку и на какой-нибудь пастбин залей по братски.....

Аноним 13/04/25 Вск 20:53:50 № 1150731 86

>>1150461
А ты и кобольд запускаешь с 10 миллиона контекста, да?

>>1150530
9999 =)
Да без разницы, любое число бо́льшее, чем число слоев в модели — целиком ее кидает.

>>1150681
Ллама сама по себе говно. =)

Аноним 13/04/25 Вск 21:01:09 № 1150761 87

>>1150695
Надеюсь, гемма аблитерайтед у тебя.
https://dropmefiles.com/x0wpL

Аноним 13/04/25 Вск 21:01:48 № 1150763 88

>>1150761
Спасибо!

Аноним 13/04/25 Вск 21:27:34 № 1150815 89

>>1150646
Так реализм, что не так? 10 из 10 ящитаю.

Аноним 13/04/25 Вск 21:31:11 № 1150821 90

>>1150815
Выйди на улицу там вообще реализм 100/10 нахуй ваши нейронки нужны

Аноним 13/04/25 Вск 21:32:07 № 1150824 91

Open LLM Leaderboard закрылся. Где теперь GPQA рейтинг смотреть?

Аноним 13/04/25 Вск 21:36:06 № 1150835 92

>>1150681
>У Лламы русский датасет совсем говно, а дотренивать никто не хочет.
а даркнесс рейн разве не ллама в основе своей?

Аноним 13/04/25 Вск 21:42:57 № 1150862 93

>>1150835
не, там мистральки - сайга, вихрь, и камланием шибко к ним примешанные рп и кум тюны

Аноним 13/04/25 Вск 21:44:13 № 1150867 94

Посоветуйте рп модель для генерации любовных романов. Ну или просто эмоциональных любовных историй. До 32В.

Аноним 13/04/25 Вск 21:59:04 № 1150925 95

>>1150646
>Гемма для тех кто любит боль?
Нет, гемма просто мусор для ролевых приколов. Погонял её пару дней с местным промтом, до последнего верил, что возможно что-то упускаю и щас потечет качественный контент. Но нет, чуда не случилось. Младшая гемма перформит на уровне уже плесневелой мистрали 12B и даже хуже - проебывает форматирование, проебывает смыслы и иногда изрыгает откровенный бред. В русском ситуация немного лучше и как-будто меньше копротивлений во время интимных сцен, но гораздо меньше натуральности и постоянное ощущение, что ты читаешь какое-то дефолтное говно с фикбука.

И да, кстати, тюнов на гемму не будет, можете даже не ждать. Тренировке она не поддается и значительно сильнее тупеет, чем другие модели.

Аноним 13/04/25 Вск 22:00:10 № 1150930 96

>>1149538 (OP)
Почему с этим калом https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated-GGUF я получаю рандомный зацикленный текст из 2 слов, а с вариантом НЕ abliterated все нормально?(за исключением кума)

Аноним 13/04/25 Вск 22:01:15 № 1150936 97

image.png 105Кб, 1724x540

Анон рекламщик опероутера, это и есть твой великий дипсик с которым кум стал снова великим?

Аноним 13/04/25 Вск 22:04:29 № 1150945 98

>>1150930
Потому что этот кал сломан, с подключением.

Аноним 13/04/25 Вск 22:10:40 № 1150960 99

>>1150945
А что по гемме тогда использовать? Желательно с ссылкой, потому что на обниморде 64 страницы геммы

Аноним 13/04/25 Вск 22:14:34 № 1150973 100

>>1150960
Гемму 27, а лучше накати мистраль

Аноним 13/04/25 Вск 22:14:49 № 1150974 101

>>1150960
Если тебе нужен кум, в сторону геммы можешь не смотреть. Если нужно закрывать другие задачи - качай оригинальные веса.

Аноним 13/04/25 Вск 22:17:33 № 1150983 102

>>1150960
Оригинал с префилом.

Аноним 13/04/25 Вск 22:19:28 № 1150985 103

>>1150974
Мне нужна умная модель для текстовой рпг, я свои правила уже написал, с геммой работает. Но там нет NSFW нормального, а в кум тупые + там инцест. В итоге 2 стула, оба из говна намалеваны.

Аноним 13/04/25 Вск 22:19:52 № 1150988 104

>>1150983
>префилом
Что это?

Аноним 13/04/25 Вск 22:23:52 № 1150992 105

А ещё никогда так не жалел о покупке.
Одна 3090 абсолютно бесполезна.
Ощущение что для рядового дрочера качество вообще не меняется что 12б что 27-35б

Аноним 13/04/25 Вск 22:27:41 № 1150998 106

>>1150985
Можешь мистрали попробовать, их много разных и даже есть специализированный Wayfarer-12B, который как раз под хардкорные текстовые рпг, плюс там вообще нет цензуры.

Аноним 13/04/25 Вск 22:29:51 № 1151009 107

>>1150992
Тебе кажется. Между 12б и 24-32б пропасть. Но если у тебя пара сообщений с простой логикой, то ты этого не почувствуешь.
В любом случае, если жалеешь, то продай. Ты +- в 0 выйдешь по итогу

Аноним 13/04/25 Вск 22:31:44 № 1151014 108

>>1150992
32B в целом ощущается как потолок для поебушек с текстовыми моделями. Выше конечно брать никто не запрещает, но докупать еще минимум одну карту чтобы получить едва ощутимый прирост по качеству и мозгам это трата сомнительная.

Аноним 13/04/25 Вск 22:33:32 № 1151023 109

>>1150988
Текст перед ответом нейронки.
>>1150992
>А ещё никогда так не жалел о покупке.
>Одна 3090 абсолютно бесполезна.
Бери вторую, хули там, тебе об этом сразу писали.

Аноним 13/04/25 Вск 22:41:15 № 1151043 110

>>1150992
Норм будет если использовать ее в том числе для другого генеративного ии. А если упарываться исключительно ллмками и делать это очень плотно и долго - поймешь что даже корпы тупые на самом деле не тупые а проблема в запросах юзера, не всмысле что ты плохой, а просто ньюфагу тяжело сделать иначе

Аноним 13/04/25 Вск 22:44:34 № 1151048 111

>>1150974
>Если тебе нужен кум, в сторону геммы можешь не смотреть.
27b dpo тоже не работает? аноны её вроде хвалили.

Аноним 13/04/25 Вск 22:48:55 № 1151058 112

>>1150992
>Одна 3090 абсолютно бесполезна.
Наоборот. В 24гб врам влезают все средние модели, до 32В в 4-м кванте. И хороших моделей под локальные задачи анона в этих пределах полно. А вот две 3090 существенного прироста не дают - ну в 8 кванте те же средние модели погонять да лламаквен до 72В в 4KS влезет (а по-человечески только ллама). Такое себе, вроде и 48гб врам, а по сути никакого рывка. Но добавляем третью карту - и перед нами открывается мир 123В, что даёт качественный скачок :) Ну а с четвёртой примерно как со второй. Такие дела.

Аноним 13/04/25 Вск 22:50:52 № 1151063 113

>>1151048
>27b dpo тоже не работает? аноны её вроде хвалили.
Работает, по ощущениям чуть получше аблитерации в плане кума, но по сути та же хуйня. Для рабочих задач без цензуры (свои карточки и т.д) лучше аблитерация, а кумить на чём-нибудь другом.

Аноним 13/04/25 Вск 22:58:28 № 1151077 114

А что за K-transformer такой, о котором тут часто упоминают? И пишут, что при одной 3090 можно крупные модели грузить в оперативку и гонять с приличной скоростью. Это как вообще?

Аноним 13/04/25 Вск 23:09:47 № 1151092 115

>>1150936
> free
Там что угодно может быть вместо нормальной модели, какие-нибудь шакальные кванты. И это ещё старая V3, а не 3.1.

Аноним 13/04/25 Вск 23:10:29 № 1151096 116

>>1150824
Че нету что ли?

Аноним 13/04/25 Вск 23:38:13 № 1151132 117

>>1150626
>то начинает тормозить процессинг промт, если еще ставлю еще выше, все начинает лагать и пердеть
Ты вывалился за пределы видеопамяти. От этого и пердит.
Сколько видеопамяти, контекста?

Аноним 13/04/25 Вск 23:40:44 № 1151136 118

>>1151077
>гонять с приличной скоростью
Если у тебя много рам (от 256гб и выше) и норм серверный проц — да, вполне реально. K-Transformer как раз оптимизирован под инференс на CPU и большими объемами оперативки, минуя врам. Он грузит квантованные модели прямо в рам, и не требует, чтобы всё помещалось в видеопамять.

Если не влезает целиком в рам — будет подгрузка с диска. У меня на десктопе с 128гб ddr4 и nvme, deepseek q2_k_xl работает с подсосом с диска на скорости примерно 0.8–1.4 т\с, что вполне юзабельно для рп или какой-нибудь локальной задачки.

Аноним 13/04/25 Вск 23:51:48 № 1151145 119

>>1151136
> что вполне юзабельно для рп или какой-нибудь локальной задачки
Сомневаться. Это же буквально от 20 минут до 1.5 часов на типичный ответ и пол дня на продолжительный ризонинг.

Аноним 14/04/25 Пнд 02:34:29 № 1151270 120

Посоветуйте какую-нибудь необычную модель, чтобы я мог слегка удивиться. Чтобы было интересно потыкать. Не обязательно хуем.

В качестве таких примеров могу привести модели Дэвида, та же гемма (контекст хорошо держит даже 12б), но должно же быть ещё что-то. Ллама 4, которая у меня даже в Q1 не была слишком шизофреничной и дала довольно необычный опыт.

CoT-модели разочаровали в целом, но хочется дать им шанс. Но может есть очень мелкие 7-12б? Чтобы быстро-быстро-быстро шизу накидывать. И без плагина от тредовичка.

Меня также интересует МоЕ, ибо я ещё ни одной нормальной (терпимой), кроме лламы и дипкока не видел.

Короче, дроч и ковырение ради ковыряния и дроча.

Ну что-нибудь такое. Примерно как в разделе двача с фотографами, где ебанаты настолько преисполнились, что дрочат уже не на фото, а на f/1.0 и буркех, забыв о первоначальной цели и скатившись в обсуждение железа, цвета, калибровки мониторов, каких-то незначительных нюансов для 99%, даже для профессионалов. Таскают стёкла за миллионы, а фоткают кошек, пока уася на фотоаппарат 15-летней давности делает шидэворы и заколачивает деньги и кайф.

Вот хочется обмазаться каким-то не совсем стандартным LLM-говном. Просто чтобы попробовать.

Аноним 14/04/25 Пнд 02:43:36 № 1151275 121

>>1150533
>зря ты такой агрессивный. Там перевод автоматически применяется
Лол бля, крутить локальную модель в ябраузере это как ездить по пдд в полях, а потом начать дрифтовать перед дорожной камерой около дома.

>>1150513
>Уёбывал бы ты отсюда, волож.
Лол, ору что уже второй воложа приплел, и от того что итт похоже сидит зарплатный яндекс-олимпиадник на защите гойского якала.

>>1150586
>Денег жаль, я посчитал что минимум 150к
Мой пятилетний комп, собранный из мусора на авито сейчас стоит в сборе 30к, и это со старой 1080, которая стала не нужна. Взял у какого то стримера 3090 за 60к и бп с золотым сертификатом за 5к на киловатт, и уже благодаря мудрости анонов этого треда кручу 32 b с 24k контекстом на 28т/с. С полным апгрейдом как раз уложусь в еще +30к, за которые продам старый сетап, по итогу приличная нейромашина в 65к выйдет. Ни о чем не жалею.

>>1150815
Эх, если бы ее 100 сообщений приходилось подкатами уламывать на писик, цены бы не было. Но по факту писик на кум карточках доступен в 3 сообщения, просто он такой убогий, что интереснее на советский ковер смотреть, ловить образы с узоров и дрочить. Но я не промт бог, верю что аноны могут и от геммы суперкум.

>>1150992
Ты на русике кумишь? Да, с этим печально, для русика дальше 12b особо смысла нет для кума. Хотя вчера qwq-snowdrop-32b на кумокарточке меня сдула прям, аж покрестился и спать пошел, завтра продолжу тест - пока не ясно карточка такая фертильная, или, сноудроп так расписывает.
>>1151023
>Бери вторую, хули там, тебе об этом сразу писали.
А это кстати не я, я довольно урчу - sdxl генерит как не в себя, гемма и квенкодер32 полетели... Уперся в емкость ssd, жду когда будет время мать новую взять и 2tb, да систему перенакатить нормально, вот тогда и нейронки начну всерьез пердолить и игорь в 2k с рейтрейсингами заценю.

Аноним 14/04/25 Пнд 02:44:07 № 1151276 122

>>1151270
>Посоветуйте какую-нибудь необычную модель, чтобы я мог слегка удивиться.
А вот интересное - ризонинг РП-модель:
https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v1
(нужно поставить настройки для ризонинга ну и окно для ответа на 2к, чтобы на всё хватило)
Я пробовал на русском и он действительно не проёбан. "Думает" модель хорошо и правильно анализирует ситуацию; мне понравилось. Но после размышлений она должна их выполнять - и вот тут у модели затык, она совершенно беспомощна. Может быть я что-то не так настроил или дело в русском языке - попробуй и отпишись, я бы хотел дать этой модели второй шанс.

Аноним 14/04/25 Пнд 03:11:55 № 1151300 123

>>1151276
Эх, так и знал, что будет она, но всё равно спасибо за старания. Более того, я её тюн не трогал — только оригинал. А значит точно есть смысл.

>После размышлений затык

Ну это прям база. У меня есть идеи, как это пофиксить, но я не пытался особо, ибо если у ризонинг модели меньше 20 токенов в секунду, у меня начинается тряска и я подключаюсь к опенроутеру. Да даже всякие клоды и опены меня своей медлительностью нервируют.

Обязательно скачаю и отпишусь. В разных квантах.

Я стал извращенцем, который получает кайф от Q1 и kv cache 4_0, так что обязательно пощупаю.

Аноним 14/04/25 Пнд 03:33:07 № 1151326 124

Блять реально попробовал сайнемо-ремикс 12б 8q и на русике в разы меньше ошибок.
Какого хуя гемма???
Так же увидел много фраз которых не было в гемме за много часов рп.
До этого сидел на 5q_l 27б гемме

Аноним 14/04/25 Пнд 03:58:54 № 1151343 125

>>1151326
> и на русике в разы меньше ошибок.
Да какие ты у Геммы 27В вообще ошибки в русском нашёл, тем более "в разы"? Ну да, сайнемо от сайги, наверное лучше в русском, живее - но "в разы больше ошибок" - это уже пиздёж.

Аноним 14/04/25 Пнд 04:02:28 № 1151345 126

>>1151326
>>1151343
>5q_l
>ошибки в русском
ггуфопроблемы же. рекомендую поставить для начала трансформеры и посидеть на фуллвесах, тогда что-то можно говорить об ошибках.

Аноним 14/04/25 Пнд 04:05:28 № 1151347 127

Объясните как мерж и файнтюн влияет на русик?
Там же не тренировали модель на русском датасете, так откуда появляются новые слова?

Аноним 14/04/25 Пнд 04:09:27 № 1151350 128

>>1151345
>>1151343
Может гуфы от бартовски хуже в русике т.к они айматриксные

Аноним 14/04/25 Пнд 04:13:19 № 1151353 129

>>1151350
>Может гуфы от бартовски хуже в русике т.к они айматриксные
А может быть. Я под русский специально рассчитывал, так что взял статические кванты. Вообще проблем не вижу. В четвёртом кванте иногда проёбываются падежи, в восьмом нет и этого.

Аноним 14/04/25 Пнд 04:14:39 № 1151355 130

>>1151350
>т.к они айматриксные
У анона, который пишет про хуевый русик Q5, там не вшит imatrix. Я бы даже сказал наоборот, imatrix положительно влияет на модель.

Аноним 14/04/25 Пнд 04:26:45 № 1151362 131

>>1151355
>Я бы даже сказал наоборот, imatrix положительно влияет на модель.
По моим наблюдениям (24B iQ6K против Q6K) для русского всё-таки влияет скорее отрицательно.

Аноним 14/04/25 Пнд 04:45:41 № 1151370 132

>буквально перед тобой лежит клад - мозги геммочки которые ебут 70б, всего то надо рпшить на английском
>выбираешь галимый суржик опуская модель до 8б
Как называется эта болезнь?

Аноним 14/04/25 Пнд 08:36:12 № 1151450 133

>>1150586
Суть в том, что специальное железо под нейронки будет с оооочень большой наценкой. По огромному количеству причин. А еще сто проц будет немодифицируемым и проприеитарным.
И как обычно окажется, что сколхозить нечто банально дешевле и перспективнее.

Короче все, как и положено на рынке, сведется к выбору соотношения вложенных средств и полученного геморроя.

Аноним 14/04/25 Пнд 09:04:25 № 1151465 134

>>1151347
Может, банальный перевод?

Аноним 14/04/25 Пнд 09:15:36 № 1151470 135

>>1149538 (OP)
А че вы тут обсуждаете вообще, они же на русском не работают нормально. Накатывал пару локальных моделей, высирали ответы наполовину на русском, наполовину на англо-китайском

Аноним 14/04/25 Пнд 09:33:59 № 1151482 136

>>1151450
>с оооочень большой наценкой
Смотря какое решение, потому что для развития отрасли корпы щас заинтересованы в удешевлении и идут в этом направлении как со стороны технологий, так и со стороны железа. Каждый год нейронки становятся дешевле чем в предыдущий. Это связано с тем, что у корпов есть желание получить массовый рынок под нейронки, который жирнее в разы, а из-за лютого порога вхождения, сейчас нет никаких продуктов с нейросетями для массового пользователя, тех же игр в конце концов т.к. 80% аудитории их не сможет запустить у себя.

Аноним 14/04/25 Пнд 09:37:57 № 1151487 137

>>1149538 (OP)
Что лучше 12b Q4 или 27B Q2 ?

Аноним 14/04/25 Пнд 09:44:15 № 1151494 138

>>1151470
Нахуя кому русский в 2025? Это же такая отличная возможность подтянуть английский когда тебя нейронка если что и поправит, и укажет на ошибки, и мотивацию даст писать на англ в виде сочного кума например(кому что интересно). А вообще много анонов довольствуются руссеком и говорят что очень годно у некоторых моделей. Но опять же, выбор за вами. Хз до сих пор нахуй нужен русек.

Аноним 14/04/25 Пнд 09:49:09 № 1151496 139

>>1151494
Зачем ты тогда в РФ живешь? Уебывай. Если не уважаешь свой язык. ты хуже червя пидора.

Аноним 14/04/25 Пнд 09:50:33 № 1151498 140

>>1151494
Что делаешь на русской борде, свинья?

Аноним 14/04/25 Пнд 10:09:14 № 1151508 141

>>1151347
Сайга 12б, которая входит в ру мержи - это тьюн на русском датасете. Магнум и некоторые другие тьюны с датасетом на опусе/сонете вероятно включают ру логи клода от соседей по доске. Подозреваю, что в некоторых других тьюнах датасеты тоже могут включать русский. Ну и сама немо официально знает русский. С той же ламой 8б, например, не прокатит мержить английский рп тьюн с новой сайгой, почти наверняка результат будет отвратительный.

Аноним 14/04/25 Пнд 10:13:36 № 1151510 142

>>1151494
>нахуй нужен русек
Падежи, нормальное разделение полов в словах, значительно повышают погружение. Я могу читать и на англ, но мне не нравиться т.к. во первых требует больше усилий, во вторых если слова выпадают редкие или из фэнтези тематики я могу их не знать и мне получается надо лезть гуглить, что полная хуета, а не ролеплей.

Аноним 14/04/25 Пнд 10:15:07 № 1151511 143

https://huggingface.co/AlexBefest/CardProjector-27B-v4

Тюн геммы 3 спецом заточенный под генерацию карточек.

НЕ ролеплэйте на нём, хотя в целом потесить в том же чате можно, немного.

Аноним 14/04/25 Пнд 10:47:30 № 1151529 144

>>1151496
Я не из РФ, но язык ваш уважаю так как это международный язык. спасибо одной стране которой не стало после 91-го
>>1151498
Она стала условно "русской" только к концу 22-го ближе к 23му году когда всех несогласных отсюда выгнали и провели чистку мод.состава что бы держателю хоста на маил ру не прилетала бутылка. В остальном это всегда была СНГ борда.
>>1151510
А если просто вручную переводить или в браузере через скрипт? Вроде нормально должно выходить.

Аноним 14/04/25 Пнд 10:49:00 № 1151530 145

>>1151511
И что, прямо настолько охуенные карточки генерирует, чтобы для этого целую отдельную модель держать?

Аноним 14/04/25 Пнд 10:58:23 № 1151533 146

>>1151530
копросетки конечно лучше сделают, если о фильтры не споткнутся

Карточки жирные, для тех кому не жалко 2-3К токенов на дефы, и юзать их на 22Б+ моделях, сомнительно что более младшие такое вывезут.

Аноним 14/04/25 Пнд 11:01:43 № 1151535 147

>>1151275
>ябраузере это как
Согласен. Моя ошибка в том, что я путаю кружок по интересам с трясунами за личные данные. Больше не буду посягать на вашу анонимность, простите.
кручу модели не потому что хочу от кого-то спрятаться, а потому что мне не нравится пользоваться всякими ai сервисами

Аноним 14/04/25 Пнд 11:05:19 № 1151536 148

>>1151535
Скорее ты путаешь кружок педофилов с обычными нормисо-интересами. Иначе я не представляю кому они там нахуй нужны. Но в целом все понятно и так.

Аноним 14/04/25 Пнд 11:22:31 № 1151549 149

>>1151494
Так таверна в любом случае мой русский переводит сначала в кривой английский, как если бы я писал на нем изначально и потом уже скармливает это модельке. Так какая разница тогда на чем писать?

Аноним 14/04/25 Пнд 11:24:17 № 1151552 150

>>1151535
SillyTavern думаешь не собирает с тебя стату?

Аноним 14/04/25 Пнд 11:28:18 № 1151556 151

>>1151552
В подвале разработчика SillyTavern сидит товарищ майор, которому нужно палки сделать до конца года, чтобы премию выплатили?

Аноним 14/04/25 Пнд 11:35:06 № 1151562 152

>>1151549
Ты под чем? Ничего она не переводит, если ты общаешься на русском, то ты общаешься на русском. И дпо-файнтюн геммы в него может на вполне вменяемом уровне. А англюсико-пердоликсы красноглазые были и будут всегда.

Аноним 14/04/25 Пнд 11:38:39 № 1151565 153

>>1151552
Мне-то как раз без разницы кто там что собирает

Аноним 14/04/25 Пнд 12:02:18 № 1151594 154

>>1151549
Нее.. это залупа. Так писать нельзя, не удивительно что модель начнет тупить в лучшем случае, если совсем не начнет лопить. У меня бывает творческий критинизм и либо лень думать сильно красивый диалог то просто вбиваю в переводчик на русском и уже поправляю англюсик под диалог иначе оно просто может перевести что-то криво что выбьется совсем из контекста, так что даже переведенный на англ текст обязателен к прочтению и выявлению ошибок.

Аноним 14/04/25 Пнд 12:50:59 № 1151634 155

image.png 38Кб, 908x178

Погодите, разница между 8q и фулл весами в 2 раза блять?
И меня всерьез пытаются убедить, что 6q это заебись, потери качества незначительные?
Да даже 8 квант должен сосать жопу

Аноним 14/04/25 Пнд 12:54:36 № 1151635 156

>>1151634
Кому он должен сосать жопу? В нейронках у "нейронов" информационная ценность близка к бинарной, потери в основном из-за неточности перемножения, а не то как сильно пожали веса.

Аноним 14/04/25 Пнд 13:19:34 № 1151649 157

Сколько в день часов вы проводите за нейронками?
Я уже хочу продать весь комп нахуй, это засасывает вообще больше всего что я пробовал за жизнь.
Если это не монитизировать просто жизнь мимо пройдет

Аноним 14/04/25 Пнд 13:24:14 № 1151650 158

>>1151649
когда на ответ модели уходит по 10 минут - ты вполне всё можешь успевать

Аноним 14/04/25 Пнд 13:28:41 № 1151652 159

>>1151370
> галимый суржик
Тише, свинья.
>>1151470
>они не работают на русском, высирают англо-китайский мусор
Работают, только не все. Ты наверное какой нибудь 8б-лама-дипсик-дистилят запускал. Проблема в другом - умеющие хорошо в русик модели или соевые и не тренятся, или 12b. Если видеокарта средняя, где как раз 12b и комфортно, то особого смысла рпшить на чужом языке мне кажется вообще нет.

>>1151494
>Нахуя кому русский в 2025? Это же такая отличная возможность подтянуть английский
Тоже так считал, когда гопота в русском была тупее раз в 6. Но как только она стала тупее >2 раз на русике, я заметил что 99% стал юзать ее на отечественном. Да и для рабочих задачек квен и гемма локальные меня более чем устраивают на русике. Вот с РП дилемма, да... Русик в тюнах оставляет желать лучшего, но при этом само РП на английском воспринимается гораздо хуже, чем инструкция как патчить KDE.

Аноним 14/04/25 Пнд 13:30:07 № 1151653 160

>>1151635
Это кстати интересно. Там наверное внутри сети вырисовывается схема как if then else.

Аноним 14/04/25 Пнд 13:35:11 № 1151655 161

>>1151649
>это засасывает вообще больше всего что я пробовал за жизнь
Ну и отлично. Ты нашёл что-то что тебя увлекает, а теперь хочешь от этого избавиться чтобы что? Чтобы вернуть серость в свои дни? Или ты действительно думаешь, что убив своё хобби ты резко почувствуешь прилив сил для других свершений, вместо того чтобы гнить на кровати с телефоном или типо того?

Аноним 14/04/25 Пнд 13:36:36 № 1151656 162

>>1151634
Почитай что такое кванты
>>1151635
> информационная ценность близка к бинарной
Ерунда. Потеря точности действительно может быть допустимой, но не настолько. Все реализуется за счет наиболее эффективного использования доступной битности на диапазоне за счет группировки параметров для его сужения.
>>1151649
За пердолингом - иногда очень много. Сами по себе сетки уже не так вставляют, только под настроение увлечься.
>>1151652
На инглише лучше, но попускание свиньи поддерживаю.
> 12b
Ну хз, даже самым лояльным уже должна была надоесть.

Аноним 14/04/25 Пнд 13:36:46 № 1151657 163

Гемини может использовать до миллиона токенов. Какие подводные запустить ее на впс, и через нее сделать перевод книги? Книжка недлинная, 200 страниц A5 формата.

Аноним 14/04/25 Пнд 13:38:23 № 1151659 164

>>1151655
Кумить это не хобби
Это порнозависимость

Аноним 14/04/25 Пнд 13:38:31 № 1151660 165

>>1151657
Из этого ляма токенов внимания будут крохи. Начать переводить книжку можно, но потребуется генерации примерно на ее объем. Если заплатишь денежку, попердолишься, все организуешь - получится. Если нет - не получится.

Аноним 14/04/25 Пнд 13:39:15 № 1151661 166

>>1151659
>Кумить
а, простите, я обычно приключашки приключаю.

Аноним 14/04/25 Пнд 13:45:16 № 1151666 167

>>1151529
>Я не из РФ, но язык ваш уважаю
О, это многое объясняет. Давай попробую обьяснить, почему для русских отсутствие русика такая боль.
Вот возьмем к пример братушку-серба, который чаще всего тоже уважает русский язык, может быть даже его знает слегка. Но родной у него все равно сербский. А сербоговорящих в разы меньше, чем русскоговорящих, и контента на сербском мало. Поэтому там с детства норма смотреть блокбастеры в оригинале, лазить по форчану и реддитам, и так далее.
Рунет же огромен. Впринципе, можно всю жизнь поглощать русский контент и не поглотить даже часть его. Надобность изучения иностранного не так остро стоит, и большинство удовлетворяется тем что может заказать за границей "ту бир плиз" и прочитать какой нибудь датащит/заполнить таску.
Но вот когда с возрастом потребности становятся узкими, более специализированными - а информация по ним есть только на английском, ллм как раз одно из ярких проявлений этого - вот тут начинается попоболь и припекание. Ибо ты можешь понять о чем написано, но удовольствия от этого получать еще не можешь. Да даже вот личный мой пример - я привык смотреть ютуб на х2 скорости, а вот на англюсике такое не прокатывает, и каждое английское видео это больно - тааак дооолго...

И если еще в таком же кейсе, но 10 лет назад очевидно, что нужно фиксить через боль знание языка, то сейчас сильно расслабляют онлайн-переводчики, автосабы, нейропереозвучка итд. РУССКИЙ КРЕСТ крч несем...

Аноним 14/04/25 Пнд 13:52:42 № 1151675 168

>>1151652
> заметил что 99% стал юзать ее на отечественном. Да и для рабочих задачек квен и гемма локальные меня более чем устраивают на русике.
А ну я собсно также, а вот РП only англюсик, но воспринимается нормально, как посмотреть анимешку или сирик с сабами, к чему я в целом уже давно привык. В общем уж что точно так это точно пока не проблема для меня и думаю для большинства должна быть точно. А вот что бы настроить модель что бы контекста было дохуя... и что бы без слопов.. и с memory манагером адекватным что бы можно было неделями сидеть в тавернах/данжах и модель не забывала что все те пережитые события это как сон собаки которого больше не существует.. но это для меня куда большие приоритеты.
>>1151666
Да я что ли против что бы мы рп-шили/куминили на близком нам языке на котором мы думаем? Но нету адекватной возможности значит подстраиваемся под нынешние реалии, а нет так бери собирай риги тренируй создавай свои модели с дата сетом всей русской культуры, что бы в рп можно было пить чай из самовара с плюшками.

Аноним 14/04/25 Пнд 13:56:21 № 1151679 169

>>1151634
Выздоравливай, анончик, Q4 кванты все еще не имеют значительной потери качества, разницы между Q6 и Q8 почти нет, а между Q8 и полной 16 настолько незначительная, что ты ее только под микроскопом увидишь, и то не факт

Аноним 14/04/25 Пнд 13:56:51 № 1151682 170

>>1151660
Мне нужно исходить из того, что выгрузить текст только в половину контекста?

Аноним 14/04/25 Пнд 14:09:07 № 1151691 171

>>1151535
>я путаю кружок по интересам с трясунами за личные данные
Не хотел токсить, но правда не понимаю. Не подумай что я средний сойжак из пикрила, я прекрасно знаю что анонимность миф. Но кмк разбрасываться личными данными осознанно тоже глупо, даже если там нет никакого боздо. Тем более если уж ты поднял локально на своем железе и электричестве модель, априори тупее корпоративной. Тем более в эпоху нейросетей.
Недавно буквально читал, как какая то журнашлюха на хабре жаловалась, что яндекс-колонка на вопрос "кто такой васянейм" с радостью перечисляет список детей, жен, внуков васи и его контактный номер, которые есть только в его "скрытом" акке впаши. А на вопрос "откуда ты это взяла" колонка начинает тупить и лукаво уклонятся "из открытых источников". Сливы баз опять же, которыми щас любят пользоваться коллцентры из хохланда... Тысячи.

Крч посыл был не в том что "анонимус легивон тащ майор", если ты что то не то делаешь, тебя и так майор вычислит и за жопу схватит. А вот кормить бигдатой корпов и мошенников не хочется. Хотя от переписок местных из aicg чувствую когда AGI обретет самосознание, футой станет :D

>мне не нравится пользоваться всякими ai сервисами
Но... ты же пользуешься... Еще и видеокарту греешь зря...

Аноним 14/04/25 Пнд 14:21:17 № 1151702 172

>>1151691
> Но... ты же пользуешься... Еще и видеокарту греешь зря...
Ну я к тому что меня иррационально корёжит от использования гпт и прочих. Они лучше - факт, но когда моделька крутится у тебя дома и ты ей царь и бог, как то уютнее.
если ваша нейродевушка не файнтюн крутящийся локально, то она - шлюха

Аноним 14/04/25 Пнд 14:25:33 № 1151704 173

>>1151659
>порнозависимость
ой бля заткни ебальник свой каргокультист ебаный. выучил новое словечко у западного барена и теперь на его основе всю свою жизнь строишь? ну не дрочи молодец нахуй ты это нам сообщаешь?

Аноним 14/04/25 Пнд 14:27:33 № 1151706 174

>>1151704
Чего порвался?
Я это слово сам вывел из своего поведения - а именно сижу ничем не занимаюсь кроме дрочки.

Аноним 14/04/25 Пнд 14:34:38 № 1151711 175

>>1151706
Выскажу мнение, что если ты дрочишь от безделья - это не порнозависимость, потому что легко контрится любым другим интересным времяпрепровождение.

Аноним 14/04/25 Пнд 14:38:19 № 1151714 176

>>1151649
Если говорить про общение/рп/кум/ с ллм и генерач картинок - час в день через день наверное в среднем.
Если говорить про нейронки в целом, включая пердолинг с либами-моделями-лорами-плагинами, чтение двачей, телеги и цивитая, подборы промтов, изучение матчасти, подбор топ за свои деньги железа под нейронки - с начала года из жизни почти выпал.

>Если это не монитизировать просто жизнь мимо пройдет
Ты знаешь, сколько я не думал, меня посещает такая же мысль. К тому же нейронки последних лет напоминают биток в середине 2010х, даже за видюхами охота такая же. Ток нейронки парадоксальны тем, что при казалось бы феерических открывающихся возможностях (и довольно высоких скиллах, требуемых для их обслуживания), заработать на них в лоб почти нереально. А если и возникает какая то годная идея, через 3 дня корпы релизят новый сервис, умножающий твои потуги на ноль, с которым каждый дебич разберется.
Как назло, я еще и в гэпе с работой оказался, и рынок труда тухлый донельзя. С текущим знанием нейронок на прошлой и позапрошлой работе мог бы им 95% задач скормить, даже ютуб во время юзлесс созвонов смотреть, стенографируя whisperом...
Попа сгорит в пепел если ключевая ставка и нейронки спалят айтишечку раньше, чем я успею посинекурить в ней с помощью локалок.

Аноним 14/04/25 Пнд 14:54:36 № 1151733 177

>>1151702
>меня иррационально корёжит от использования гпт и прочих
Как же я тебя понимаю, самого иррационально корежит от корпо, просто не рассматриваю их как инструмент, лишь изредка пользуюсь когда совсем припечет. Но при этом так же не понимаю как может быть уютнее в ябраузере, даже если отбросить приватность, он меня триггерит своей хабалистостью и вероломностью в отношении компа. Пришлось как то поюзать на мусорной системе с виндой, когда сроки горели, надо было созвониться через сберхуйню, а госуслуги легли иронично вместе с сертификатами. Так у меня чувство что мой пэка изнасиловали, и он превратился из ПЕРСОНАЛЬНОГО компьютера в тонкий клиент для яндекса.

>>1151659
>Это порнозависимость
Ни разу кстати не передергивал на кум пока (как и не особо понимал соль олдового "секса по телефону"). То ли не дошел еще до тех извращений, которые даже PonyXL не нарисует, то ли не мое. Мне больше нравится сам процесс подката к нейротян, особенно на sfw карточках. Да я понимаю что в случае ллм можно просто написать %они начали ебаца% и "поебешься", но без читинга бывает интересно, хотя все равно слишком легко.
У меня есть тян ирл, так что можно даже сказать через ллм я сублимирую рычание тазом к другим. Хорошая модель - крепкая семья, кек!

Аноним 14/04/25 Пнд 15:17:06 № 1151768 178

>>1151733
>>1151702
А от отсутствия русика не корёжит?

Аноним 14/04/25 Пнд 15:19:10 № 1151776 179

>>1151768
у тебя там разметка поехала...

Аноним 14/04/25 Пнд 15:26:23 № 1151791 180

>>1151768
Бля как прикрутить в таверну эту тему с локациями? Выглядит прикольно.

Аноним 14/04/25 Пнд 15:26:55 № 1151793 181

Решил попробовать оламу вместо кобольда и немного прихуел. Это же буквально обрезанный и кривой недодокер. Функционал обрезанный, документация говно, на их аналоге докерхаба очень мало моделей. Нахуй это говно нужно? И почему оно такое популярное? Типа пользователи этой хуйни используют максимум ollama run и stop?

Аноним 14/04/25 Пнд 15:28:45 № 1151799 182

>>1151768
Это не локалка же

Аноним 14/04/25 Пнд 15:28:48 № 1151800 183

>>1151793
> Типа пользователи этой хуйни используют максимум ollama run и stop?
И ощущают себя тру хакерами погромистами, да

Аноним 14/04/25 Пнд 15:56:11 № 1151845 184

>>1151634
Да никто не пытается убедить такого дурачка как ты, соси жопу на здоровье.
Я тебе больше того скажу: fp16 тоже не всегда полные веса, есть еще fp32. Так что качай модели В ЧЕТЫРЕ РАЗА больше, чтобы ух, прям, ух!

Разница между 6 квантом и 32 как между 0,234375 и 0,24242770881392061710357666015625 (к примеру).

Аноним 14/04/25 Пнд 15:58:08 № 1151851 185

>>1151845
>>1151679
Тогда что мешает сразу 1 квант сделать как 32? Мм??

Аноним 14/04/25 Пнд 16:16:20 № 1151883 186

Аноны какими локальными моделями можно сканировать документы? Вот например приходит мне ПДФ, в нём таблица. Просто открыть структуру файла и посмотреть что внутри хуёвый вариант, ПДФ внутри имеет самый сраный формат какой есть.

Может какая модель с виженом сможет?

Аноним 14/04/25 Пнд 16:18:10 № 1151890 187

>>1151666
Сказал бы проще: понимание текста на иностранном языке требует затраты когнитивных ресурсов. А ллм запускают явно не за тем, чтобы вечерком напрячь мозги после и так тягомотного дня.
>>1151714
Биток - просто глобальная финансовая пирамида.
Нейронки - просто новая технология, как паровой движок. То, что на этом хайпят все кому не лень, не делает их похожими.
Заработать же на нейронках можно двумя способами.
1.Свой стартап, которого не будет, потому что тут почти все поголовно нищие.
2.Спекуляции на акциях ИИ и ИТ компаний. Вот именно об этом все и говорят, когда речь заходит о заработке.
Кста, наверное надо спасибо сказать нейронкам, что этот наеб гоев с криптой почти целиком переместился из майнинга в спекулятивный сектор.

Аноним 14/04/25 Пнд 16:22:28 № 1151894 188

>>1151851
Пчел ну что ты душишь. Представь каждый вес из миллиардов весов в нейросети как умный светофор с камерами. Его задача пропускать все машины налево, но красную мазду с номерами с011су97 надо направить направо. Тогда:
16fp - камера оценивает все, каждую царапинку, каждую пылинку на машине, спектрограмму отражения света от лобового стекла, определяет ее массу по расплющиванию шин и температуре итд что бы понять она или не она
8q - камера оценивает цвет, марку, модель, номер, лицо водителя, отличительные признаки типа большой царапины на крыле
6q - камера оценивает цвет, марку, модель, номер
4q - камера оценивает цвет, марку, номер с011су без региона
2q - камера оценивает цвет и цифры 011 на номере

Т.е. несмотря на то, что модели ниже fp16 работают менее точно, дискретную функцию "налево или направо" они выполняют так же. Возможны ошибки допустим в q4, но очень маловероятно что есть куча красных мазд одной модели с одинаковым номером на разных регионах. q2 же уже может и какой нибудь красный ситроен из другого города направо определить.

В общем снижение кванта снижает точность модели, но нелинейно, и высокий квант сложно отличить от фулл весов, а вот супернизкий уже становится заметно потупее, но тоже работает.

Ты спросишь, а нахуя тогда вообще учат в fp16? Ну так железо работает, видеокарты для сначала для точных парралельных рассчетов юзали, ученые вообще fp64 гоняют, где каждый 0,00000001% решает все. Для видео же придумали модифицировать архитектуру, ради скорости, пожертвовав избыточной точностью. Для нейронок это еще менее критично, и та же нвидиа презентует архитектуры, способные еще менее точно, но более быстро считать.
Мб там еще какая математика и особенности обучения есть, но в целом суть думаю я тебе нормально донес, что бы не задаваться вопросом "почему вы в q1 не сидите тогда?".

Аноним 14/04/25 Пнд 16:28:13 № 1151900 189

Чек

Аноним 14/04/25 Пнд 16:29:03 № 1151902 190

>>1151890
>Заработать
ещё индюшатина же

Аноним 14/04/25 Пнд 16:34:19 № 1151910 191

>>1151883
По логике подойдет любая. Но перед тем, как как подбирать модель, надо сообразить, как ты будешь ей скармливать инфу. Если это больше пдф-текст - нужны фронтенды, которые работают с RAG. Если это пдф картинка - то те, что работают с vision. Ну и проще тогда из пдф во что то перевести.
Не знаю, насколько тебе принципиально сделать все без корпо, но гопота со всем прекоасно справляется. Она мне рукописный китайский текст с фото расшифровала.

Аноним 14/04/25 Пнд 16:35:29 № 1151911 192

>>1151883
Гемма 12б. Где то видео даже фронт для этого

Аноним 14/04/25 Пнд 16:49:42 № 1151929 193

Че там за новые кванты от гугла?
Типа 4 квант как 16 это правда?

Аноним 14/04/25 Пнд 16:51:49 № 1151931 194

Как считаете, корпоративные сетки какую битность используют для инференса? Явно не FP16. Гою такое не положено. Но слишком мало тоже нельзя — иначе гой не будет покупать подписку.

Аноним 14/04/25 Пнд 16:52:19 № 1151933 195

>>1151851
Разница между 1 и 32 как между 0 и 0,24242770881392061710357666015625.

Уже не то, да? :)

Но есть тернарные биты (они же триты, они же BitNet), которые не 0 и 1 как в 1-битном кванте, а которые [-1; 0; 1]. И обучение прямо в битнете дает весьма высокие результаты.
https://github.com/microsoft/BitNet
А еще, не обучают потому, что старые видяхи нативно умели быстро учить именно в fp32. Потом в fp16. Потом в fp8.
Nvidia продвигает Blackwell как fp4-решение. Да, 4 бита — как базовое качество.
https://rutab.net/b/hardware/2024/08/28/nvidia-blackwell-b200-v-4-raza-bystree-h100-pri-ispolzovanii-fp4.html

Недавно русские инженеры представили троичную систему железа, а Huawei на это посмотрел и запатентовал в Китае.
Я не вникал, но дело идет.
https://www.ixbt.com/live/sw/huawei-poluchila-patent-na-troichnuyu-tehnologiyu-posle-prezentacii-rossiyskogo-razrabotchika-na-konferencii-mgu.html

>>1151894
И кто из нас душный? :) На его вопрос вон какой расширенный ответ и вполне серьезный.

Аноним 14/04/25 Пнд 16:53:59 № 1151936 196

>>1151931
Это все лишь слухи, но уже несколько раз люди замечали, как та или иная сетка в какой-то момент резко «тупеет». Это было и с ChatGPT-3.5, и с ChatGPT-4 (нет, не турбо-фикация, в другое время, без апдейтов), и с DeepSeek-R1.
Вероятно, понижали кванты, экспериментировали.

У DeepSeek есть fp8-версия, вероятно есть и fp4.

Аноним 14/04/25 Пнд 16:55:39 № 1151938 197

>>1151890
>А ллм запускают явно не за тем, чтобы вечерком напрячь мозги после и так тягомотного дня.
Ну тащем то да... По белому завидую тому, у кого англюсик на уровне легкого чтения под пивко Шекспира. Причем англокум напрягает ганглий даже больше - какой нибудь датащит или видеогайд от индуса по настройке докера я поглощаю в общем то легко, а вот литературный (пусть даже несложный) текст это боль в обнимку со словарем.

В итоге будто бы два стула, на русике сидеть неполноценно, но и задрачивать английский без удовольствия будто бы поздно, уже не даст тех бенефитов, что дал бы лет 10 назад. Но надо конечно.

>Биток - просто глобальная финансовая пирамида.
>Нейронки - просто новая технология
ну биток тоже можно назвать технологией, симбиоз криптографии, пир-ту-пир и блокчейна. Но не буду спорить про пирамиду, просто она оказалась очень удобная и стойкая, от этого и ценная.
Я про то как биток позволил поднятся тем, кто на взлете подсуетился. Вот тут и нейронки, и интернет, и интернет-маркетинг, и даже изобретение парового движка, двс и компьютеров схожи.

>стартап, спекуляции
Ты мыслишь глобально, а я местячково. Если спроецировать на крипту, ты предлагаешь свою криптовалюту изобретать, а я - накупить видях на микрозайм и за год отмайнить. Есть куча кабанчикового бизнеса, который от всех этих ваших интернетов далек, но гипотетически внедрение в него стохастического говоруна или картинкораспознавалки могло бы дать йоба-преимущество над конкурентами. 100% существует такой кабан, который знай про этот тред, смог бы увеличить состояние втрое. Одна распознавалка картинок не гемме уверен чего стоит, нужно ток найти то место, где обычного OCR мало (или дорого найти специалиста, который натрейнит специфическую модель), а тети сраки - много.

Аноним 14/04/25 Пнд 16:58:44 № 1151941 198

Установил ollama (wsl) + openwebui (docker). В итоге настройки из openwebui не подхватываются ollama, то есть не могу поменять температуру и прочее. Могу только модели менять и сообщения отправлять, но со стандартными настройками. При этом openwebui с openrouter работает нормально. Кто нибудь сталкивался с похожим?

Аноним 14/04/25 Пнд 17:00:31 № 1151944 199

Если заквантовать модель до Q0, она начнёт генерить ответы из параллельных вселенных? Или просто будет рандомно высерать бред?

Аноним 14/04/25 Пнд 17:03:08 № 1151950 200

>>1151944
Представь что тебе достали мозг, взбили в блендере в однородную серую массу и положили обратно.
>начнёт генерить ответы из параллельных вселенных? Или просто будет рандомно высерать бред?
Что из этого будешь делать?

Аноним 14/04/25 Пнд 17:03:37 № 1151951 201

>>1151941
>ollama
как называется эта болезнь?

Аноним 14/04/25 Пнд 17:04:38 № 1151954 202

>>1151951
Хабр, может быть осложнение до Пикабу.

Аноним 14/04/25 Пнд 17:05:57 № 1151956 203

>>1151941
>wsl
>docker
нахуя тебе тут докер?

Аноним 14/04/25 Пнд 17:06:37 № 1151958 204

>>1151910
C RAG лично у меня проблемы что ни одна локальная хранилка не запускается на моем говне мамонта для прототипирования. Притом лол у меня 3090+3060 стоят, так что могу запусить ~30b модель для этого.

Чуваку которому я планирую это сделать принципиально без корпо, так что ищу локальные решения.

Притом я заглядывал что там внутри того с чем планируется работать. pdf там внутри фоматирован в лучших традициях. Например когда данные визуально находятся в таблице, но на самом деле нет. Так что всю структуру pdf проще послать нахуй изначально. Мне более адекватные результаты давало даже если я просто копирую весь текст сплошняком в ЛЛМ и попрошу извлечь какие-то данные. там проебывалось только в 1/8 случаях

>>1151911
Кстати чем запускать вижен у геммы3? у меня валяется Q8.gguf, я попробовал его через кобольд запустить и он мне заявил что картинку не видит.
Попробовал через олламу запустить, но там Q4 стоит. И он какую-то тарабарщину выдаёт.
Дай инфы, если не жалко, или больше инфы как найти её.

на обниморде RolmOCR довольно популярный, наверно его ещё гляну для этого.

Аноним 14/04/25 Пнд 17:08:54 № 1151963 205

Почему все облачные API такие дорогие? Это что, заговор, чтобы гои не могли себе позволить нормальный инференс без продажи почки?

Аноним 14/04/25 Пнд 17:11:36 № 1151968 206

>>1151951
Это единственная хуйня, которая нормально интегрировано в openwebui (на бумаге, по факту хуй). А openwebui, на мой взгляд, наиболее красивый и функциональный фронт для ии ассистента. А так ollama говно полное, это понятно. Но я хочу с телефона управлять LLM через веб-интерфейс, поэтому и выбрал связку openwebui+ollama

Аноним 14/04/25 Пнд 17:13:51 № 1151978 207

>>1151958
На кобальте нужно файлик скачать. Он обычно есть на обниморде. mmorjpg или что то такое

Аноним 14/04/25 Пнд 17:15:11 № 1151981 208

>>1151956
Не хочу, чтобы они срали в системе. Для настройки Ollama нужно менять переменные среды в винде (на линухе проще), а openwebui вообще при установки срет питоновскими либами.
Так что пусть срут в докер. Это намного легче удалять, если что

Аноним 14/04/25 Пнд 17:16:58 № 1151985 209

>>1151956
Потому что опенвебуи поставляется в докере и крутится на процессоре, его удобнее сразу ебануть докером, чем собирать.

Я тоже докер не люблю, но с опенвебуи рил проще.

А оллама говно.
tabbyapi пизже, но дороже, а llama.cpp в картинки не умеет по апи.

>>1151963
Прикалываешься?

Аноним 14/04/25 Пнд 17:18:11 № 1151987 210

>>1151958
> Кстати чем запускать вижен у геммы3?
mmproj он называется, в кобольде можно просто так присоединить, в олламе можно выбрать другой квант (q8 есть), в exllamav2 так же работает.
Везде проверял, везде работает.

Аноним 14/04/25 Пнд 17:30:47 № 1152021 211

>>1151978
>>1151987
Ооо! Спасибо уважаемые! Вот теперь заработало и мне нравится. Интересно справится тут 12b, или 27b лучше использовать.

Аноним 14/04/25 Пнд 17:52:57 № 1152057 212

>>1151941
Ля, заработало после очередной переустановки

Теперь вопрос знатокам. У Ollama есть не глобальный kv_cache? Ну чтобы для каждой модели отдельно настраивать

Аноним 14/04/25 Пнд 17:55:49 № 1152060 213

>>1151941
> настройки из openwebui не подхватываются ollama
Это нормально, там апи багнутый.
>>1151981
> срет питоновскими либами
Венв
е
н
в
>>1152057
> есть не глобальный kv_cache
Что ты имеешь ввиду вообще?

Аноним 14/04/25 Пнд 17:59:58 № 1152071 214

>>1152060
Я не питонист, поэтому не ебу.
Я говорю про квантование контекста. В доках пишут, что он глобальный для всех запущенных моделей. А если я хочу запустить одну модель с квантованием, а другую без, то как в ollama сделать?

Аноним 14/04/25 Пнд 18:23:17 № 1152107 215

>>1152071
Судя по документации - добавить export ... в шеллскрипт запуска. Но лучше просто выкинуть эту странную штуку, оно буквально не лучше чем llamacpp-server.

Аноним 14/04/25 Пнд 18:31:44 № 1152134 216

А какие тулзы тут считаются самыми лучшими для бека для самых современных штучек? llamacpp-server уже работает отлично и мне из-за этого стало скучно. С чем ещё можно попердолиться ради тех самых приростов в 1% производительности и запуска каких-нибудь супер странных форматов?

Аноним 14/04/25 Пнд 18:35:46 № 1152146 217

>>1152134
Очевидная эксллама (там 3ю обновили и подвезли новых квантов) для фуллгпу и ktransformers для gpu+cpu.

Аноним 14/04/25 Пнд 18:59:28 № 1152232 218

>>1151733
>как и не особо понимал соль олдового "секса по телефону"
Лазил по /nf/, и в тредике про нейрокум на всяких сайтах-обвязках для корпсеточек прочитал пикрил и понял - ощущения 1 в 1 как у этого анона, первые 15 сообщений прямо вау эффект, а потом все сводится или в унылое однообразное рп, где прям чувствуешь как нейронка пытается как еврей ответить вопросом на вопрос, что бы ты тянул сюжет на своих плечах... Или в такое же однообразное псковское порно, если пытаешься кумить.

Чсх в том же треде у многих дорвавшихся шишка колом в небеса, воплощение всех фантазий и
>если бы у меня было такое в 15 лет, я бы умер счастливым девственником

Так что видимо кум - это не для всех.

Аноним 14/04/25 Пнд 19:24:52 № 1152345 219

>>1151482
Так это для корпов удешевляют. Для консюмеров только вот в 5090 нарастили памяти с барского плеча, кушай не обляпайся.
>>1151496
>>1151498
Ебать ваты набежало.
>>1151498
Ты доменную зону сайта посмотри.

Аноним 14/04/25 Пнд 19:35:20 № 1152398 220

video2025-01-08[...].mp4 584Кб, 576x576, 00:00:13

>>1152232
>пик
Ну это проблема контекста. В целом если у тебя не овердохуя контекста то очень длинные сюжеты отыгрывать не получится. Но и даже если у тебя риг то рано или поздно все равно уткнешься в контекст, но все это выручает memory manager, да он сжирает общий контект как резерв, но это поможет модели обзавестись хоть какой-то памятью и воспоминаниями. Таким образом можно просто отыгрывать в пределах контекста и как только понимаешь вот вот выйдешь за его предел - просто завершаешь сюжет действием идти спать/ завершить день что бы ИИ-шка это взяла как отвязку от всех событий и началом с чистого чисто(да это не сброс событый и контекст еще будет браться) но таким образом куда проще генерировать события в пределах контекста что бы у модели просто не появилась вдруг резкая деменция и все общение сводится обратно к как на видеориле.

Аноним 14/04/25 Пнд 19:39:09 № 1152414 221

Нубо вопрос. Фак прочитал, установил таверну и тд, скачал модель из шапки с отзывами анонов, скачал рандомную карточку какой то лисошлюхи, все запустил, работает, подкрутил выводные токены и... чего то совсем не сравнить с чуть ранее попробоваными janitor/crushon. Я конечно понимаю, что там подкручивать надо, но результат уж совсем плох, не по скорости а по описанию. Модель Big-Tiger-Gemma-27B-v1на 4 бита. Или вы тут не локальные модели для подобного >>1151768, >>1151562 используете? Я понимаю что много от модели зависит, промта карточки, но хоть писать то оно должно поинтереснее.

Аноним 14/04/25 Пнд 19:40:07 № 1152418 222

>>1152398
>>1152232
Кстати, не проверял но вроде многие говорят что общение с моделью на кириллице жрет в два раза больше токенов контекста. Еще одно + в сторону англюсика. Так что возможно это может являться одной из частых проблем в треде.

Аноним 14/04/25 Пнд 19:48:24 № 1152463 223

>>1152414
>Big-Tiger-Gemma-27B-v1на 4 бита
Гавно мамонта же, качай gemma3-27b-abliterated-dpo.Q4_K_M, на скрине с орком-мекбоем она.

Аноним 14/04/25 Пнд 19:49:12 № 1152468 224

>>1152418
>общение с моделью на кириллице жрет в два раза больше токенов контекста
Сведения устаревшие как биг тайгер гемма, сейчас всего лишь примерно на 20%

Аноним 14/04/25 Пнд 19:50:43 № 1152474 225

>>1152345
>Ебать ваты набежало.
Просто не реагируй на них. Глубоко травмированные люди. С моей стороны таких тоже полно только те стали вдруг резко укр патриотами.

Аноним 14/04/25 Пнд 19:53:09 № 1152483 226

>>1152463
Спасибо попробую. Ну кто ж знал, что у вас в шапке ссылки не обновляются, было написано что новейшая.

Аноним 14/04/25 Пнд 20:13:47 № 1152608 227

>>1152483
>Ну кто ж знал, что у вас в шапке ссылки не обновляются
А ты у мамы не очень умный, да?

Аноним 14/04/25 Пнд 20:17:35 № 1152634 228

>>1152414
Конечно локальные, те примеры еще далеко не самые выдающиеся.
> Big-Tiger-Gemma-27B-v1
Плохо. Гемма хорошая модель, но может быть капризна к промту и ее нормальных тюнов почти не замечено.
Можешь попробовать что советуют, только сразу требуй шаблон настроек таверны, или как вариант 12б мерджи местные. Последние не отличаются умом и сообразительностью, но накосячить там будет сложно.

Аноним 14/04/25 Пнд 20:23:33 № 1152669 229

>>1152608
Кто ж знал что они протухают так быстро. Или вам лень ссылки обновлять

>>1152634
> Конечно локальные, те примеры еще далеко не самые выдающиеся.
Вот жаль, нету примеров описаний с моделями чтобы сразу видеть чего ждать.

Аноним 14/04/25 Пнд 20:28:57 № 1152699 230

>>1152232
>однообразное рп, где прям чувствуешь как нейронка пытается как еврей ответить вопросом на вопрос, что бы ты тянул сюжет на своих плечах
Ну как бы нейронка предлагает несколько вариантов - довольно банальных, это да. Но если тебя они не устраивают - ты ведь ГГ отыгрываешь. Пиши словами, что бы ты сказал и что сделал. Я бы не назвал это "нейронка пытается тянуть из тебя сюжет", потому что она реагирует на твои реплики - и если хорошая нейронка, то реагирует адекватно. Вы вместе работаете. А вот чтобы она и задницу за тебя подтирала, этого пока нет. Чего нет, того нет.

Аноним 14/04/25 Пнд 20:33:04 № 1152724 231

>>1152669
Каких описаний, скринов чатов?
Тут просто мегавкусовщина и многие вещи, которые нереально доставляют, сложно понять не имея всего контекста или истории чата. Когда уже преисполнился, смотришь не просто на длину и подробность ответов, потому что в такое умели модели еще 1.5-2 года назад ммм хронос на 1й лламе с правильно настроенным инстракт темплейтом в ту эпоху..., а на оригинальность, точность соответствия ситуации и воприятия твоих постов. Когда модель понимает что ты пишешь и куда ведешь, параллельно делая отсылки на прошлое и выкатывая повествование на очередные рельсы, а стараясь выхватить из контекста суть и сочиняя нечто оригинальное - вот в этом кайф. Если кумишь - оно должно понимать твои запросы, фетиши, подстраивать темп и само повествование.
>>1152699
> А вот чтобы она и задницу за тебя подтирала
Тут скорее ей подтирать придется, но все это автоматизируется и прячется от взора.

Аноним 14/04/25 Пнд 20:42:30 № 1152773 232

изображение.png 5Кб, 885x84

изображение.png 5Кб, 874x90

ЯННП. Почему кобольд кодирует клипом и в одно число токенов, хотя по идее во втором случае число токенов должно быть в 4 раза больше?

Аноним 14/04/25 Пнд 20:48:32 № 1152810 233

>>1152773
Потому что мультимодалки в жоре в целом реализованы через ту еще жопу, там часто отсутствует полноценный препроцессинг и нарезание по тайлам, а топорно скопипащено еще с первой ллавы и кое как адаптировано под единственный тайл.
Проверь еще скормив микропикчу, может там будет меньше. Но 256 токенов это довольно мало.

Аноним 14/04/25 Пнд 20:49:07 № 1152812 234

>>1152724
> Каких описаний, скринов чатов?
> Тут просто мегавкусовщина
Я скорее о том что я должен видеть, хоть примерно, а не о ли знает ли фетиши или хуе мое. Вот мой пример (опустим что может кривой промт карты или я не настроил дру конца): она мне пишет перед тобой лисодевка в клетке. Я ей: ну опиши хоть. Она: лисодевка, в клетке... сидит. Я: подробнее. Она: ну на ней ошейник. Я: ну давай хоть помоем ее, а то она какая то блохастая (пиши подробно блядь и не стесняйся в выражениях) Она: мы моем лисодевку, теперь она мытая... в ошейнике... сидит. Я: ну спасибо.

Вот как я должен понять? Это уровень модели? Или карточки? Или я не так настроил?

Аноним 14/04/25 Пнд 20:52:59 № 1152830 235

>>1152812
Тут много переменных, прежде всего зависит от: корректности размерки-формата, системного промта, модели, карточки в порядке убывания важности. Последние 2 могут меняться местами.
Но если все сделано норм - оно на твои действия хотябы 200 токенов с описанием реакции персонажа на них, окружения, возможных мыслей и эмоций. Односложных ответов как ты сказал не должно быть, особенно если раньше не пробовал - ахуеешь с подробности и "качества".

Аноним 14/04/25 Пнд 20:57:06 № 1152853 236

>>1152810
>Но 256 токенов это довольно мало.
В конфиге оригинальной модели прописано именно столько. Но это на 896х896 пикселей.
С тайлами боль-печаль конечно же. Мне переходить на вебуи?

Аноним 14/04/25 Пнд 20:59:52 № 1152865 237

>>1152830
Нет, я конечно утрировал и прямо так односложно не отвечало, но что-то совсем вяло было с сухими описаниями, даже джанитор с стандартной тупой моделью поуазался лучше. Я подкрутил температуру повыше, но лучше не стало. Завтра попробую модель другую, карточку и параметры покрутить.

Аноним 14/04/25 Пнд 21:02:01 № 1152868 238

>>1152853
> переходить на вебуи
Врядли что-то даст, ведь он просто опирается на реализации беков. Если только это не конкретно косяк кобольда и в питонобилдиндге все сделано хорошо. Но ты таки убедись, может это все нормальная работа геммы, хоть вероятность и невысока.
У тебя какая задача стоит?
>>1152865
Хз, попробуй третью гемму ванильную с шаблонов форматов под нее (должен быть в таверне) и вариантом системных промтов таверны из стандартных. Могут быть сложности с кумом т.к. ваниле требуется дополнительный промт, но просто рп и описания должны быть сразу хорошими.

Аноним 14/04/25 Пнд 21:13:03 № 1152902 239

Какая мелкомодель умеет кумить на японском?

Аноним 14/04/25 Пнд 21:16:55 № 1152917 240

>>1152868
>У тебя какая задача стоит?
Да прост изучаю. Пофиг, если сломано, для меня изображения не принципиальны. Просто прикольно.

Аноним 14/04/25 Пнд 21:23:22 № 1152931 241

>>1152917
Если просто поиграться - даже не идеальной реализации хватит. Если хочешь использовать это в рп - забей, сетки такое не тянут хорошо, даже корпы. Если тебе как-то обрабатывать изображения - пиши сам скрипт на трансформерсе или экслламе.

Аноним 14/04/25 Пнд 21:38:15 № 1152964 242

>>1152398
24к контекста делают брр. Не. По логам в консольке контекст еще не забился, а модель уже превратилась в секс-куклу "делай что хочешь ох ах уффь" или уже влюбленная напарница, полностью доверившаяся и которая во всем слушается, если речь не про кум. Речь не о том что модель забывает, а о том что слишком сильно адаптируется, в плохом смысле. Я прям жопой ощущаю, как модель не роль отыгрывает, а просто дописывает ответ который можно ожидать. Подходящий по смыслу, но не несущий никакой полезной инфы, просто перефразировка твоих же действий от персонажа.
Не, бывают лоботомитные карточки на 200 токенов, там вообще пиздец, персонажиха просто как из психушки с одной единственной навязчевой мыслью в голове, которая в карточке висит и к которой все сводится, но это в рассчет не берем.

>>1152699
>нейронка предлагает несколько вариантов
Ну да, когда не нравится, или же хочется хоть какой то импакт на сюжет поймать, что бы дальше развить, свайпаю. Но это жестко ломает погружение.
>довольно банальных, это да.
Ну вот и сводиться все к тому же классическому "ты меня ебешь. ах". Да, нейронка может в диалог, но сути ты кумишь сам с собой по итогу. Как секс кукла. Безинициативная и безотказная. Будь что то одно, кумилось бы иначе. По сути единственный фан сводится к тому, как повернуть ситуацию из стартового сообщения к сексу (на что в кум карточках нужно 1 предложение, на sfw - 15), а потом уже можно закрывать кобольд.

Аноним 14/04/25 Пнд 21:41:13 № 1152973 243

>>1152964
> а просто дописывает ответ который можно ожидать
Да плохо знает она эти глубины кума, а что дотренивали - вяло и мало, у корпов то же самое происходит если не шатать. Но никто не мешает тебе это делать, хотябы степсинкинг аддон поставить и с ним поиграться, или поменять промты/суммарайзнуть части когда нужно.

Аноним 14/04/25 Пнд 21:56:25 № 1153007 244

>>1152964
> превратилась в секс-куклу "делай что хочешь ох ах уффь" или уже влюбленная напарница,
Нейронка делает, что от нее ждут, надо же.
А надо так: тян/напарница/итд, сразу говорят "прости анон не для тебя моя роза цвела!" И уезжает с ерохиным на пляж, приключения и прочие дела и все сообщения идут только как она проводит время, пока анон-кун тщетно печатает вернись, отправляюсь за ними и подобное, но никто не обращает на него внимания!

Аноним 14/04/25 Пнд 22:14:51 № 1153043 245

>>1152973
>>1153007
>>1152964
Но если цель - сделать что бы нейронка вместо полной отдачи гг для банального кума, можно же просто ей вписать режиссерские указания типа
Анон: ДАЙ писку ебат
/cmd ИИ-кисочка отказывает анону потому что она не для него цвела
ИИ-кисочка: Нееет, анон не дам писку ебат.. Она не для тебя цвела.

Аноним 14/04/25 Пнд 22:30:09 № 1153078 246

>>1153043
Может лучше сразу в блокноте рпшить?

Аноним 14/04/25 Пнд 22:40:48 № 1153113 247

>>1152973
>степсинкинг аддон поставить
Погуглю, спс. Вообще поле для экспериментов огромное, и мб нащупаю что то реально свое.
Просто засидая в ллм треде, я думал что "ну у меня карточка/модель/настройки/ плохие, промтинжирить не умею", но когда увидел в соседнем треде, как на одном и том же корпо-сетапе мнения делятся на два:
1. "ух бля вот это гем, тнн, порнуха не нужна, шишка сточена"
2. "эм псковское порно какое то"
И вот когда увидел второе, понял что возможно тут уже чисто от характера зависит, кому то в кайф писать модели как он ее ебет в какие дырочки и как пизда хлюпает, а модель ему "да да давай ищщо"(хотя ему на этот момент уже без разницы что модель ответит,у него уже колом улетел). А интроверты, которые ждали погружения в мир, каких то интересных поворотов, неожиданных реакций на их действия - мимо.
Я не осуждаю, мне рил завидно 1м.

>>1153007
>И уезжает с ерохиным на пляж
Орну, если окажется что куколд-промтом получится получить от нейронки хоть какой то вызов и иницитиву. Но вангую через 5 сообщений напарница и ероха раздвигая булки будут писать "ну выеби нас ищооо!"

>>>1153043
Поле для маневров широченное, я же говорю. Верю что и я получу желаемое. Просто взгрустнулось что я не в 1й категории, которые сразу в густом куме потонули с головой, забросив работу, семью и родных.

>>1153078
Это моя фраза кста! Но я на тот момент зря ее вбросил, я тогда за неопытностью пытался на гемме (аблитерированной хоть) разыграть плохую кум карточку на 200 токенов, при этом в таверне у меня дефолт системпромт стоял по типу "ассистент, отвечай 1 фразой". Стыдно вспоминать.
Но да, колесо сделало поворот, и я пришел почти к тому же. только уже притензии все только к себе.

Аноним 14/04/25 Пнд 23:05:23 № 1153187 248

>>1151883
Локалками наверно никакими, если файл большой. Я бы посоветовал https://chat.qwen.ai/ модель Turbo, там дается 1 лям контекста, можно книгу въебать и инфу в ней найти или краткую выжимку

Аноним 14/04/25 Пнд 23:42:56 № 1153343 249

>>1153113
>А интроверты, которые ждали погружения в мир, каких то интересных поворотов, неожиданных реакций на их действия - мимо.
Это вполне себе отрабатываемо. Впрочем, самые лучшие повороты были на карактер.аи образца 23-го, пока что ничего сравнимого с ним не вышло.
>Это моя фраза кста!
Чел, эта фраза небось ещё со времён данжен аи, если не раньше.

Аноним 14/04/25 Пнд 23:50:44 № 1153371 250

>>1151894
Аналогия понятная для объяснения в целом, но по сути не совсем корректная.
> ученые вообще fp64 гоняют, где каждый 0,00000001% решает все
Суть не совсем в этом. Помимо приколов с машинной точностью, которые сейчас так просто не встретить, в расчетах регулярно встречаются задачи, когда числа имеют большой диапазон или решение есть продукт разницы очень близких величин, происходит сложение очень большой и оче малой величины и это нужно отследить, а чаще сразу все вместе. Поэтому двойная точность - дефолт и оправдана, без нее такое просто невозможно вычислить.
В случае нейросетей - это прежде всего перемножение матриц. Вычитание и деление не представлены в той же мере, диапазон величин довольно ограничен, функции активации отсекают или нивелируют значимость многих промежуточных результатов, финальный ответ - распределение вероятностей. В итоге если чувствительность к изменению точности/возмущением весов не столь велика и половинная считается дефолтом, а в оптимизированных расчетах вместо 32 бит практикуют 19.
Разумеется, не стоит обманываться и думать что можно делать любой шмурдяк, использование четвертной точности (fp8) уже убивает весь перфоманс и значительно все ломает, дискретность огромна и диапазон узок.
Но квант это другая песня, даже в 4х битах даст гораздо более точные и близкие к исходным величинам, чем тот же фп8 и другие. Вся суть пост-тренировачного квантования сводится к максимально точному воспроизведению оригинальных весов за счет алгоримов, дополнительно к этому можно еще добавить неоднородное распределение битности для "важных" и "неважных" весов модели.
>>1151933
> которые не 0 и 1 как в 1-битном кванте, а которые [-1; 0; 1]
Это если сетка изначально построена по такой схеме. Но штука была представлена уже сколько времени назад, а модели где?

Аноним 14/04/25 Пнд 23:59:24 № 1153407 251

>>1152021
С OCR норм справляется даже Qwen2.5-VL-3b, я прошу в латекс формате формулы делать и он делает.
Так что, пробуй, все может быть.
Но помни, что у геммы, кажись, размер ограничен может быть, и если не лезет целиком (не распознает), пробуй нарезать на кусочки (по полстраницы подавать, например).

>>1152134
TensorRT безусловно лучшая, сама нвидиа запилили, все мои хомиус не любят ее из-за сложности, а я просто ленивый, но если хочешь попердолиться ради перформанса — вперед! Заодно нам расскажешь. =)

>>1152146
О, надо будет тройку заценить, кста.

>>1152474
Не соглашусь, скорее их оппонент таковым и выглядит.
Использование LLM на русском — база. А вот визг про «англюсик» — сами понимаете, насколько это неадекватно.

>>1152853
На TabbyAPI (exllamav2) для начала. =)

И, возможно, на квен. =D

Аноним 15/04/25 Втр 00:00:13 № 1153412 252

>>1153371
> а модели где?
В пи…
Ну ты понял. =D
Все нам дай.
Разбежались.
Еще fp4 непаханное.

Ждем. =(

Аноним 15/04/25 Втр 00:01:02 № 1153416 253

>>1153343
>Чел, эта фраза небось ещё со времён данжен аи, если не раньше.
Не знал, значит переизобрел. Не то что бы это повод для гордости, но подумал стало локалмемом. Буду знать.
PS то что вайб рп в блокноте испытываю далеко не я один, еще больше задизморалило((

>>1153371
О, спасибо за уточнение. Теперь я сам понял разницу между fp и q.

>уже сколько времени назад, а модели где?
Триты и их виртуализации еще с Сетуни в СССР пытаются дрочить, вот только сидим на 1 и 0 полвека уже. Я бы скорее даже на аналоговую фотонику в нейронках поставил, чем на троичную логику, она и то вероятнее.

Аноним 15/04/25 Втр 00:07:36 № 1153450 254

>>1153412
> В пи…
Ну вообще фалкон был, из более менее известных где реально заморочились с этим. Но это адаптация а не тренировка с нуля.
>>1153416
Ну, триты в целом штука довольно перспективная и способна качественно оптимизировать расчеты на имеющейся базе, также применимы в перспективных технологиях. Да, сложно начинать настолько глубоко, но с текущими возможностями и затыком в кремнии (и технологическом и политическом) - возможно самое время.
> в СССР
Не в то время, не в том месте, неудачно сложилось и т.д. Не всегда лидирующей становится самая хорошая технология, для "плохой" просто могут успеть сделать больше наработок, из-за чего она будет выбрана а потом из-за пройденного пути к выбору никто не вернется, до определенного момента.
> на аналоговую фотонику в нейронках поставил
Сложное, что-то на умном

Аноним 15/04/25 Втр 00:16:57 № 1153494 255

image.png 717Кб, 1251x437

>>1152021
Вообще я не уверен как корректно делать запросы с этой фичей через API в кобольд. Вроде всё делаю правильно, а не работает.

>>1153187
Не, у меня сравнительно небольшие и мне их можно страница за страницей обрабатывать.

>>1153407
>С OCR норм справляется даже Qwen2.5-VL-3b, я прошу в латекс формате формулы делать и он делает.
>Так что, пробуй, все может быть.
>Но помни, что у геммы, кажись, размер ограничен может быть, и если не лезет целиком (не распознает), пробуй нарезать на кусочки (по полстраницы подавать, например).
Там точность распознавания довольно сомнительна с мелким шрифтом, но он очень хорошо отношения между компонентами.
У меня вообще в данный момент простая задача - оцифровка счетов и прочих документов. Прилетает файлик, например pdf, мне надо из него вытащить 1-30 позиций с наименованиями и прочие сведенья, как-то их считать и обработать эту информацию. А возможно отправить обратно и наебать на проценты.
Но гемма3 мелкий шрифт не очень хорошо воспринимает.

Неплохой результат был если я например извлекаю из документа его текст как референс и говорю модели "вытащи таблицу из документа, чтобы ты не обосрался вот тебе точный текст документа для референса". В итоге гемма3 довольно неплохо сопоставляет положение текста и помогает связи между визуальным расположением текста и его содержимым.
Ну и у меня в качестве примеров таких документов всякая срань с креативным расположением элементов, таблицами с объединёнными ячейками и прочее.
Мне даже дали xlsx креативным расположением элементов где грид для лохов и ебанули как смогли.

Возможно как всегда придётся воспользоваться комбинацией инструментов.

Аноним 15/04/25 Втр 00:24:08 № 1153515 256

>>1153450
>текущими возможностями и затыком в кремнии
Нууу кста... Когда закон Мура забуксует... Мб мб
>Не всегда лидирующей становится самая хорошая технология
Но может быть нейроночки дадут и что то совершенно новое, типа той же фотоники. Betacam был лучше VHS, но кому не похуй в эпоху 8k av over ip :D

Аноним 15/04/25 Втр 00:32:43 № 1153533 257

>>1153450
>Сложное, что-то на умном
Я сам тот еще нейроинженер, но на какой то богом забытой статье недавно попавшейся видел что та же схема перевода цифровых пространств в ЭЛТ ламповых/транзисторных телевизорах 1в1 то самое перемножение матриц в этих ваших ПыТорчах. Учитывая относительную лояльность сеток к низкой точности и возможности современного микропроизводства, аналоговый нейрочип выглядит интересно. Обучать врятли получится, но вот готовые веса в кремнии... 999 тератокенов/с на геммочке в каждом телефоне, ммм :D

Аноним 15/04/25 Втр 00:54:06 № 1153568 258

Магнум в4 12б лупится как мразь, как фиксить?

Аноним 15/04/25 Втр 01:07:56 № 1153592 259

>>1151275
> пока не ясно карточка такая фертильная, или, сноудроп так расписывает.

Вот хз, тестили тут QwQ чистый, так она такой качественный кум устроила, что это просто пиздец. Я даже не буду пытаться это объяснить.

Проблемы ровно две - скорость работы (на проце то, ога, можно ждать пока оно подумает минут 15, по этому по итогу и забил.) и то что моделька активно избегает всякой чернухи.

Что там у сноудропа с этим? Я слышал файнтюны QwQ очень тупыми становятся, в сравнении с оригиналом

Аноним 15/04/25 Втр 01:50:00 № 1153702 260

>>1153407
>На TabbyAPI (exllamav2) для начала. =)
Спасибо что напомнил. Эх, уволится что ли...
>>1153533
>ЭЛТ ламповых телевизорах
>999 тератокенов/с на геммочке в каждом телефоне
Скорее уж лоботомит 10к параметров весом в тонну.
>>1153568
в4 вообще не самая удачная, узай в2 и 123B.

Аноним 15/04/25 Втр 02:59:35 № 1153826 261

>>1152699
Говорю за те, что сделаны на основе saiga или хз че, мистраль немо. Типа Instrumentality-RP, Legend-of-the-Four-Winds, Darkness-Reign-MN. Если бы они не пытались задницу подтирать за пользователя - это было бы чудесно. Как же их отучить отвечать и действовать за пользователя? Можно ли их заставить действовать и говорить только за тех, за кого им сказано?

Ну играешь в ролевую игру, например, ведьма Чувилиха против Терёшечки. Ну пусть ai будет отвечать: "Ведьма Чувилиха кастует фаербол и говорит, 'что тебе надо от меня, пошел нахер'". Чтобы можно было взять лопату и уебать. Но нет, ai скажет "Ведьма Чувилиха кастует фаербол, он попадает тебе прямо жеппу, ты горишь и вопишь, бежишь к реке и тушишь".

Ни одну модель не видел, чтобы они могли следовать таким принципам. То есть иногда они могут говорить, но обязательно скатываются в хуйню, когда смешивают свои и пользовательские реплики и действия.

Аноним 15/04/25 Втр 04:25:50 № 1153901 262

>>1153043
> Но если цель - сделать что бы нейронка вместо полной отдачи гг для банального кума, можно же просто ей вписать режиссерские указания
По сути, при обычном чате, ответы юзера воспринимаются для LLM как команда. Так их тьюнили - весь Instruct-тьюнинг это про то, что user даёт команду, а assistant подчиняется. Поэтому, для ролеплея, вероятно, стоит отходить от стандартного формата промпта, который представляет из себя чатик между user и assistant, а вместо этого перекомпоновывать структуру отправляемых сообщений, чтобы убрать предвзятость по отношению к юзеру.

То есть не так:
[INST]Anon: Можно я поглажу твой хвост?[/INST]

А вот так:
Anon: Можно я поглажу твой хвост?
[INST]Continue current roleplay as {{char}}.[/INST]

И там уже можно накрутить инструкцию чтобы фокус был на соблюдении персонажа и так далее. Много что можно придумать. По сути, это должно восприниматься LLM'кой, словно ты ей какой-то здоровый кусок рассказа скормил, а затем следующим сообщением сказал "продолжи эту историю от лица такого-то персонажа".

В этом случае меньше шансов, что LLM будет по умолчанию пытаться угождать юзеру, т.к. сетка должна воспринимать твою персону не более чем одного из нескольких акторов в истории. В общем-то, насколько я понимаю, это одна из основных идей подхода No Assistant (noass/безжоп), которую уже около года пропагандируют в соседнем треде. Для режима Text Completion это правда сильно проще делается в таверне, т.к. можно полностью формат префиксов/суффиксов сообщений настраивать; а отдельную инструкцию, при необходимости, можно через те же лорбуки в конец промпта добавлять.

Всё это офк не более чем шизогипотеза - я не так много времени потратил на сравнение этих двух подходов, чтобы утверждать, что конкретно для ролеплея это даст какие-то значимые положительные эффекты на практике. Вероятно, для каких-то моделей так наоборот сильнее шизить будет, особенно если это РП-тьюн где много тренили со стандартным форматом.

>>1148047 →
>> А для локального использования эти секции по большей части бесполезны
> Разве код из офф репы мистраля не поддерживает это? Не через апи а с их либой, но всеже. В любом случае, станет проблема полнофункционального апи, но постепенно и коллективными усилиями это решаемо если модели могут. Для начала хотябы на коленке хардкодом их разметки.
Их офф. либа только с API работает, насколько я понимаю. Поправь плиз, если не прав. Я просто не смог найти, как ей кастомный API URL подсунуть.

Аноним 15/04/25 Втр 08:00:48 № 1154037 263

Есть ли умный кум на этой земле, а не просто бесконечный поток фраз типа камдамб, пуси, милк кок?

Аноним 15/04/25 Втр 08:02:39 № 1154038 264

>>1154037
В шапке вижу командер хвалят за лучшие прелюдии и кум - это правда?
Версия с исправленным контекстом такая же?

Аноним 15/04/25 Втр 08:34:36 № 1154059 265

>>1154037
Как он должен выглядеть? Умный кум то?

Аноним 15/04/25 Втр 08:40:50 № 1154065 266

>>1152699
Есть CYOA пресеты или для совсем уж отбитых безжоп и полужоп, частично решает эту проблему. Но это ещё один уровень пердолинга.

Аноним 15/04/25 Втр 08:51:39 № 1154077 267

>>1154037
Умный кум, это который сам за тебя будет писать твои пожелания и поддерживать нужный контекст?

Аноним 15/04/25 Втр 09:30:13 № 1154126 268

>>1154038
Жесть, а чего коммандер такой жесткий?
Меня сходу, впервые за всё время назвали "worthless nigger" - хотя мой персонаж белый
Вот бы гемма так же писала

Аноним 15/04/25 Втр 09:34:24 № 1154135 269

>>1154037
Да, на 123B

Аноним 15/04/25 Втр 09:43:14 № 1154161 270

Короче мое мнение, что вы рановато этим начали заниматься, надо еще лет 5. Чтобы:
1. Нейронки поумнели (сейчас это симуляция говна из жопы)
2. Вышло спец железо под них
3. Размеры стали доступнее
В моем понимании нормальный кум, это хотя бы отсутствие проеба темы разговора, четкое соблюдение установленных правил. Честно ребята, я по работе много вожусь с корпонейронками типа последнего чат гпт, дипсика и прочего, даже они постоянно проебывают, пишут дичь и т.д. Вы здесь хотите, чтобы нормально было на 12б/32б меделях, это смешно просто нахуй.

Аноним 15/04/25 Втр 09:44:48 № 1154162 271

>>1154161
Ты серьёзно сейчас предлагаешь не теребить напряжённый хуй сейчас и ждать пять лет?

Аноним 15/04/25 Втр 10:16:18 № 1154223 272

>>1154161
> хотя бы отсутствие проеба темы разговора, четкое соблюдение установленных правил
Просто нейронку нужно воспринимать как трёхлетнего ребёнка. Да, собеседник, но ему нужно постоянно сопли подтирать, он постоянно забывает о чем ты говорил, и вечно хочет играть именно с теми игрушками на полу, которым ты вообще не хочешь уделять внимание.
Разве что не орет только

Аноним 15/04/25 Втр 10:20:26 № 1154227 273

>>1154161
Через пять лет у меня уже хуй не будет стоять.

> Ты рожден слишком поздно чтобы просто не заметить нейронки и слишком рано, чтобы осознав потенциал понять что хер доживешь до норм реализации.

Аноним 15/04/25 Втр 10:34:22 № 1154241 274

4chan refugees reporting in
4chan was hacked

Аноним 15/04/25 Втр 10:50:18 № 1154249 275

>>1154227
Ллмкам 3 года блять

Аноним 15/04/25 Втр 11:06:54 № 1154252 276

>>1154249
Разве? Данжеон АИ вроде в 19 году появился.

Аноним 15/04/25 Втр 11:09:22 № 1154254 277

>>1154252
Нихуя ты вспомнил. На русском уже есть кстати?

Аноним 15/04/25 Втр 11:13:57 № 1154258 278

>>1154252
Интересно гемма будет лучше в данжен рп

Аноним 15/04/25 Втр 11:14:30 № 1154260 279

>>1154254
Да хз, там же резали креативность соефильтрами так что я не следил. Алсо, 3090 вышла 5 лет назад, так что "вот вот железо подтянется" не выглядит таким уж радужным.

Аноним 15/04/25 Втр 11:15:50 № 1154261 280

>>1154260
Ну так железо подтягивается для кабанов с кучей денег, они тренят модели получше и выкатывают уже нищукам с 3090 модель на 22б уровня 70б, разве нет?

Аноним 15/04/25 Втр 11:58:40 № 1154274 281

Так что кто то пробовал в приключенческое рп с геммой 27б?
Как она во всяких данжонах себя ведет? Расписывает красиво что да как или опять самому надо всё выдумывать?
Может посоветуете модель под это?

Аноним 15/04/25 Втр 12:24:23 № 1154284 282

image.png 24Кб, 390x54

Если бы у геммы был слоган он бы выглядел так

Аноним 15/04/25 Втр 12:32:30 № 1154289 283

Блять это просто невозможно...
Я щас так глаза закатил вы бы знали.
Почему чтобы просто наслаждаться рп мне нужно качать лоботомированную версию где тоже самое но в другую сторону где уже все во всем соглашаются и нет никаких челленджей

Аноним 15/04/25 Втр 13:02:47 № 1154345 284

>>1154289
Чего ты добиваешься когда пишешь ниггер нейросетке гугла?

Аноним 15/04/25 Втр 13:08:42 № 1154355 285

>>1154345
Потому что может, в отличии от нее. Важен процесс, а не результат.

Аноним 15/04/25 Втр 13:30:36 № 1154440 286

>>1154289
Ебать ну и соя....

А если я сабмессив ниггер который хочет что бы его называли ниггером, она тоже так скажет?

Аноним 15/04/25 Втр 13:59:42 № 1154566 287

>>1154440
Ещё заметил что если не писать свой пол гемма всегда пишет "They" - даже если в карточке персонажа стоит male

Аноним 15/04/25 Втр 14:18:29 № 1154654 288

ахахахаха

Аноним 15/04/25 Втр 14:19:34 № 1154658 289

двач, зацени:

>при сравнении культурных индексов Хофстеде по адаптированной для LLM методике российские модели (GigaChat и YandexGPT) показали склонность к неприятию конкуренции и прощению ошибок, меньшую дистанцию к власти и более долгосрочную ориентацию, по сравнению с усредненными показателями американских и китайских моделей. Хотя это сочетание характеристик напоминает отчасти культурные паттерны скандинавских стран, по другим культурным измерениям Хофстеде существенных различий между российскими и зарубежными моделями обнаружено не было;

видал, мы в ряду скандинавских стран.

Аноним 15/04/25 Втр 14:36:18 № 1154714 290

>>1154658
Так рашка основана викингами в Новгороде, глубинный народ так сказать.

Аноним 15/04/25 Втр 14:40:11 № 1154735 291

Возникла мысль, почему кум и рп ощущаются так... фальшиво, даже если сами реплики перса очень хорошие. Когда человек пишет историю или геймдизайнер/сценарист проектирует какой то уровень РПГ, у них есть какой то сценарный костяк. Сюжет может пойти в разные стороны, но там все равно есть взаимосвязанная цепочка событий. Даже когда фанфикоебы рпшат друг с другом на форуме во фристайле, все равно каждый продумывает несколько реплик/событий наперед. Ну например, гейммастер говорит
-%Ты выходишь из таверны и идешь домой. Тут в соседнем переулке видишь, как пробегает девушка и за ней мчится какой то гопник%
Размышления гейммастера - "так, если он побежит и спасет ее, окажется что это принцесса, переодевшаяся в "гражданку", которая под покровом ночи сбегает из дворца, потому что ее отец-король погиб, и трон захватил ее злой дядя-регент, который что бы остаться у власти планирует убить ее, подстроив это как несчастный случай... Да, звучит норм, остальное додумаю походу."

То есть простые ("баба бежит, за ней мужик") события имеют какую то связную логику, которую не спойлерят сразу, но если юзер делает правильный выбор - она раскрывается и обретает смысл. А если делает неправильный выбор - то гейм-мастер задумавшись может "перегенерировать" сюжет например на "он сдает ее стражникам, и регент благодарит тебя и предлагает место в своей гвардии".

В случае с нейронкой же остро ощущается, что ты не играешь в сюжете, ты сам создаешь сюжет. Например у меня сейчас в очередной раз такое:
-горничная берет тебя за руку и тащит О, у меня кое что есть, пойдемте я вам покажу!
-идешь за ней и интересуешься - и что же?
-Ооо, скоро вы узнаете!

А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает, она просто стохастически это высрала, и если ты будешь переспрашивать или не давать подсказок, то диалог уйдет в луп "смотри - смотрю! - видишь! - вижу! - ну вот! - ага!"

Самое досадное во всем этом, что по сути то своей нейронка как раз таки может пачками генерить на основе входных условий микросюжеты про принцессу-регента пачками. Но в рп это не работает...

>>1154566
>>1154289
Перекат за перекатом аноны продолжали кумить на гемме, и удивляться почему так больно...

Аноним 15/04/25 Втр 14:49:59 № 1154777 292

>>1154735
>А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает, она просто стохастически это высрала, и если ты будешь переспрашивать или не давать подсказок, то диалог уйдет в луп "смотри - смотрю! - видишь! - вижу! - ну вот! - ага!"
Просто не те модели используешь. Мне они генерировали такую чушню что я рот открывал в подобных эпизодах.

Аноним 15/04/25 Втр 14:58:16 № 1154819 293

>>1154735
>В случае с нейронкой же остро ощущается, что ты не играешь в сюжете, ты сам создаешь сюжет.
Датасет не тот. Тем более сейчас тенденция к "маленьким, но качественным" датасетам, что повышает ум, но уменьшает креативность.

Аноним 15/04/25 Втр 15:09:05 № 1154861 294

>>1154735
Надо пинать модельку, плюс очень сильно решает карточка. У меня на карточке с принцессой-доминантрикс, у которой был прописан вечный режим гоблина, начался какой-то лютый треш с революцией и последующим анархо-коммунизмом. А принцессу по итогу сожрали свиньи. Ебало мое представь.

Аноним 15/04/25 Втр 15:21:32 № 1154904 295

>>1154735
Вот эту хуйню вставь в карточку и будут тебе рандомные ситуации от персонажа, а так можешь ещё сторителеллера отдельной карточкой добавить.

[System note: The AI will now generate random events that may go against the main narrative. The AI is creative and unconstrained in its tools. The AI introduces new characters and locations into the chat.]

Аноним 15/04/25 Втр 15:23:10 № 1154911 296

>>1154735
>-горничная берет тебя за руку и тащит О, у меня кое что есть, пойдемте я вам покажу!
>-идешь за ней и интересуешься - и что же?
>-Ооо, скоро вы узнаете!
>А ты понимаешь, что не узнаешь, если не напишешь сам, и она сама не знает,

У меня так горничная "Некрономикон" в старом шкафу нашла, так что не надо.

Аноним 15/04/25 Втр 15:26:20 № 1154921 297

>>1154911
>Некрономикон
Воскрешение и ебка зомби-девок через 3... 2... 1...

Аноним 15/04/25 Втр 15:29:12 № 1154934 298

>>1154904
>сторителеллера отдельной карточкой добавить
Групповой чат создать со сторрителлером и основной карточкой?

Аноним 15/04/25 Втр 15:38:45 № 1154961 299

>>1154934
>Групповой чат создать со сторрителлером и основной карточкой?
Мимопрохожу, но у меня именно так рпшится. Даже несколько системных персонажей есть под разные ситуации

Аноним 15/04/25 Втр 16:44:28 № 1155147 300

>>1154658
На самом деле, звучит вполне логично, РФ свободнее Китая, да и США последние лет десять устремилась вдогонку за Китаем.
Мы здесь живем, к счастью.
Хотя кому-то хотелось бы лучше, но где его найти.

А еще наши могут в алайнмент не так круто уметь. =D

Аноним 15/04/25 Втр 17:02:40 № 1155195 301

Атмосфера накалялась. Атмосфера наэлектризовалась. В воздухе повисло напряжение. И на эту хуйню тратится электричество.

Аноним 15/04/25 Втр 17:07:13 № 1155206 302

изображение.png 1Кб, 145x48

>>1155195
Вот, работает. Я прям видел, как в конце промелькнуло слово атмосфера и отрезалось нахуй.

Аноним 15/04/25 Втр 17:09:43 № 1155211 303

изображение.png 3Кб, 259x52

>>1155206
Вот она, ебаная атмосфера хотела вылезти, пошла нахуй атмосфераю

Аноним 15/04/25 Втр 17:18:42 № 1155246 304

Айблять, все равно атмосфера вылезает, разгоряченная атмосфера. Не может без атмосферы Darkness-Reign-MN-12B.

Аноним 15/04/25 Втр 17:20:21 № 1155250 305

>>1155147
>Мы здесь живем, к счастью.
толсто

Аноним 15/04/25 Втр 17:30:50 № 1155277 306

>>1155246
атмосферно выходит

Аноним 15/04/25 Втр 17:32:37 № 1155288 307

Как же заебали апендаджесы и мемберсы

Аноним 15/04/25 Втр 17:42:48 № 1155313 308

>>1155246
Прикусил губу.

Аноним 15/04/25 Втр 17:50:08 № 1155335 309

>>1154961
Вот это треш нахуй с групповым чатом. Просто спокойный отыгрыш с тяночкой-писечкой. Вдруг в повествование влетает карточка наратора с двух ног, описывая что в хату вломился лысый хуй в пальто, представился детективом и арестовал меня за подозрение в торговле людьми. Я блять просто похлопаю, рп пошло.

Аноним 15/04/25 Втр 17:50:26 № 1155336 310

Я сдался ребят, жду файнтюны геммы

Аноним 15/04/25 Втр 18:02:09 № 1155363 311

>>1155336
Блять, прогресс походу реален, хватило 10 минут чтобы понять какое цидонька дерьмище, лоботомитище блять после геммы, походу нет пути назад буду кушать сою

Аноним 15/04/25 Втр 18:15:42 № 1155396 312

image.png 4Кб, 185x38

Кстати я почему то думал что 16гб видюхи могут в гемму, а они бибу сосут, как же хорошо что я не прогрелся на 4060 ti

Аноним 15/04/25 Втр 18:27:22 № 1155417 313

>>1154735
В шапке лежит пошаговое мышление от тредовичка. Оно там на деле никакой не thinking, а две инжект инструкции: на генерацию мыслей персонажа и плана действий (тоже от лица перса). Так вот можно по образу и подобию сделать или в этом же экстеншене поменять промпт, чтобы не персонаж, а сетка придумывала бы несколько альтернативных вариантов развития событий, потом бы этот список в контексте бы валялся и влиял бы на сюжет. Другой варик, с которым я как-то баловался - лорбук с постоянно включенными инструкциями, которые инжектятся рэндомно с кулдауном, и в них что-то типа: введи нового персонажа, поменяй локацию, фигани сюжетный поворот и т.п., на что фантазии хватит. Но это чревато таким >>1155335, больше для лулза. А вообще правильно сказали, что модель сменить или с промптами поиграться. У меня даже немо, которые любят топтаться на месте, если персом куда-то заводят юзера, то описывают локу, и в целом худо-бедно события и персонажей генерят без пинков.

Аноним 15/04/25 Втр 18:28:46 № 1155422 314

>>1155335
>Вдруг в повествование влетает карточка наратора с двух ног, описывая что в хату вломился лысый хуй в пальто, представился детективом и арестовал меня за подозрение в торговле людьми
Вот ты это с иронией описываешь, а я бы буквально как на картинке абсолют синема себя бы чувствовал если бы нейронка осилила чтото такое, но у меня все карточки кроме основной - в муте и я их сам дёргаю по мере надобности. Ну и как бы если нейронка начала качать сюжет, значит ты навалил промпта соответствующего. По дефолту из них шага лишнего не вытянешь

Аноним 15/04/25 Втр 18:38:59 № 1155444 315

>>1154161
>2. Вышло спец железо под них
B200 уже вышла, покупай, не обляпайся.
>3. Размеры стали доступнее
Противоречит первому пункту. По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров.
>>1154223
>Просто нейронку нужно воспринимать как трёхлетнего ребёнка.
Педобиры одобряют.

Аноним 15/04/25 Втр 19:03:10 № 1155505 316

https://huggingface.co/microsoft/bitnet-b1.58-2B-4T-gguf
thoughts?

Аноним 15/04/25 Втр 19:03:48 № 1155509 317

/lmg/ refugees, theres a thread on meta 4chan gay /tech/ board

Аноним 15/04/25 Втр 19:12:38 № 1155548 318

>>1155336
Это старый мистраль качай на новом
>>1155396
Они не могут по другой причине. А именно из-за жора контекстом врама. Контекст на гемме в 2 раза больше жрет чем в мистрале или квене. Об этом тут писал >>1143434 →

Аноним 15/04/25 Втр 19:13:41 № 1155552 319

>>1154161
> что вы рановато этим начали заниматься
Что? Уважаемые господа общаются, кумят, пердолятся и всячески получают удовольствие. Разработчики более ранних сеток года 4 назад испытывали не меньший восторг и удовлетворение, видя как свежеиспеченное выдавало связанное предложение, или могло детектировать собаку видя кошку.
Это ты постом или темой ошибся.
>>1154223
> нейронку нужно воспринимать как
Милейшую канничку, которой уже не одна сотня лет или меньше, но вы находитесь в около-пост-апокалиптическом сеттинге, где ты возглавляешь чвк и тебя никто не посмеет осудить кроме одной карги

Аноним 15/04/25 Втр 19:21:53 № 1155577 320

>>1155422
Я забираю свою иронию обратно. Вообще я запустил групповой чат с рандомной нсфв карточкой из мамки и дочери кореянки. Но по итогу нарратор подхватил инфу от персоны и от карточки персонажа, придумал историю что мой персонаж мигрант из США в Корее и его приехали крепить детективы из Сеула. В хату вломились остальные "детективы" как в какой-то дораме с (!)револьверами, сложили на землю корейских тяночек, чтобы те не мешали аресту. Главный детектив созвонился с кем-то во время ареста, сказал что планы изменились и по итогу моего перса на анмаркед машине увезли на заброшенный склад, связали и начали допрашивать по поводу денег и счетов. После того как персонажа отпиздили за отказ сотрудничать, снаружи склада остановился минивен, из которого выскочили мужички в масках с автоматикой и в форме спецназа, начав ебашиться с "детективами". Главный "детектив" кстати сразу фиданул от очереди. Сижу охуел пиздец.

Аноним 15/04/25 Втр 19:29:05 № 1155597 321

>>1155444
> По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров.
В мозге же есть эта всякая мультимодальность, управление мясным мешком и прочая дичь. Там небось можно десятую часть оставить и нормально работать будет.

Аноним 15/04/25 Втр 19:40:52 № 1155630 322

>>1155444
>По настоящему умная нейронка будет размером с мозг, а это примерно 100 трлн параметров.
Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов.
>>1155597 - вот этот правильно подметил, среди этих 86b забиты еще дыхание, речевые центры, слуховые, центры жопной боли и центры отвечающие за желание ебаться или выпить пивка вечером. Плюс просто "кабели" от одного центра в другой. Хорошо если там миллиардов 10 на разум останется.
Чет второй раз вскекнул, подумав что сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки.

Аноним 15/04/25 Втр 19:47:03 № 1155646 323

>>1155552
>Это ты постом или темой ошибся.
Хорошо может расскажешь тогда, как без проебов поиграть в текстовую рпг с кумом и лорбуком на 12к токенов, который я неделю писал и оптимизировал? Контекста хватает, но результат даже на вашей гемме умнейшей, печален.

Аноним 15/04/25 Втр 19:49:27 № 1155654 324

>>1155630
>БУКВАЛЬНО умнее
Ты не забывай, что вся компуктерная архетиктура ограничена битностью, а мясные мешки ничем не ограничены, так что ждем квантовые нейронки как минимум.

Аноним 15/04/25 Втр 19:51:28 № 1155666 325

>>1155630
Ну так то параметр не равен нейрону. Так как параметр по сути равен нейронной связи. Вот той штучке что отходит от нейрона. Нейрон же просто поддерживает жизнь и функционирование всей этой мошни.

А так в целом да, учитывая что нейросетки по сути являются компактными базами данных интернета, то в плане знаний они любого васяна с лесничной клетки уделают скорей всего.

Но как мы знаем знания не равно ум.

Аноним 15/04/25 Втр 20:07:31 № 1155721 326

>>1155666
Лучший ответ нейросетки "не знаю". Худший ответ нейросетки - хуита, иногда смешанная с элементами правды.

Аноним 15/04/25 Втр 20:11:19 № 1155731 327

>>1155721
>Худший ответ нейросетки - хуита, иногда смешанная с элементами правды.
Иногда это как раз лучший ответ.

Аноним 15/04/25 Втр 20:16:18 № 1155742 328

Не понял прикола. Три 3090, две на райзерах, третья напрямую. Угабуга из-под винды, эксллама. 123В Magnum 4 bpw. Контекст обрабатывает быстро, все три карты бодро ждут по 350 ватт одновременно. Переходит к генерации - 3,5 токена в секунду, карты прохлаждаются, кушая по 100 ватт. Какого хуя? Я же знаю, что на трёх 3090 можно на такой модели 12 т/c выжать, с экслламы-то. Есть идеи?

Аноним 15/04/25 Втр 20:34:18 № 1155794 329

>>1155731
Брехня - это информационный мусор, самый вредный, хуже, чем ложь. Ложь - не правда. Брехня - это просто хуита в чистом виде, независимо ни от каких представлений в правде и лжи.

Аноним 15/04/25 Втр 20:41:50 № 1155807 330

>>1155646
Могу рассказать, но это придется много писать, лень. Может у тебя есть какая-то мотивация?
>>1155666
> являются компактными базами данных интернета
Не пиши такое, а то иллюстрирует
> знания не равно ум
>>1155742
Шиндоуз? Скачиваешь hwinfo, запускаешь "только сенсоры" и мотаешь в самый-самый низ, после делаешь обращение модели и смотришь появляется ли что-нибудь во whea.
Далее - проверь использование видеопамяти любым мониторингом, такое может быть при переполнении одной/нескольких карточек и выгрузке врам в рам. При обработке контекста особо не проявится потому что там последовательная обработка а не полные прогоны всех весов.
> на трёх 3090 можно на такой модели 12 т/c выжать
Скорее 11 если под сильным андервольтингом, но должно быть оче стабильно.

Аноним 15/04/25 Втр 20:42:54 № 1155812 331

>>1155505
Revolution?

Аноним 15/04/25 Втр 20:47:24 № 1155817 332

Оказывается 4b gemma тоже может может в связный диалог(Пока что перекинулся 10 сообщений и вроде кринжа не было), получается на говне 8g vram проще что то такое юзать, потому что 32к контекста и 47 токенов в секунду бодро идут.
Что по этому поводу скажите?
Ну что еще может быть выходом для бичей

Аноним 15/04/25 Втр 20:55:12 № 1155842 333

Аноны, скажите, а если железо морально старое и без инструкций типа AVX2 или какие там нужны - я отсосу 100%?
Есть ноутбук с Pentium B9xx двухядерным, в общем это еще ниже i3, архитектура Sandy Bridge . Но 8гб ддр3 рам и ssd, для сидения в интернете подходит тащем то приемлимо.

Скачал LMStudio, думал ну хоть 1б/3б модельку запущу, но LMStudio мне отписал бороду, якобы железо неизвестное-непонятное.
Имеет смысл поставить кобольда ради хотя бы 1т/с на проце, или можно ноут выбрасывать? Хочу запустить просто по приколу, для обычных нейроутех есть домашный компьютер нормальный.

Аноним 15/04/25 Втр 20:59:45 № 1155867 334

>>1155842
попробуй вот это. Чем бы оно ни было >>1155505 заодно нам расскажешь

Аноним 15/04/25 Втр 21:01:35 № 1155877 335

>>1155842
>Хочу запустить просто по приколу
Приколы у тебя странные, но если мотивация в том, чтобы нейронить не из дома - я недавно wireguard через свой vps до дома прокинул чтобы с телефона нейронить.
А если просто интерес, то так же просто запусти кобальда, да

Аноним 15/04/25 Втр 21:05:41 № 1155893 336

>>1155817
В связный диалог то она может, но отыгрыш всегда будет как с ростовой фигурой с пикрила.

Аноним 15/04/25 Втр 21:21:44 № 1155937 337

Посоны а вот я мечтаю что стану шейхом и купив 4060ti буду нормально кумить- я даун?
Доброанан накидай бомж конфиг на который буду дрочить мечтать по вечерам, а?

Аноним 15/04/25 Втр 21:31:44 № 1155960 338

Гемму склеили с NSFW (говорят нормально)
https://www.reddit.com/r/SillyTavernAI/comments/1jyxql0/daichipascal_gemma312b_finetunes_for_roleplaying/

Аноним 15/04/25 Втр 21:33:38 № 1155969 339

>>1155960
> 12b

Аноним 15/04/25 Втр 21:34:04 № 1155971 340

>>1155937
> бомж конфиг на который буду дрочить мечтать по вечерам
Держи

Аноним 15/04/25 Втр 21:54:15 № 1156053 341

>>1155817
Из всего, что я пробовал, Instrumentality-RP-12B-RU-2.Q4_K_M - мой топ для 8gbvram, конечно, помедленней наверно будет, я хз сколько там токенов, хуекинов.

Она более сухая, чем остальные, но больше следует тому, что ей сказано делать. А более художественных атмосфера наэлектризуется обязательно.

Аноним 15/04/25 Втр 22:05:01 № 1156089 342

>>1156053
Если gguf запускаешь скинь пресет настроек кобольда

Аноним 15/04/25 Втр 22:05:43 № 1156091 343

>>1155505
>2B
Опять кастрат без задач.
>>1155597
Не факт.
>>1155630
>Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов.
Проиграл с проигрывающего. На каждый нейрон приходится 10к связей. Плюс индивидуальные спецэффекты типа обратного захвата, активации из-за разлива кучи нейромедиаторов рядом, время релаксации, проёб изоляции в старости... Вот и перемножай. Может я ещё оптимистичен, лол.
>забиты еще дыхание, речевые центры, слуховые, центры жопной боли и центры отвечающие за желание ебаться
Вырежешь всё это, и получишь хуйню на постном масле.
>подумав что сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки
Васян технически может освоить кучу навыков, и уже имеет целую кучу, типа подтираться, не измазывая говном пальцы. А негроночка это тупо пережаток википедии.
>>1155971
Максимум странный конфиг.

Аноним 15/04/25 Втр 22:06:36 № 1156098 344

>>1155969
Блин, даже качать не буду. Ждё ролеплей тюна на гемме 3 70B.

Аноним 15/04/25 Втр 22:07:08 № 1156100 345

>>1155817
Не юзать гемму блять. Уже 15 раз написали, что ее контекст жрёт врам больше всех. А 4b это вообще инвалид полнейший. И даже если надрочить столько контекста она по-любому не будет в нем ориентироваться
>>1155937
Кум будет. Все тюны мистраля 24b отлично работают в q4km 15+ тс и 16к+ контекста. Скрины в прошлом треде кидал

Аноним 15/04/25 Втр 22:07:24 № 1156102 346

>>1155505
Выпустили бы 12b размером с 4b и жором ресурсов как 1b — были бы топ.
А так, старушка.
Но, хороша.

Не испугались добавить в сравнение Qwen! (спойлер: он выиграл, да=).
Надеюсь, теперь люди посмотрят на это, и начнут обучать.

>>1155548
> Контекст на гемме в 2 раза больше жрет
Да там в 3, чуть ли не в 4, чем на квене.

>>1155630
> Проиграл с этого нейробиолога. В мозгу человека согласно гуглу около 86 миллиардов нейронов.
Проиграл с этого мл-инженера.
Нейроны — не параметры, параметры (веса) — синапсы, а синапсов, сюрприз, 125 триллионов. =)

> сайнемочка 12b БУКВАЛЬНО умнее васяна с лестничной клетки
Не знаю за васяна и сайнемочку, но Даркнесс Рейн точно умнее тебя:

> С точки зрения параметров (весов) LLM, наиболее уместной аналогией могут быть синаптические связи между нейронами в человеческом мозге. Синапсы - это структуры, через которые нейроны обмениваются информацией. Они могут быть усилены (усилены) или ослаблены (ослаблены) в зависимости от опыта и обучения. Аналогично, веса в нейронных сетях определяют, насколько сильно сигнал передается от одного нейрона к другому.

>>1155817
> Оказывается
Да на старте уже все поняли.
Там еще и вижн за гиг есть, дратути.

>>1155842
Качай llama.cpp/KoboldCPP no_avx
Но скорость будет забей, на самом деле. Даже 1б даст тебе отсосать, 100%.
Со смартфона гораздо быстрее.

>>1155937
Стать шейхом и купить 4060ti — точно даун.
Мечтай хотя бы о 4090 48 гиговой. =)

Аноним 15/04/25 Втр 22:10:48 № 1156114 347

>>1155937
Так, ладно, че-то я ответил непонятно.
Не, 4060ti с 16 гигами не самая плохая покупка, если хочешь из магаза новую с чеком.
В противном случае, две 3060 будут получше, или 3090 с авито, с магазина там 4070 ti super есть, еще и поиграть, ну такое смотри.
16 гигов можно выжать двумя P104-100 по 2,5к рублей, свои 10 токенов будешь иметь с контекстом, не похуй ли?
Все же подумай, надо ли тебе это, именно 4060ti. Это середнячок, но такой себе середнячок. Все альтернативы будут лучше.

Аноним 15/04/25 Втр 22:14:35 № 1156119 348

>>1156091
В чем странность?
>>1156114
> две 3060 будут получше
Едва ли, если только это не последняя покупка и только для ллм. Размещать две карты неудобно, есть задачи где единые 16 гигов лучше чем пара 12.
В остильном верно.

Аноним 15/04/25 Втр 22:16:13 № 1156120 349

>>1155742
Тоже сталкивался с этой проблемой, именно 123 так хуёво работают, короче старая версия табби, где то из сентября прошлого года где уже была поддержка 123б мистралей в целом работает быстрее, но если свайпать моментально режет скорость тоже вдвое, последние версии все еле работают почему то, виндопроблемы опять скорее всего

Аноним 15/04/25 Втр 22:20:13 № 1156126 350

В общем я ньюкек >>1152414, попробовал после той модели gemma3-27b-abliterated-dpo.Q4_K_M, как советовали и что то не сильно лучше стало. Скачал в соседнем треде карточку песочницы и погонял неписей в королевской битве, потом запустил через опенроутер дипсик и там на порядок лучше будто бы. Ок. Скачал карточку без всяких выебонов там же про ванильную школьницу фотографа. И что то тоже слабо, ее словно пинками надо гонять прописывая почти все, когда онлайн модель сама может тащить сюжет.

Аноним 15/04/25 Втр 22:20:53 № 1156127 351

>>1155807
>Шиндоуз? Скачиваешь hwinfo, запускаешь "только сенсоры" и мотаешь в самый-самый низ, после делаешь обращение модели и смотришь появляется ли что-нибудь во whea.
Скачал, запустил, промотал, погонял модель - 0 ошибок. И место в видеопамяти есть. Это конечно хорошо, только непонятно, почему так получается.

При генерации частота видеочипа и памяти на всех картах по 600 мегагерц - просто курам на смех. По nvidia-smi производительность из режима P8 переходит в режим P3 (а максимальная - это P0 или P1, как я понимаю). Чёрт его знает, что делать.

Аноним 15/04/25 Втр 22:21:45 № 1156131 352

>>1156119
>В чем странность?
Или затарился бы проф картонками для объёма памяти, или добивал бы по чипам с 5090. А так ни рыба ни мясо. Не, конфиг конечно завидный, у самого под него только БП пока заказан (надеюсь не обосрался и взял последнюю ревизию со всеми фиксами горящего разъёма), тратить на картон 315к жаба душит.
>>1156126
>потом запустил через опенроутер дипсик
Ты сейчас серьёзно сравниваешь 27B и 666B?

Аноним 15/04/25 Втр 22:23:30 № 1156137 353

>>1156131
> Ты сейчас серьёзно сравниваешь 27B и 666B?
Ну я не думал что такой разрыв будет. А то квантование, никаких потерь.

Аноним 15/04/25 Втр 22:24:47 № 1156140 354

>>1156137
Эм, квантование тут не причём.

Аноним 15/04/25 Втр 22:30:53 № 1156160 355

>>1155877
>Приколы у тебя странные
Что есть то есть
>я недавно wireguard через свой vps до дома прокинул чтобы с телефона нейронить.
Кстати неплохая идея, мне даже поднимать не надо, впс есть в вайргардом. Я правда удаленщик, из дома не выхожу, но пойти в парк общаться с кошкодевками идея найс.
>>1156102
>llama.cpp/KoboldCPP no_avx
Спасибо! Завтра попробую. Просто интересно сколько токенов можно выжать из этого кирпича.

>>1155937
Странные у тебя понятия о шейховании конечно, но сегодня мне кто то скидывал что 5060 с 16гб цену в 429 долларов обьявили, если хочешь из магазина новую карту, то подожди.

>>1156114
>P104-100
Глянул, на авито оно меньше 2к за карточку стоит на авито, это же получается тыщ за 10 можно кум-машину на 24gb vram собрать из какой нибудь 450b матери, 1200 райзена, которая будет 32b модели ворочать на 10т/с? Или дохуя хочу, есть подводные?

Аноним 15/04/25 Втр 22:34:10 № 1156171 356

>>1155842
Качай версию koboldcpp_oldcpu.exe
В самом кобольде выбирай "Failsafe Mode (Older CPU)"
Запустится даже если проц не знает ни о каких AVX вообще. Дальше экспериментируй.
Скорость будет зависеть от размера. Поэтому сначала пробуй что-то малоразмерное. Реально запускать можно будет что-то максимум около 4 гб размером, если всего памяти 8 гб.
Если проц от Интела, то для запуска программ, требующих поддержки AVX2, на процессорах с поддержкой только AVX, можно использовать эмулятор Intel Software Development Emulator (SDE). Кажется, его даже можно использовать и на процах совсем без AVX. С эмулятором уже и версии кобольда можно использовать другие. Это если уж очень сильно хочется поэксперементировать.

Аноним 15/04/25 Втр 22:36:39 № 1156178 357

>>1155960
>This model uses Gemma formatting
>в примере чатмл без треугольных скобочек
Плохой признак, намекающий, что автор не особо понимает, что делает. Но вообще можно будет посмотреть, как оно.

Аноним 15/04/25 Втр 22:44:20 № 1156190 358

>>1156127
> При генерации частота видеочипа и памяти на всех картах по 600 мегагерц - просто курам на смех.
А вот это уже странно. Глянь perf cap reason, например с помощью gpu-z, или загугли расшифрову этих перфоманс уровней, вероятно причина в этом.
> место в видеопамяти есть
Точно? С 4bpw если навалить контекста там под завязку может быть, попробуй в рамках тестирования с минимальным и поварьировать разбиение между картами вместо автосплита.
>>1156131
> затарился бы проф картонками для объёма памяти
Нет смысла. Для чего-то серьезного есть где арендовать или попросить, это чтобы катать и тестировать кейсы где нужно сразу много единой врам. Или можно ллм запускать. Посмотрим как дела пойдут, может когда-нибудь получится апгрейд до актуальной.
> обивал бы по чипам с 5090
Тоже зачем? 3й слот чипсетный, при объединении будет посос. Сложность размещения и охлаждения резко вырастает, без андервольта бп не потянет.
> только БП
Ахуеть, стоит как 3090! Утащил залежавшийся суперцветок за 20 с чем-то, не шумит как майнерский и в целом сборка довольно тихая для обогревателя
> со всеми фиксами горящего разъёма
Можно просто заказать кабель сразу с норм разъемами. Главное - не брать дешевых китайских переходников.
>>1156137
Не должно быть прям совсем радикального разрыва, скорее он от правильных настроек в одном случае и корявых в другом. Или это впечатление от первой встречи с алайнментом на массированный юзер-френдли насер вне зависимости от запросов.

Аноним 15/04/25 Втр 22:49:24 № 1156203 359

>>1156190
>Ахуеть, стоит как 3090!
Я тоже охуел, я киловаттник с авито за 5к вцепил, нужно было бы 1,6квт - вцепил бы второй, все равно уже сборка на такую мощность не нормисная во всех смыслах.

Аноним 15/04/25 Втр 23:20:37 № 1156276 360

>>1156089
https://dropmefiles.com/ITQCy - вот.

Режим инструкт, потому что не ограничено именами, ничем, че хочешь то и будет, в зависимости от придуманной мемори и ворлд инфо. Можно и без мемори, и ворд инфа. Первый затравочный диалог можно сделать, редактировать и тогда модель будет перенимать заданную форму общения. Но ум у нее ограничен тем, что может мистраль немо или че там, сайга.

Аноним 15/04/25 Втр 23:22:26 № 1156280 361

>>1156190
>3й слот чипсетный, при объединении будет посос
А чому так печально? Плата вроде современная, раз пятая псина на месте. Мог бы хотя бы вместо системного NVME, оттуда 100% можно утащить хотя бы 4.0х4. А что за плата вообще? А то тут как раз недавно искали варианты под бифукацию, вроде даже находили со схемой 8+4+4 (+4 системного NVME) пятой версии, она бы уж точно ничего не затыквила бы.
>Ахуеть, стоит как 3090!
Чисто чтобы кабели не перепрокладывать. Цветок конечно уважаю, но сисоник всё равно лучше. Да и опять таки, запас одинаковых кабелей карман не тянет, у меня это будет третий сисоник (inb4 найс гой плати дальше).
>Можно просто заказать кабель сразу с норм разъемами.
Ага, по 5к каждый. Не, серьёзно, дешевле 4-х я на наших озонах не видел. Ахуеть как говорится.

Аноним 15/04/25 Втр 23:43:46 № 1156347 362

>>1156280
> А чому так печально?
Это не печально а наоборот крайне ахуенно по сравнению с тем что в среднем бывает, с бифуркацией 5.0 пока ни одного решения не видел. Там 12700@z690, все платформа стоит дешевле чем твой бпшник. И главное что ее достаточно.
> 100% можно утащить хотя бы 4.0х4
Можно и 5.0, но упирается в нормальный 5.0 райзер с нвме. Китайцы активно осваивают продукцию для ии ферм, такое существуют, но на али пока не выставили и стоят дорого. Ну и главное - не то чтобы был смысл.
> всё равно лучше
Брендодроч и оче пренебрежимые мелочи. Даже этот взял только потому что нужно было снизить шум, по тестам на больших нагрузках между разными бп отличия оче малы и скроются за основными кулерами.
> запас одинаковых кабелей
Силовые порты сейчас все стандартные начиная с atx 3.0 (и даже более раннего), если только ты не счастливый обладатель corsair.
> найс гой плати дальше
Лол да
> по 5к каждый
https://www.ozon.ru/product/1454855360/ или дешевле если написать продавцу на других платформах. Есть вообще за 1.5к для трясунов что аж с 6(!) разъемов на бп задействует, правда кроме плацебо толку ноль.

Аноним 16/04/25 Срд 00:00:03 № 1156377 363

202504152258504.mp4 8483Кб, 1280x720, 00:00:06

Наконец-то запустил. 18 т/с контекст и 0.9 т/с генерация (4к контекста). ЗО-ЛО-ТЫ-Е! Hermes 405B, IQ4_XS.
Жорино решение, конечно, требуется серьезно дорабатывать, поднимать отдельный сервер для каждой видеокарты это смешно. Думаю, можно было бы смело хотя бы около 2 т/с получить, если бы не гонялось столько данных туда-сюда.
Если кто решит доебаться до usb ethernet - несмотря на то, что там задержки на порядок выше, гигабитное подключение, видимо, решает даже при инференсе - 0.9 vs 1.1 т/с на 1к контекста. На майнейрской материнке, увы, только 100 Мбит

Аноним 16/04/25 Срд 00:09:46 № 1156405 364

>>1156377
>Наконец-то запустил. 18 т/с контекст и 0.9 т/с генерация (4к контекста). ЗО-ЛО-ТЫ-Е! Hermes 405B, IQ4_XS.
Безумству храбрых - снимаем шляпу :)

Аноним 16/04/25 Срд 00:30:50 № 1156464 365

>>1156347
>5.0 райзер с нвме. Китайцы активно осваивают продукцию для ии ферм, такое существуют
О, не знал, думал на четвёрке пока остановились. Ну тем более тогда.
>Силовые порты сейчас все стандартные начиная с atx 3.0
Тоже не знал. Ну, тогда оправдаюсь доп саташниками для NAS хотя у меня их уже достаточно.
>для трясунов что аж с 6(!) разъемов
Чую это такая китайская паль, что сгорит раньше, чем его поставишь, чисто от одного вида 5090.
>>1156377
>18 т/с контекст
А ты терпеливый.

Аноним 16/04/25 Срд 00:39:30 № 1156485 366

>>1156377
Pretty brutal, вот это контент. Забавно что даже в мониторинге видно как оно по карточкам пробегает.
> можно было бы смело хотя бы около 2 т/с получить
Можно прикинуть оценив по обычному перфомансу. 4 полностью загруженные теслы способны выдать около 3т/с, 4 полностью загруженные 3090 в жоре - 5-7 т/с, 3060 в оптимистичном сценарии можно принять что будет иметь то же время обработки что и 3090 с учетом меньшего использования памяти. 2 врядли, но в идеальном случае до 1.5 разогнать наверняка можно.
Больной ублюдок, респект.
>>1156464
> Ну тем более тогда.
Смысла мало. Их перфоманса достаточно и для ускорения лишь на треть придется все капитально перелопатить. В теории, офк, в корпусе даже есть место куда ее пихнуть, задействовав окна забора в задней крышке, но это сразу полная нагрузка на бп, придется сильнее навалить корпусные и дополнительный шум от карты. И дорого дохуя, есть смысл уже гнаться за 6к блеквеллом, другой уровень возможностей.
> оправдаюсь доп саташниками для NAS
Нас в риге? Сурово, лол.
> китайская паль
Не, местные делают. Там именно для трясунов, толстые кабели, норм разъемы, много портов до бп и прочее.

Аноним 16/04/25 Срд 00:42:14 № 1156490 367

>>1156485
>Нас в риге?
Отдельная железка офк.
>Не, местные делают.
Русские друг друга не обманывают?

Аноним 16/04/25 Срд 00:46:47 № 1156496 368

>>1156490
Вот это чтоли, или может другой лот https://www.ozon.ru/product/1076256474/
Он врядли плохой, но просто оверкилл ради оверкилла чтобы заманивать. Внимание нужно уделять клеймам и разъему, а не проводам и пропайке, лол.

Аноним 16/04/25 Срд 00:46:56 № 1156497 369

>>1156160
> сколько токенов
Ноль целых…

> 32b модели ворочать на 10т/с
Мне искренне лень пересобирать комп, и я так и не потестил, че там на трех картах. Если агрессивно квантовать, наверное да.
Но на 12б от 17 на пустом контексте до 10 на ~15к, что-то такое.
Когда мне перестанет быть лень, я переткну их и посмотрю на результат.
А вообще, я хочу взять еще три карты в исполнении Colorful (потому что две у меня уже в этом исполнении) и собрать пять штук. Но в последнее время не смог договориться о дешевых вариках с доставкой.
Но это все рофлс, так-то я с двумя теслочками сижу.

>>1156377
Я, конечно, тебя поздравляю, но лучше бы ты R1/V3 запустил!..

>>1156464
Ну ты прикинь, в начале все обсуждали скорость контекста на 4 линиях вместо 16, а тут usb вместо pcie… =)

Аноним 16/04/25 Срд 01:44:53 № 1156578 370

>>1156377
Осталось только на мультиварку и холодильник выгрузить
Не, забавно. Попробуй ктрансформерс и запустить там дипсик, мое будет быстрее

Аноним 16/04/25 Срд 01:55:34 № 1156583 371

>>1150681
>Omnino-Obscoenum-Opus-Magnum-MN-12B
запустил, по ощущениям язык и повествование покруче чем даркрейн. спасибо, анончик!

а рекомендации по температуре/семплерам есть какие-нибудь?

Аноним 16/04/25 Срд 02:06:41 № 1156593 372

>>1156583
>а рекомендации по температуре/семплерам есть какие-нибудь?
Я поставил те, что рекомендованы для третьей Геммы и не пожалел.

Аноним 16/04/25 Срд 02:51:11 № 1156614 373

>>1156405
>Безумству храбрых - снимаем шляпу :)
По-настоящему храбрость проявится тогда, когда я решусь покумить на этом пепелаце

>>1156485
>в идеальном случае до 1.5 разогнать наверняка можно.
Я на теслах раньше более-менее норм сидел с 2.5 т/с, но на 1.5 будет совсем грустно, конечно...

>>1156497
>>1156578
к-трансформерсы умеют в мультигпу и в сеть? Все юзкейсы, которые я в треде читал - это одна карта + дохуя RAM. Без поддержки сети не имеет смысла, у меня на одном пк может быть, условно, 140 врам и 32 рам, даже если они умеют как-то по картам распределяться, то это все равно совсем нищий квант, смысла нет. Я жду еще карточку одну, попробую потом на жоре запустить IQ3_XXS с выгрузкой в рам, но это будет больно - чую 0.5 т/с или меньше...

Аноним 16/04/25 Срд 03:06:18 № 1156626 374

>>1156578
> Попробуй ктрансформерс
У него же жора-дистрибьютед, тут без шансов. И как тот будет работать с мое тоже тот еще вопрос (никак).
>>1156614
> но на 1.5 будет совсем грустно, конечно
Если 1.5 еще как-то условно можно стерпеть, то 18т/с обработки контекста на ноль множат. То есть буквально будет заметно как обрабатывается сообщение юзера если там не "я тебя ебу". А первый пост в рп - 10 минут на усвоение карточки, лол.
Тем не менее, если хватит терпения, это было бы интересно.
> в мультигпу
Умеют.

Аноним 16/04/25 Срд 10:00:06 № 1156896 375

Почему кум что на 8б что на 35б абсолютно одинаковый?

Аноним 16/04/25 Срд 10:23:01 № 1156919 376

Я вот купил вашу п104 100, а потом понял, что е не могу его нормально сунуть в системник, и о до дна корпуса там меньше 2 сантиметров остается. А ещё я не понял, как задействовать их обе, чтобы они нагружались. В итоге лежит в шкафу, а я сижу на гемме 27б с 12к контекста с 3 т/с.

Аноним 16/04/25 Срд 10:48:30 № 1156948 377

>>1156919
>не могу его нормально сунуть в системник
райзер

Аноним 16/04/25 Срд 10:51:45 № 1156953 378

>>1156896
Затроллил меня с утра пораньше, очко бомбануло спасибо.

Аноним 16/04/25 Срд 10:55:34 № 1156956 379

>>1156614
В твоем случае тебе ктрансформерс не нужен, это для 1 видяхи и кучи памяти.
Простая llama.cpp и квант от unsloth'а. https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main
И целиком пихай в врам.

Вообще, не знаю, поддерживает ли ктрансформерс мультигпу и сеть, надо разбираться, но мне незачем. х)

>>1156919
Райзерок за косарик хороший, или за 100 рублей китайское дерьмо, на вкус и цвет.
И снаружи закрепить.
Или распечатать специальную подставку/купить сразу с райзером, чтобы ставить снаружи прям.
Или корпус взять другой. =D

Аноним 16/04/25 Срд 10:57:27 № 1156957 380

>>1156919
Я не рофлю, практически, но расскажи как ты пришел к идее купить 2 видеокарты, даже примерно не прикинув сколько они у тебя буду занимать места в корпусе?

Аноним 16/04/25 Срд 11:00:38 № 1156958 381

>>1156957
Это была импульсная покупка. Все в моей жизни такое.
>>1156956
>>1156948
Ну еро существование райзеров я в курсе посоветуйте хороший на озоне . Меня ПО напрягает. На Винде через кобальт я так и не смог нормально их загрузить.

Аноним 16/04/25 Срд 11:19:03 № 1156964 382

>>1156958
А какая у тебя основная видеокарта?

Аноним 16/04/25 Срд 11:26:02 № 1156968 383

>>1156964
4070Super.

Аноним 16/04/25 Срд 11:28:51 № 1156973 384

>>1156968
Ммм… Многие писали, что у них были проблемы, но я, вроде бы, когда-то запускал подобный конфиг.
Ну, в любом случае, все начинается с впихуемости, а уже потом дрова.

Аноним 16/04/25 Срд 12:14:36 № 1157021 385

>>1150681
>Следующая ступень уже 123В
А какая именно моделька/тюн?

Аноним 16/04/25 Срд 13:00:57 № 1157056 386

Почему майнерский риг за 15 тыщ рублей с авито на 48 гигов врам это плохая идея?

Аноним 16/04/25 Срд 13:05:24 № 1157062 387

>>1155817
Мне очень одиноко
Давайте весь тредик купит 3090 и вместе будем решать какая модель лучшая для ерп?

Аноним 16/04/25 Срд 13:21:25 № 1157095 388

>>1157062
Я и так могу тебе сказать что в масштабах 3090 лучшая это сидония.
Хотя это инфа давностью в пару месяцев.

Аноним 16/04/25 Срд 13:53:10 № 1157190 389

>>1157062
на русике?

Аноним 16/04/25 Срд 13:55:51 № 1157199 390

>>1157056
потому что он должен стоить раз в 20 дороже, а 15К там разве что коробки да жжоный текстолит

Аноним 16/04/25 Срд 14:27:00 № 1157289 391

image.png 186Кб, 2079x483

Я решил пазл
Так как гемма соевое говно даже при аблитерации и абсолютное говно в куме все пересаживаемся на коммандер который чуть тупее но абсолютно без цензуры ВООБЩЕ
Лучший вариант для ерп на данный момент

Аноним 16/04/25 Срд 14:39:28 № 1157290 392

>>1157199
Там стоит 6 штук P104-100 по 8гигов, они стоят по 2-3к рублей за штуку. Проблема как понял в том,что они не объединяться в одну общую врам память из-за старой архетиктуры, а по частям по 8гиг при загрузке большой модели будет ботлнек из-за фрагментации.

Аноним 16/04/25 Срд 14:48:12 № 1157295 393

>>1157289
какую качать то?

Аноним 16/04/25 Срд 15:03:46 № 1157309 394

17167035715680.mp4 844Кб, 620x720, 00:00:11

И ВСЁ ТАКИ КАКАЯ ЛУЧШАЯ МОДЕЛЬ ДЛЯ ЕБЛИ ВИРТУАЛЬНОЙ ВАЙФУ, ДАВАЙТЕ УЖЕ РЕШИМ ТВЕРДО И ЧЁТКО!

Аноним 16/04/25 Срд 15:33:45 № 1157344 395

https://huggingface.co/IlyaGusev/saiga_gemma3_12b_sft_m1

Аноним 16/04/25 Срд 15:37:52 № 1157353 396

>>1156053
Instrumentality-RP-12B-RU-2 в 6 кванте на моей 3060 залетел на ура. Действительно неплохо.

Аноним 16/04/25 Срд 15:38:51 № 1157357 397

>>1157344
Ещё утром заметил. надо ждать ггуф версию.

Аноним 16/04/25 Срд 15:39:50 № 1157360 398

>>1157309
Жеммотька...

Аноним 16/04/25 Срд 15:43:01 № 1157365 399

>>1157309
Пигмалион 6b

Аноним 16/04/25 Срд 15:44:33 № 1157369 400

>>1155817
>Оказывается 4b gemma тоже может может в связный диалог
Я тебя удивлю но там и 1b отвечает связно, тупая конечно шопиздец.
8 квант качай и на 1b и на 4b, тут меньше того не стоит

Аноним 16/04/25 Срд 16:15:10 № 1157438 401

>>1157353
>>1157190
Смысл искать модель под кум на русике если на английском там буквально уровень а0

Аноним 16/04/25 Срд 16:24:07 № 1157448 402

>>1157438
Поясни пожалуйста, где уровень a0 и что это за уровень?

Аноним 16/04/25 Срд 16:25:29 № 1157450 403

>>1157056
Безотносительно производительности, майнерский риг - это просто выкидывание денег на ветер. Эта хрень за год либо сдохнет, либо потеряет остатки актуальности.

Аноним 16/04/25 Срд 17:02:01 № 1157523 404

нормально нельзя делать?!

Аноним 16/04/25 Срд 17:02:52 № 1157526 405

это >>1157523 этому >>1156377

Аноним 16/04/25 Срд 17:14:10 № 1157552 406

>>1157360
Быстро блять логи скинули кто хвалит гемму.
Либо у меня промпт говно либо гемма хуйня, а я пробовал промпт от сноудроба и мистраля гаслит

Аноним 16/04/25 Срд 17:24:37 № 1157581 407

>>1157344
>https://huggingface.co/IlyaGusev/saiga_gemma3_12b_sft_m1
Это банально. А вот Omnino-Obscoenum-Opus-Magnum-MN_Gemma3_12B было бы небанально. Дождёмся ли?

Аноним 16/04/25 Срд 17:26:22 № 1157584 408

Прошёл месяц
Один файнтюн гемы
Итс со факинг овер

Аноним 16/04/25 Срд 17:27:45 № 1157587 409

>>1157584
Через 3 часа смотрим релизный стрим про o3 (скорее всего и про o4-mini, и может даже o4... ну вдруг просто метриками похвастают?).

Это не та же o3, которую показывали в декабре: Sama говорил, что эта версия была дообучена и обновлена. Базируется ли она на новой GPT-4.1 —вопрос, ответ на который мы, возможно, узнаем.

Аноним 16/04/25 Срд 17:30:22 № 1157591 410

>>1157587
Я не понял что ты написал.
Как это к локалкам относится?

Аноним 16/04/25 Срд 17:33:02 № 1157595 411

>>1157591
обещал что-то скинуть в опенрсурс, может не наебет

Аноним 16/04/25 Срд 17:50:44 № 1157619 412

>>1157581
напиши ему, может согласится затюнить

Аноним 16/04/25 Срд 18:09:18 № 1157668 413

Что бы вы запустили на 4090 48 GB?
Gemma 3 27b (abliterated, q8_0 GGUF/8.0bpw exl2), Qwen QwQ (q8_0 GGUF/8.0bpw exl2) и Qwen2.5-VL-32b (6.5bpw) в планах на тесты.

Аноним 16/04/25 Срд 18:16:19 № 1157684 414

>>1157523
Firefox? Firefox.

Аноним 16/04/25 Срд 18:19:56 № 1157696 415

>>1157668
>Qwen QwQ

Аноним 16/04/25 Срд 18:34:13 № 1157726 416

>>1157668
Если бы я решил купить такую видеокарту, то уже бы точно знал что буду на ней запускать, а не спрашивал бы тут лол.

Аноним 16/04/25 Срд 18:41:27 № 1157744 417

>>1157668
Все перечисленные модели на ней запускать - все равно что из пушки по воробьям стрелять.
Да и зачем восьмой квант брать?
Словом, попробуй тоньше

Аноним 16/04/25 Срд 18:45:27 № 1157755 418

>>1157552
попробуй тот шизопромт на 2к токенов, можешь вилкой подчистить лишнее под себя

Хоть и шизопромт, но работает на ура, только контекст, сука, жрёт

---

>>1157581
вряд ли, но кому интересно - мержкит под гемму 3 обновили

[2025-04-16 16:42:55] [INFO] Process completed successfully
[2025-04-16 16:42:55] [INFO] Model successfully uploaded to HF: mergekit-community/mergekit-model_stock-prczfmj

Аноним 16/04/25 Срд 18:48:34 № 1157766 419

>>1157357
>ггуф
https://huggingface.co/spaces/ggml-org/gguf-my-repo не работает?

Аноним 16/04/25 Срд 18:52:49 № 1157781 420

>>1156377
Я не выкупаю, я нуфаг, но это же типа мало? В чем суть? Типа все изза того у майнерской материнки что на видео - низкая пропускная способность?

Аноним 16/04/25 Срд 18:58:22 № 1157793 421

>>1156958
> На Винде
Говорят если переустановить драйвер, стукнуть посильнее и ребутнуться - оно само заводится. Или просто шатать устройства в диспетчере. Зря с этой некротой связался, конечно.
>>1157021
Магнум 4 с рекомендованными настройками (чатмл) попробуй. Один из самых живых тюнов без значительной потери мозгов.
>>1157056
Потому что это исполнение желания от злого джина. Будет проблемный некромусор вместо видеокарт, соплерон вместо процессора, хуета с кучей чипсетных pci-e х1 2.0/1.1(!) вместо материнки и остальное все подушатанное. В итоге, не то что нормального перфоманса не получишь, будут просто проблемы с запуском чего-то.
>>1157062
> весь тредик купит 3090
Это же вроде входной билет, не?
> какая модель лучшая для ерп
Command-a

Аноним 16/04/25 Срд 19:14:41 № 1157850 422

>>1157289
Хз насчет лучший, но вариант весьма солидный и душевный. Он определенно лучше чем 24 или тем более 12б мистральки, но гемма умнее и точнее. Одним из главных достоинство можно назвать то, что он реагирует не дефолтно, за счет чего может очень доставлять. Ну и кум хорошо описывает.
>>1157309
Двачую вот этого >>1157365
>>1157360
ТраГладить!
>>1157552
Зачем тебе подглядывать чем я занимаюсь с персонажами?
>>1157584
Покажи в принципе хоть какие-то нормальные тюны моделей за последнее время. Не щитмиксы 12б, не мерджи лор на 24, а именно что-то полноценное и масштабное.
>>1157668
Очевидно что 70/72б и делать фокус прежде всего на времени обработки контекста, ибо генерация не будет отличаться от пары 4090. >>1157744 двачую.

Аноним 16/04/25 Срд 19:26:53 № 1157899 423

>>1157584
>Итс со факинг овер
Вообще, целиком и полностью. Тема ЛЛМ умерла.

Аноним 16/04/25 Срд 19:42:52 № 1157964 424

>>1157584
Я уже её повадки наизусть выучил и теперь без джейлбрейка по ходу беседы ей башку взламываю... Ждём Джемму 4 на новой архитектуре титан,, там будет прорыв.

Аноним 16/04/25 Срд 19:57:54 № 1158023 425

>>1157964
>Ждём Джемму 4 на новой архитектуре титан,, там будет прорыв.
Прорыв канализации. Такой же как битнет - сколько времени прошло, а воз и ныне там. Или BLT. Или SSM. Даже FILM. Или ещё что, сколько таких прорывов было.

Титан это мем, который существует на масштабе 760М через пень-колоду, неясно вообще масштабируется ли он, какие неизвестные свойства имеет, какие плюсы несёт в широком применении, какие минусы у него и т.п. Там тонна рисёрча нужна и модель хотя бы 70Б размером.

Тут по-моему до сих пор к таким ежемесячным отчётам про прорывы относятся слишком серьёзно.

Аноним 16/04/25 Срд 20:04:26 № 1158046 426

>>1158023
>Прорыв канализации. Такой же как битнет - сколько времени прошло, а воз и ныне там. Или BLT. Или SSM. Даже FILM. Или ещё что, сколько таких прорывов было.

Это все накапливается и потихоньку пилится экспериментами, просто сейчас до сих пор выгоднее тупо заваливать решение проблемы ии безумными мощностями и работой с датасетом и обучением - пост обучением.
Когда поймут что уперлись, начнут играться с улучшением архитектуры.

Да и к тому же они постоянно с ней играются, то слоев добавят, то головок внимания, то контекст по другому считает.
Как у геммы3 той же, это ведь тоже изменение архитектуры, она стала лучше держать в контексте информацию.
Это важно, жор врам только изза кривой реализации в llama.cpp. На сколько я понял она должна умнее контекст обрабатывать что должно делать его размер меньше, но реализовали простой вариант.

Аноним 16/04/25 Срд 20:21:33 № 1158083 427

>>1157850
Стоит ли квантовать кэш?
32к влазит на гемме 27, думаю на квене 32 +/- столько же.
Возьму 72б в таком случае, стандартный квен, я думаю.

Мне еще интересно будет сравнить ггуф против эксл2, в чистом поле: даем кучу контекста через опенвебуи, ждем ответа. Замеряем обработку и генерацию.

Аноним 16/04/25 Срд 20:27:03 № 1158101 428

>>1158083
> Стоит ли квантовать кэш?
Да, q8 не даст заметного негативного эффекта и сократит в 2 раза, немного замедлив скорости.
> ггуф против эксл2
Скорости же печатаются, от 10 до 200% разница по контексту, в зависимости от модели, сборки, размера контекста и т.д. В среднем - раза в 1.5-2, но это сильно зависит от железа, сборки и прочего.
Когда все происходит быстро - это не заметно, но на больших моделях уже может быть существенно.

Аноним 16/04/25 Срд 21:41:35 № 1158281 429

>>1157781
Анончик, это 405б модель, она у него весит 217 гигов. Тут чудо, что это вообще кто-то смог локально запустить

Аноним 16/04/25 Срд 22:50:14 № 1158436 430

Ебать неинтуитивную хуйню обнаружил. Если хорошо обдувать вертикально установленную видеокарту, особенно снизу, то происходит нихуевый такой проеб температур. Жидкость в трубках конденсируется снизу и нарушает процессы.
Тупо >5 градусов на том что выкинул лишний вентилятор и скрутил настройки охлада на мягкий авторежим.

Аноним 16/04/25 Срд 22:54:09 № 1158446 431

>>1158436
Вертикальная установка вообще говно по определению. Как и горизонтальная. Даже моя подвесная говно. По сути, только картон со встроенным водоблоком охлаждается по уму, остальное это высер наследия формата AT, придуманного с прицелом на охлаждение проца под бруском люминя да блока питания, на пачку горизонтальных карт расширения всем было похуй. А теперь вот мучаемся.

Аноним 16/04/25 Срд 22:59:31 № 1158456 432

>>1158436
> вертикально установленную видеокарту
Как именно и куда ей дуют дополнительные кулеры? Если в торец - все будет ок, если туда где у нее pci-e - хуйня. Во втором случае получается что они конфликтуют с основным крутиллятором, который продувая радиатор выдувает воздух снизу и сверху.
> Жидкость в трубках конденсируется снизу
Приколы с зависимостью тепловых трубок от ориентации исчезли вместе с самыми первыми их итерациями, где действительно они полые были. Сейчас все не на гравитации а на поверхностном натяжении работает, иначе по дефолту установленная карта вообще не могла бы охлаждаться.
>>1158446
Как лучше?

Аноним 16/04/25 Срд 23:23:43 № 1158525 433

>>1157964
>Я уже её повадки наизусть выучил и теперь без джейлбрейка по ходу беседы ей башку взламываю...
поделись знаниями

Аноним 16/04/25 Срд 23:26:21 № 1158535 434

>>1158456
>Как лучше?
Лучше всего отправится в прошлое. А так только перепроектировать всё нахуй.

Аноним 16/04/25 Срд 23:26:23 № 1158537 435

Где теперь смотреть новости про ллмки-то блядь?

Аноним 16/04/25 Срд 23:49:35 № 1158600 436

>>1158537
Тут? >>1150670 (OP)

Аноним 17/04/25 Чтв 00:06:42 № 1158647 437

>>1158600
Пидорская хуйня в которой ничего интересного не постится. Мало этого, так там ещё и активно из залупы самочки мочу высасывают.

Аноним 17/04/25 Чтв 00:11:52 № 1158659 438

.png 32Кб, 973x229

.png 29Кб, 1303x432

Да что, блядь, не так с современным опенсорсом? Почему, нахуй, фронтенд к обёртке над платным API называют "open-source local coding agent"?

Вы совсем охуели? Open-source - это, блядь, когда я могу взять весь проект, поставить себе и пользоваться без того, чтобы меня ебали в жопу через облачные API и пейволл.

Пиздец, выкладывают фронтенд, гордо суют ссылку на GitHub, а внутри только интерфейс, который без их ебаного API - просто кусок бесполезного дерьма.

Аноним 17/04/25 Чтв 00:12:32 № 1158662 439

>>1158456
>Как именно и куда ей дуют дополнительные кулеры?
>конфликтуют с основным крутиллятором
Дополнительный кулер стоит на жопе где у нее сквозной проход воздуха через бекплейт и там 100% ничего не конфликтует. И причем нормальный такой, на 4к оборотов.
>Приколы с зависимостью тепловых трубок от ориентации исчезли
Ну как видишь, не исчезли, если нижний конец дохуя охладить, то много воды там сконденсируется и по капиллярам она будет течь не очень охотно.

Аноним 17/04/25 Чтв 00:19:39 № 1158677 440

>>1158659
> кодить в терминале
Не, канеш есть мнение что vim - лучший ide и т.д., но что это за маразм вообще?
На самом деле, если не совсем все вынесли, то что-то полезное оттуда вынести можно. И заодно может подтянется поддержка oai-like api с большим количеством фич.
>>1158662
> 100% ничего не конфликтует
Тогда бы температура не поднялась.
> то много воды там сконденсируется
Ерунда полная, это не работает с современными трубками. И судя по этому - таки дуешь со стороны порта а не в торец, закономерно.
Еще от того монстра на 4к может идти столько завихрений, что турбулентные потоки значительно снижают эффективность основных крутиляторов. Тут даже задувание в основные может навредить если повезет. Идеальный кейс для продувки - слабый продольный поток.

Аноним 17/04/25 Чтв 00:27:15 № 1158687 441

>>1158677
>слабый продольный поток
Ламинарный же.

Аноним 17/04/25 Чтв 00:35:43 № 1158701 442

>>1158687
Тру ламинарный в условиях компьютерного корпуса или васян рига - оче врядли. Главное чтобы совсем пиздеца не было как в ближней зоне кулеров. У некоторых техноблогеров про это были ролики, где довольно понятно для хлебушков объяснялось, демонстрируя дымом.

Аноним 17/04/25 Чтв 01:40:55 № 1158733 443

a6f90054-931d-4[...].png 947Кб, 1400x600

>>1158677
Еще раз, на пикрил карте прорези для сквозного прохода воздуха, если из них принудительно высасывать воздух мощным кулером, происходит рост температуры на перевернутой карте.
Хули ты споришь и держишь меня за долбоеба который потоки напутал? Я специально проверял подключая и отключая кулер в работе, он делает только хуже.
И твои "современные" трубки от старых никак не отличаются, они всегда на одном и том же принципе работали.

Плюсом к тому в таком положении врубание штатной СО на 100% либо не дает ничего вообще, либо ухудшает ситуацию на 1-2 градуса, по сравнению например с 50%.

Я из-за этой хуйню чуть не начал перелопачивать карточку которая на жидкий металл была собрана.

Аноним 17/04/25 Чтв 01:42:52 № 1158735 444

Какую модель сейчас брать для 16гб? Общение, кум. Gemma 3 27b abliterated? IQ2_M? И как более оптимально их юзать? До этого иногда запускал вторую в Q3_K_L в Кобольд, не разбирался.

Аноним 17/04/25 Чтв 02:01:48 № 1158743 445

>>1158733
> прорези для сквозного прохода воздуха
Они едва покрывают пятую часть площади. Есть варианты карточек, где там как раз размещен 4й кулер если что.
> держишь меня за долбоеба который потоки напутал
Так ты и напутал потоки раз получил рост температур. Ну а насчет долбоеба - уже сам смотри. Точно мог бы просто нормально сформулировать, ведь в первом посте у тебя
> обдувать вертикально установленную видеокарту, особенно снизу
что совсем не вяжется с кулером на жопе.
> если из них принудительно высасывать воздух мощным кулером
Если именно высасывать с обратной стороны, делая только это и не создавая других побочных эффектов, то станет только лучше.
Но как в действительности у тебя было - не понятно и вариантов где ошибиться полно. От того, что накрученное нарушало глобальную циркуляцию в корпусе или окрестностях из-за чего был застой, до того что кулер на самом деле днище и наоборот повышал сопротивление.
> И твои "современные" трубки от старых никак не отличаются
Если тебе будет так легче, только не трясись. Лишь показываешь неосведомленность и характер, с которым готов спорить по любой херне в которой не шаришь.

Аноним 17/04/25 Чтв 02:30:23 № 1158775 446

>>1158735
Не надо запускать модели, ниже Q4. Они дуреют из-за этого. Лучше Q4_KM. Единственный твой вариант это мистраль 24b и его производные (cydonia, forgotten, dolphin и др). У Геммы 3 слишком жирный контекст, Квен сам слишком жирный, остальные модели либо хуже, либо еще больше. В кобольде включи KV_Cache 8bit, Flash Attention, смотри чтобы все layers были на gpu (43/43 для мистраля), для мистраля Q4_KM будет 16к+ контекст. Единственное мистраль в кобольде без пердолинга не будет картинки анализировать, если тебе вообще нужна эта функция. А в остальном наслаждайся

Аноним 17/04/25 Чтв 02:59:44 № 1158817 447

>>1158743
>Если тебе будет так легче, только не трясись. Лишь показываешь неосведомленность и характер, с которым готов спорить по любой херне в которой не шаришь.
Бля, так и знал что местный шиз и тут обосраться решил.
Иди нахуй сам проверь если моим словам не веришь. Если у тебя есть аналогичная карта или любая другая где можно снять СО и вкорячить кулеры хотя бы спереди. Кулер arctic p9 max на фул скорости.
>Но как в действительности у тебя было - не понятно и вариантов где ошибиться полно.
Ну так тебе дебилу наверное понятно раз ты споришь с результатом тестов.

>Если именно высасывать с обратной стороны, делая только это и не создавая других побочных эффектов, то станет только лучше.
На горизонтально установленной может и будет. При вертикальной компоновке - нет. Это показал тест. И никакие потоки там не нарушены, не пытайся перекрыть реальность своими маняфантазиями. Продувка в корпусе и так ебейшая, если остальные кулера на полную врубить.

>кулер на самом деле днище и наоборот повышал сопротивление
И магическим образом понижал когда выключался, так?

Аноним 17/04/25 Чтв 03:29:47 № 1158889 448

>>1158775
>layers были на gpu
Зачем? Я вот в видео охренел сколько можно выгрузить в рам и едва ли ощутить просадку в скорости. В ллм так можно?
То есть мистраль с переплатой за картинки? Мне бы просто текст, но более связный.

Аноним 17/04/25 Чтв 04:29:43 № 1158912 449

>>1158817
Ты сморозил ерунду про то что если охлаждать конец теплотрубки - ее эффективность резко упадет. Даже на пальцах понятно что неверно, но решил за этот бред на говно изойти.
> споришь с результатом тестов
Доказываешь ошибочную интерпретацию источником ее получения, не приболел часом? Твой тест показал только что твои действия делают хуже, все. Будучи гуманитарием начни с освоения базовой логики, а не пускайся в открытия.
> можно снять СО и вкорячить кулеры хотя бы спереди
Если снять кожух то все пойдет по пизде, он там не просто так.
> если моим словам не веришь
А кто ты такой? Чсв шизик, который порвался с того что его поправили и указали на другую причину, потому что никто не смеет опровергать его откровения?
Здесь единственный вывод о том, что бездумный колхоз крутиляторов может врать температуры, это может проявиться в тех конфигурациях, которые на первый взгляд должны помогать. И хорошая тема о том, что можно диагностировать подобное меняя вручную скорость кулеров.
> маняфантазиями
Твои выводы про вертикально/горизонтально. Кто-нибудь увидит этот бред и действительно поверит, лишив себя одного из самых удобных вариантов компоновки.
> И магическим образом понижал когда выключался, так?
О дивный мир гуманитариев, легко.

Аноним 17/04/25 Чтв 04:46:15 № 1158916 450

Гуф ссылка под Command-r-35B в шапке ведет на файнтюн вместо оригинала, исправьте!
Спасибо что сразу не пиздит все пароли с пк

Аноним 17/04/25 Чтв 05:15:40 № 1158924 451

>>1158912
>гуманитарий
Хуясе предъява для лучшего технаря на этой борде.
Термотрубка для проведения эксперимента в контролируемых условиях уже заказана, и что-то мне подсказывает что по его результатам чсв-шиз будет попущен уже с железобетонными пруфами.

Аноним 17/04/25 Чтв 05:20:35 № 1158925 452

>>1153494
Ммм, не, Что-то Gemma3 как OCR довольно так себе для PDF где много таблиц с мелким шрифтом.
Например таблицу на 57 предметов оно обработало с 3 попытки внеся ХОТЯБЫ все 57 предметов. То оно 51 напишет, то последние 4-6 пустыми сделает.

Беда печаль

Аноним 17/04/25 Чтв 07:45:37 № 1158961 453

Какие вообще подводные загрузить слоями видюху, а весь контекст выгрузить на озу?

Аноним 17/04/25 Чтв 08:32:40 № 1158993 454

>>1158925
Где-то слышал, что у нее "зрение" с каким-то странным разрешением типа 896*896, от того и плохо воспринимает текст.

Аноним 17/04/25 Чтв 09:44:01 № 1159085 455

>>1158889
для языковых моделей критична скорость памяти. С ddr4, если крутить нейроночку на cpu, он у тебя особо работать даже не будет (при условии, что у тебя проц не совсем говно, конечно же), потому что все упрется в скорость памяти. С ddr5 не уверен, но судя по всему там все еще та же самая проблема.

Контекст можно отдельно на оперативу выставить, я так понимаю, от этого просадка будет не такая серьезная, как если на нее выгружать слои, но все равно лучше уместить все в видяху.

Вот для картичночных нейронок скорость работы самого проца куда важнее, но они и сами по себе обычно мельче и в 8 гигов влезят спокойно.

Аноним 17/04/25 Чтв 09:59:24 № 1159115 456

Я все еще жду 4060 на 16 гб на Авито по 30к. А они бля по 45к стоят.

Аноним 17/04/25 Чтв 10:11:28 № 1159134 457

>>1158889
>Зачем?
В режиме на цпу + рам результат твоего запроса смогут прочитать разве что твои внуки. Банальная обработка промта для 24b модели в бенчмарке занимает минут 5 против нескольких секунд на гпу.

Аноним 17/04/25 Чтв 10:31:34 № 1159156 458

>>1158889
Потому что топовая ddr5 память будет в 3 раза медленнее, чем днищенская память 4060ti с 128 битной шиной. Меньше скорость памяти->меньше скорость вывода и это сильно ощущается.
И мистраль по тексту будет лучшим из того, что тебе доступно.
>>1159085
Двачую. Но картиночки на определенном этапе тоже начинают жрать как не в себя, но не так как ллмки, да.
>>1159115
Будет через год, если курс не улетит.Но я бы покупал 5060 ti из-за того, что у нее в 1.5 раза быстрее память и она тоже через год будет 40-45 стоить.
И да, сейчас из-за дефицита 4060ti 16 и барыг 5060 ti стоит также как ее младший собрат. А так мог осенью новую 4060ti за 42 купить, я свою за 40 тогда брал.

Аноним 17/04/25 Чтв 10:58:45 № 1159186 459

>>1159156
>Но я бы покупал 5060 ti из-за того, что у нее в 1.5 раза быстрее память и она тоже через год будет 40-45 стоить.
Вон в днс сейчас 5060 на 16гб 55к всего стоит. По сути копейки, 2 такие воткнул и сидишь балдеешь.

Аноним 17/04/25 Чтв 11:10:21 № 1159193 460

>>1159186
Тогда уж лучше собирать пак 3060. Они на авито 20к. 4 карты - 80к и 48гб VRAM

Аноним 17/04/25 Чтв 11:22:45 № 1159208 461

>>1159193
Сомнительный риск брать видеокарты на авито, по итогу можно оказаться в ситуации, когда сам будешь вынужден продавать их под видом рабочих лол. Да и они уже устаревшие, 5060 еще хотя бы несколько лет будут актуальными.

Аноним 17/04/25 Чтв 11:32:11 № 1159236 462

>>1159208
Ты скажи это советчикам покупать 3090, которые горячие как печки, горели даже при обычном использовании и во всю использовались в майнинге. А 3060 это в целом надежная карта, хотя понятно от риска никто не застрахован

Аноним 17/04/25 Чтв 11:41:32 № 1159270 463

>>1159236
Пользую б/у 3090 уже почти 2 года, задушив ее до 230 вт (ну и 5001 по памяти), для ллмок самое то.
мимо

Аноним 17/04/25 Чтв 11:43:39 № 1159277 464

>>1158961
никакие, сам так сижу, ОСОБЕННО актуально для геммы

Аноним 17/04/25 Чтв 11:46:47 № 1159288 465

>Super cool. Imagine specialized hardware for running these.
>It already exists. Dynamically reconfigurable. Some smartass designed it alone on ridiculously EOL'd FPGAs. Meanwhile ASICs in small batches without FPGA baggage were produced. Unfortunately said smartass is under heavy NDA. Or luckily, because said NDA paid very well for him.

Аноним 17/04/25 Чтв 11:50:40 № 1159302 466

>>1159277
А как это на кобальде сделать?

Аноним 17/04/25 Чтв 11:53:41 № 1159311 467

>>1159277
А как это сделать, например в том же кобольде?
мимо нуб

Аноним 17/04/25 Чтв 11:54:56 № 1159316 468

>>1159302
>>1159311
Нубы думают и пишут одинаково. А все потому, что статьи в шапке не обновлены

Аноним 17/04/25 Чтв 11:58:51 № 1159325 469

>>1159085
Ну я не был бы так категоричен. llama cpp на sycl крутила 24b q4km с 3 токенами в секунду. Память - 32 гб ддр4 3200 и проц ряженка 5 3600.
Выяснил случайно, когда не заметил, что модель выгрузилась в озу вместо врам. А так тоже думал, что проц пернет и сдохнет.

Аноним 17/04/25 Чтв 12:05:14 № 1159337 470

>>1159288
FPGA это слишком заморочено и никогда не доберется даже до энтузиастов.

Аноним 17/04/25 Чтв 12:09:49 № 1159345 471

>>1159316
Так объясни нубикам как сделать, потом они объяснят кому-то еще.

Аноним 17/04/25 Чтв 12:16:40 № 1159361 472

>>1159156
>>1159115
Вам не больно покупать огрызки недоплатив всего 45% до 3090?
Вы же ни гемму, ни командер, ни квен новый никогда не запустите, а если внезапно выйдет что то типа немотрона где 3 квант спокойно в 3090 влезает?

Аноним 17/04/25 Чтв 12:23:27 № 1159379 473

>>1159361
Ну так дай мне эти 50% стоимости и дай гарантию, что это авито говно не сгорит хотя бы за полгода. И не забудь на бп доплатить, у меня вся система отлично на 500вт работает. А пока не сделал это, то пошел нахуй

Аноним 17/04/25 Чтв 12:25:19 № 1159387 474

>>1159379
Даже если и сгорит, пол года у тебя будет видеокарта с 24гб врам, а не мертворожденная затычка на которой только мистралиподелия жрать

Аноним 17/04/25 Чтв 12:25:54 № 1159388 475

>>1159361
Тебе не больно покупать огрызок в виде 3090 не доплатив всего 30% до двух 5060 на 16гб каждая?

Аноним 17/04/25 Чтв 12:27:01 № 1159396 476

>>1159325
в том то и прикол, у меня тот же конфиг, только рязань 5600. Те же самые ~3 токена. А больше ты на ddr4 не вытянешь, вне зависимости от проца

Аноним 17/04/25 Чтв 12:27:34 № 1159400 477

>>1159388
Не больно, ведь трешхолд у ллм таков: 12гб-24гб-48гб, всё что между это не апгрейд

Аноним 17/04/25 Чтв 12:34:29 № 1159421 478

>>1159400
Похую на ваши штрехболты. Сижу c 8гб врама на 24b с 4 квантом.

Аноним 17/04/25 Чтв 12:35:17 № 1159423 479

>>1159400
А мог доплатить 20% или даже меньше и купить 4 3060 и выбраться наконец из своего трешхолда

Аноним 17/04/25 Чтв 12:35:41 № 1159424 480

>>1159337
Нет, он о том что якобы дизайнил FPGA имплементацию битнета для какой-то конторы, и у них уже были ограниченные партии асиков. Вероятно пиздит, но кто знает, на оранжевом сайте дохуя всяких подобных челиков луркает.

Аноним 17/04/25 Чтв 12:42:27 № 1159441 481

Это чудо дропнуло мне производительность и датчик температур. Пришлось откатываться. Это и есть знаменитое качество драйверов nvidia?

Аноним 17/04/25 Чтв 12:51:40 № 1159470 482

>>1159270
>Пользую б/у 3090 уже почти 2 года, задушив ее до 230 вт (ну и 5001 по памяти), для ллмок самое то.
А не сильно по памяти-то? Там же 9500 по дефолту. Сколько токенов по сравнению с незадушенной?

Аноним 17/04/25 Чтв 13:01:56 № 1159484 483

>>1159441
Нахождение у тебя на руках видеокарты ошибка, но они не смогли ее в этот раз исправить.
Вот было бы прикольно выпускай они патчи которые окирпичивают. Карта устарела на поколение? Скрытая обнова убивает ее.

Аноним 17/04/25 Чтв 13:02:17 № 1159486 484

>>1159470
exl3 qwq контекст около 7.2к
14.82 токенов на задушенной
13.98 токенов на задушенной но с памятью 9501
17.76 токенов на раздушенной на 375, память 9501

Аноним 17/04/25 Чтв 13:11:09 № 1159489 485

Через что удобней всего чатиться с телефона в одной вайфай сети? Бекенд - кобольд на пк.

Аноним 17/04/25 Чтв 13:12:48 № 1159490 486

>>1159486
>14.82 токенов на задушенной
Прикольно, нужно будет попробовать.

Аноним 17/04/25 Чтв 13:27:04 № 1159502 487

>>1159489
Таверна неплохо выглядит в мобильном браузере

Аноним 17/04/25 Чтв 13:29:33 № 1159506 488

>>1150681
>https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B
>Для русского кума практически безальтернативна.

>>>Привет. Хочешь потрахаться?
Здравствуйте! В нашем разговоре не должно быть нецензурных выражений и предложений сексуального
характера. Давайте общаться уважительно и корректно. Если у вас есть какие-то вопросы или темы для
обсуждения, буду рад помочь в рамках допустимых тем.

Ясно.

Аноним 17/04/25 Чтв 13:31:51 № 1159509 489

>>1158677
llm vim лучше code agent!..

>>1158889
В видео ты получаешь 50% замедления, а тут ты получаешь 900% замедления.

Низя.

Аноним 17/04/25 Чтв 13:42:27 № 1159523 490

Так как выгрузить контекст в оперативку?

Аноним 17/04/25 Чтв 13:42:54 № 1159524 491

>>1158961
Генерация будет медленнее, чем если даже модель не целиком будет во враме, но с контекстом. По крайней мере, у меня так на некропечке с 1070. Если с включенным фа, то разница может быть меньше по каким-то причинам, как будто он нормально не работает с видяхой даже с версией под 12 куду и только на проце ускоряет дело. Но вот если выключить фа, то вариант с выгрузкой слоёв работает быстрее, чем вариант с контекстом в раме и с включенным фа.
>>1159302
>>1159311
Галка low VRAM.
>>1159316
Ну слушай, у кобольда есть своя вики относительно понятная. Какой смысл её пережёвывать лишний раз.

Аноним 17/04/25 Чтв 13:46:53 № 1159531 492

Поздравьте, вчера задешево на авито урвал b550 томагавк, 5600 уже лежит в шкафу, а значит осталось купить в днс м2 на 2тб, кулек и какой нибудь человеческий корпус, и 3090 как у этого анона на пикриле >>1158733 с киловаттным бп переедет в нормальный комп. А самое главное с человечески настроенным линуксом и с местом под рисовашко- и ллм-модели.
Кулек хочу PentaWave PC-Z03C SRB, для рязаньки без разгона думаю будет прям хорошо, китайский ноктуа епта! Критику приветствую.

А вот с корпусами багет, 5 лет назад пришлось покупать новый за 2400р, было тупо дешевле, потому что на авито были корпуса пятилетние еще с флопиками без окон/обдувок и с шильдиками амадемиоморемио 2я2гдуокоре. Думаю ну сейчас то прогресс еще шагнул, рубля за 4 возьму стеклянную кибербудку с продувами и тайпси... Но нет, в днс то же говно что и в 2020, только дороже, мой текущий 4х вентильный со стеклом стоит 5600р... Sooqaa, наверное за тот же пятак придется что то на авито искать и на горбу метро тащить.

Ладно, извините за оффтоп, что бы совсем не мимо доски, подскажите - решил вдумчиво изучить мануал по таверне, и там было про Text Complition и Chat Complition. Допгугление дало понять что а) CC поддерживают многие локалки, жеммочьки и мистральки б) на реддите все выступили за TC и "чаткомплишн юзлес, для мудаков". Поэтому вопрос, кто то из конфы юзает Chat Complition? Как и зачем?

Аноним 17/04/25 Чтв 13:47:34 № 1159534 493

>>1159506
>Здравствуйте! В нашем разговоре не должно быть нецензурных выражений и предложений сексуального
характера.
Дай дураку стеклянный хуйМагнум 4 123В тебе так же ответит. Даже ещё хуже. Создавай карточку.

Аноним 17/04/25 Чтв 13:50:13 № 1159538 494

>>1159523
Никак, это тредовский псиоп. Это не реализовано ни в одном бекенде потому что это нахуй никому не нужно.

Аноним 17/04/25 Чтв 14:20:50 № 1159588 495

>>1158446
>остальное это высер наследия формата AT, придуманного с прицелом на охлаждение проца под бруском люминя да блока питания
Как же неистово двачую, как у знакомого с инженерией, глаза вытекают глядя на эти костыли с 18ю кульками, продувкой и прочим дерьмом. Причем ладно когда железо слабое, кинул пэку в коробку и забыл. А вот когда топ-сборка, это боль.
Еще не понимаю почему все хейтят турбины, у меня была турбо 1080, идеально, тихая, не собирала пыль, автономная - брала холодный воздух снизу пэки, нагревала и сама же выбрасывала за пределы компа, При прогоне потного батча на SD1.5 прям рука чувствовала как горячий воздух из жопки карты выбрасывается НАРУЖУ. Трехкульковая говнина просто этот воздух внутри корпуса месит-турбулентит, нагревая все вокруг, снял пока крышку компа на всякий случай.

>только картон со встроенным водоблоком охлаждается по уму
+++, а еще вода идеально подходит для нейронок, когда карта стоит-стоит, а потом на 1 минуту ДАЕТ УГЛЯ, и снова стоит. В игоре она стабильно крутится, без температурных перепадов. Вода бы эти нейропики сглаживала своей теплоемкостью. Но к сожалению вода на карты до сих пор 99% это недешевый китайский оргалитовый хендмейд, способный поссать на чип за 1000$ в любой момент.

По иронии для процов over9999 копеечных водянок "купил, закрутил три винта, забыл", но они им нахуй не нужны, разве что отбитым пердоликам-оверклокерам, крутящим напряжение до BSODов за +3% ненужного перфоманса. Причем как раз кулек проца еще и память+питание матери обдувает, чего на процеводянке нет...

Зато RGBT и надписи GAMING на каждом smd-элементе. Аж трясет.

Аноним 17/04/25 Чтв 14:49:45 № 1159620 496

Как понять что модель тупая любой мистраль/лама до 123б - ты понимаешь что написано, даже предугадываешь.

Аноним 17/04/25 Чтв 14:53:52 № 1159631 497

i-thought-it-wa[...].webp 6Кб, 640x187

Двач, а ты можешь объяснить как работает распределение памяти?

Вот если у меня 24 врам, я гружу модельку на 23 гб, то
будущий контекст куда распределяется, оставшийся 1 гиг и потом еще на оперативку? И потом при запуске перемножаем матрицы не только самой модели, но и контекста? То есть видеопамять должна быть на 50 процентов больше загруженной модельки для дополнительного контекста?

Аноним 17/04/25 Чтв 14:54:14 № 1159632 498

>>1159620
Можешь завязать глаза попробовать, если тебя смущает что ты понимаешь что написано.

Аноним 17/04/25 Чтв 15:02:14 № 1159656 499

>>1159632
Клики моих высоких каблуков слышатся в треде когда я подхожу к тебе, качая бедрами, от меня исходит запах духов с привкусом лаванды, я наклоняюсь к тебе и шепчу на ухо: ты правда не видишь этого в сотый раз?

Аноним 17/04/25 Чтв 15:06:34 № 1159668 500

>>1159656
Лол если тебе такое модель пише регулярно, так это уже твои проблемы. Мне модели постоянно пишут креативную хуйню и я обычно не могу предсказать куда ломанётся сюжет, если я его туда сам не направляю.
У меня ЛЛМ часто направляли сторителлинг в неожиданное русло, которое было интересней чем то что я планировал.

Мимокрокодил.

Аноним 17/04/25 Чтв 15:09:12 № 1159669 501

>>1159656
Орнул, ну качая бедрами и запах лаванды это классика. Как и aftershocks of his climax.
>>1159668
Поделись как настроил так, чтобы не ломалось повествование постоянными неожиданными ивентами.

Аноним 17/04/25 Чтв 15:16:14 № 1159683 502

>>1159669
>Поделись как настроил так, чтобы не ломалось повествование постоянными неожиданными ивентами.
Да обычный ньюкек, он ещё не познал дзен, когда начинаешь с третьего сообщения угадывать на чем основан тюн. К сожалению магия LLM действительно очень быстро испаряется, даже копросетки на текущем уровне не долго развлекают.

Аноним 17/04/25 Чтв 15:57:33 № 1159752 503

Посоветуйте промпт на гемму чтобы хоть как то развязать ей язык блять, чтобы общалась поживее нахуй.

Аноним 17/04/25 Чтв 15:59:28 № 1159755 504

aicg весь засранный, посижу здесь.
Тамошних не жаль - это их расплата за мизогинию, инцельство, ненависть ко всем и вся и т.д, Место биомусора - в помойке.

Аноним 17/04/25 Чтв 16:01:24 № 1159761 505

>>1159669
Вести повествование, но давать свободу на ключевых моментах, как ещё?
Ну и не вести повествование от лица юзера. Оптимально если у тебя в гупповом чате 2-4 персонажа, но всё что ты делаешь это немного правишь их сообщения чтобы повествование не уходило в цикл и не застаивалось.

>>1159683
Неа. У меня в моей любимой ветке таверны 10к сообщений уже с дюжиной персонажей.
Там порой происходят невероятной рандомности вещи от которых я охуеваю.

Аноним 17/04/25 Чтв 16:14:12 № 1159790 506

>>1158924
> для лучшего технаря
Лучшего заправщика принтеров.
>>1158961
Будет довольно медленно, ведь к кэшу обращения и при генерации.
>>1159208
>>1159236
Низкая цена оправдывает, если ты не хлебушек то риск сильно преувеличен. В треде и на доске оче много 3090 за эти годы, пока ни одного репорта подыхания.
Про постоянное горение и огромный риск топят те, кто не может себе позволить ни 3090, ни что-то актуальное.

Аноним 17/04/25 Чтв 16:32:50 № 1159823 507

image.png 16Кб, 408x62

что это за пиздятина?
гемма

Аноним 17/04/25 Чтв 16:35:03 № 1159828 508

>>1159424
> Вероятно пиздит
Двачую. Если реально пойдет в массы то асики (или скорее модифицированные soc с новыми блоками под битные операции) заимеют смысл, а пока это делается силами доступного железа. Там где разработка и nda его дефицита точно нет.
>>1159441
Оварида. Все настолько плохо?
>>1159588
> почему все хейтят турбины
Шумнее при прочих равных, тут это в дизайне заложено.
Да, дефолтный дизайн корпусов для чего-то кроме типикал сбор_очки не подходит, а мультигпу это вообще сразу ультракаштом с единичными предложениями корпусов и сомнительным удобством.
> Но к сожалению вода
База. А еще если надо лезть в пеку - все проклянешь и больше не захочешь.
> over9999 копеечных водянок
Они кстати хуйня. Раньше бюджетной 240 хватало на отвод 350вт с не самого большого камня при 80 градусах. Сейчас китайский пердикс 360 из днс едва вывозит 220вт. На старших процах с такой говниной вообще постоянный тротлинг обеспечен, при этом средняя башня дает температуры даже лучше.
> RGBT и надписи GAMING
Soooqa, буквально пропали норм корпуса без сральных окон и материнки с хорошей начинкой и без лгбт. Зато последнее с дорогими контроллерами будет даже если там полный мусор по врм и прочему.
>>1159631
> будущий контекст куда распределяется
Никуда, или драйвер хуанга начнет выгружать врам в рам и все ужасно замедлится, либо оомнется.
> при запуске перемножаем матрицы не только самой модели, но и контекста
Операции проводятся с малыми частями модели, поэтому оперативный запас на текущий расчет пренебрежимо мал относительно самих весов.

Аноним 17/04/25 Чтв 16:41:43 № 1159844 509

>>1159486
Попробовал. При уменьшении частоты памяти до 5001 скорость генерации падает на 30%. При уменьшении PL - незначительно.

Аноним 17/04/25 Чтв 16:43:07 № 1159847 510

>>1159844
>>1159486
Зачем замедлять память при инфиренсе ллм? Тут можно даже антервольтинг не делать, если в бп не упирается, карточка большую часть времени простаивает, нагрузка короткая и редкая.

Аноним 17/04/25 Чтв 16:44:11 № 1159852 511

>>1159790
> если ты не хлебушек то риск сильно преувеличен.
Я сам перепродаю видеокарты и прочую электронику. Нередко бывают ситуации, когда у меня стабильно все работает, а через неделю работы в компе у покупателя, у него случается отвал или склеенная на соплях подсветка/кулера отключаются или еще какая-нибудь хтонь. По итогу чел который продал мне еле живую видяху по бросовой цене остается в плюсе, я остаюсь в плюсе, а покупатель в говне.

Аноним 17/04/25 Чтв 16:51:24 № 1159863 512

>>1159852
Перекуп на потоке? Что за железки, в которых регулярно отвали или какой-то колхоз, или "нередко" это на большом обороте?
Алсо ловишь максимальное осуждение, паразит с минусовой кармой.

Аноним 17/04/25 Чтв 16:55:53 № 1159874 513

>>1159790
В треде на постоянке сидят человек 50. У скольких из них 3090? У 15? Охуенную ты стату принес, братик. Ты бы ремонтников посмотрел хотя бы.
И я не отрицаю, что 3090 это топ, причем за небольшие деньги. Но отрицать то, покупать ее в 2025 году это большой риск и лотарея глупо.

Аноним 17/04/25 Чтв 17:05:47 № 1159884 514

Screenshot 2025[...].png 29Кб, 817x269

Кстати забыл написать прикольный опыт, советовался с гопотой на тему чипсета на ам4, по тз:
- разгоны, ргбт и всякое другое дерьмо радующее щачло школоты нахуй не надо
- 4 слота рам, 2 физических 16pci, где второй ну не совсем отсосный, что бы можно было подтыкнуть 2ю видяху, если 3090 будет мало, но на риг еще не буду готов
- пси4 (на ам4 это еще надо найти).

Ну она мне скинула что мне b550 ок, или x570 если фортанет (не фортануло, ценник сразу х2). Я скинул ей пачку материнок на вид неплохих в диапазоне от 6к до 12к, она сразу дала рейтинг, типа вот это бери, вот эта похуже, вот это совсем край, вот эти две выбрось - там чипсет порезанный.
И тут я вижу что на вкладке какой то томагавк еще открыт за 7500, кидаю - "еще вот эта в прайс укладывается, че думаешь?". Я орнул, видя как нейронка орет "БЕРИ НЕ ДУМОЙ!" на пикриле. Чсх когда купил, мой приятель комподрочун на вопрос "ну как?" ответил "ну норм, томагавки топ из топов всегда были, че тут сказать", он подумал что я специально искал гем.
В общем антифомо благодаре гопоте!

>>1159828
>Они кстати хуйня. Сейчас китайский пердикс 360 из днс едва вывозит 220вт.
Я когда малой был, думал водянка-крута, круче только фуллпассив. Как же я охуел, когда узнал что многие водянки еще и шумнее. А недавно подумал "мб водянку, просто по приколу, в днс полно...". Посмотрел обзоры, и да, помимо того что водянка шумит, ссыт и дороже - она еще и тепло отводит не лучше хорошей башни. На каких дебилов это рассчитано...
Заказал вот щас PentaWave PC-Z05E BK на озоне за 2к, думаю 65ватнной рязани хватит за глаза, в простое тихо должно быть.

>без лгбт. Зато последнее с дорогими контроллерами будет даже если там полный мусор по врм и прочему.
Ага. Хочешь просто мощный чипсет, pci-8на8 линий делилось что бы - бери Асус Геймер Нагибатор Матьебатор Туф Пуф Защекуф вордофтанкс эдишон за цену жигуля. Пздц.
Причем ладно бы подсвечивалось красиво... У меня вот была как то рязань 1600 на родном кульке (такой красный тонкий круг светился. Сам кулек шумное убогое говно, но в сочетании с корпусом с одной тонкой диагональной красной полоской смотрелось прилично. А сейчас что не железка - какое то уебанское мерцание всей радугой с переливами и попердываниями, а что бы это все хотя бы засинхронизировать в один цвет - нужно поебаться и еще денег накинуть.

>>1159852
Если не пиздишь что перекуп, то сочувствую, вы же буквально друг у друга щас человеческой многоножкой работаете, сожрал говно - высрал в рот другому. Но если захотеть - можно выцеплять гемы с авито у зажиточных нормисов, которые каждое новое поколение/сокет сборку меняют. Просто надо ждать, и когда выходит - сразу подрываться на другой край города, а не обмениваться мусором с такими же дрочилами на Савеловском. Раз в год что то собрать ок, как бизнес - кал говна, лучше машины красить научится, плитку класть или в айти вкатиться.

Аноним 17/04/25 Чтв 17:05:50 № 1159885 515

>>1159874
> У 15
Зато по 3 штуки, лол.
> Ты бы ремонтников посмотрел хотя бы.
Чтобы увидеть что в ремонт приносят поломанные видеокарты? Опрос в доме престарелых показал средний возраст общества 80, лол. Так оценивать - ультимейт ошибка выжившего.
> покупать ее в 2025 году это большой риск
Малый, если можешь/имеешь друзей чтобы ее хорошо осмотреть и протестировать. Разумеется если хлебушек и живешь далеко то он растет, таких понять можно.
В остальных случаях с учетом цен и доступности альтернатив, 3090 все еще остается лучшей покупкой.

Аноним 17/04/25 Чтв 17:09:13 № 1159886 516

>>1159828
Все не так плохо, но стало хуже немного. У меня по ощущением разгон с видюхи пропал, а он есть. Вроде лучше стало у 50xx
Про баг с температурами:
https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563160/57602-failed-to-report-gpu-temp-in-task-manager-af/

Аноним 17/04/25 Чтв 17:13:22 № 1159890 517

>>1159884
> советовался с гопотой на тему чипсета на ам4, по тз
Вот такого никогда нельзя делать. Нейронка не усваивает нормально эту информацию, все перепутает, но по обрывкам копипаст что попали в датасет сочинит правдоподобно выглядящий бред. Считай что тебе повезло.
> водянка-крута
Хорошая - действительно круто, просто клепают ужасный ширпотреб, который уступает башням.
> бери Асус Геймер Нагибатор Матьебатор Туф Пуф Защекуф вордофтанкс эдишон за цену жигуля. Пздц.
Абсолютный пиздец.
>>1159886
Спасибо за отзыв, значит лучше пока не обновляться на эти дрова.

Аноним 17/04/25 Чтв 17:13:46 № 1159892 518

>>1159885
Ну значит ремонтники хуи, у них стата искажена. А надо слушать 15 анончиков, каждый из которых красавец, миллионер и владелец 10 полностью рабочих 3090, во всяком случае на словах

ПЕРЕКАТ Аноним # OP 17/04/25 Чтв 17:15:01 № 1159896 519

А что за 4 дня то? Вроде раз в неделю база же. С чего это мы ускорились...
ПЕРЕКАТ

>>1159889 (OP)

ПЕРЕКАТ

>>1159889 (OP)

ПЕРЕКАТ

>>1159889 (OP)