Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 79 16 22
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №143 /llama/ Аноним 01/07/25 Втр 01:19:14 1260769 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 505Кб, 1718x2292
1718x2292
17508736997250.png 1434Кб, 1280x960
1280x960
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1257129 (OP)
>>1253596 (OP)
Аноним 01/07/25 Втр 01:20:23 1260770 2
Аноним 01/07/25 Втр 01:27:10 1260773 3
Performace of E[...].png 463Кб, 3902x4066
3902x4066
Performance of [...].png 279Кб, 3012x3758
3012x3758
Performance of [...].png 251Кб, 3348x3758
3348x3758
Performance of [...].png 180Кб, 2700x2876
2700x2876
>>1260770
Вот тесты-нетесты если что.
Аноним 01/07/25 Втр 01:33:32 1260775 4
Аноним 01/07/25 Втр 01:33:39 1260776 5
>>1260757 →
>>1260770
Слюни потекли, когда там уже кванты
>>1260765 →
На самом деле занимаются, вон тот же анончик свои пресеты выкладывает. Но основных причин невысокой популярности две:
1 В таверне под промптоформирование для локалок старый интерфейс инстракта и лорбук, вместо украшенного поделенного на каштомные блоки интерфейса для корпов.
2 Без анального цирка на современных корпах нормально непорпшишь. Срать жб, извращаться с кучей (бесполезных) блоков, не забывать включать блок "нсфв" когда захотелось поебаться - вынужденная мера и единственный способ хоть как-то управлять сеткой.

В целом, сам интерфейс по функционалу повторяет уже имеющееся, просто сделан в виде отдельных блочков, которые повторяют содержимое Story String. Можешь смело брать и переносить заготовки корпов туда, разобравшись в стандартных обозначениях ({{char}}, {{stotry}}, {{persona}}, ...) Как уже писалось, даже простое обрамление с микроразметкой и доп комментариями там может дать буст на некоторых моделях. С локалками в большинстве используется текст комплишн вместо чаткомплишна, что открывает огромные возможности для чего угодно, включая полноценный префилл и продолжение постов, отключенные в корпах.
Блоки статов и прочее - через лорбук с инжектом в нужную часть, или другие опции, те же авторские заметки. Все сделать можно, просто в другом месте и менее наглядно, особенно для новичка. Можешь глянуть в более продвинутые штуки типа костыля на степсинкинг, там хоть днд кости можно сделать с честным рандомом.
Аноним 01/07/25 Втр 01:34:05 1260777 6
>>1260770
Я правильно пынимаю, что 424B это 300B c добавленными 124B для вижена? Или же если юзать 424B чисто как текстовую сеть, то она все равно выебет 300B?
Аноним 01/07/25 Втр 01:47:26 1260780 7
>>1260776
>Блоки статов и прочее - через лорбук с инжектом в нужную часть
Да, точно, так можно сделать. Эх, надо бы потом заморочиться и попробовать какой-нибудь из пресетов переделать для тексткомплишена через лорбук. Вдруг тот же лардж можно хоть немного до гемини разогнать. Хотя тут вон эрни завезли, вдруг круче ларджа окажется. Вот как приеду из отпуска - буду устанавливать все нейросети! А то уже руки чешутся попердолиться да покумить на родном железе.
Аноним 01/07/25 Втр 01:56:54 1260786 8
>>1260780
Просто заметки без претензий на истину - лардж хорошо разгоняется мультизапросом и тем же доп синкингом. Он крайне умен и многое может, но на фоне той же жеминьки в исходном виде выглядит вяло потому что старый. Просто дает ответ на запрос и ничего больше, тогда как все новые модели как павлин распушают хвост и пытаются перед тобой чуть ли не танцевать, крича какие они молодцы. Но если запрос более комплексный то и ответ хороший, к тому же на контексте он отлично себя показывает и понимает между строк что мелочи и всяким чмоням с дипсиками не снилось, и может в хорошее письмо. Главное не натаскивай слишком уж много инструкций и противоречивых указаний, иначе станет отвечать коротко и уныло.
Аноним 01/07/25 Втр 02:18:30 1260801 9
image.png 51Кб, 1004x267
1004x267
Для амд + линь можно крутить павер кап через /sys/class/drm/cardX/device/hwmon/hwmon0/power1_cap
Аноним 01/07/25 Втр 06:13:32 1260839 10
>>1260801
Оно вроде при перезапуске сбрасывается.
Аноним 01/07/25 Втр 08:12:20 1260858 11
>>1260770
>Тут дохуя сеток целое новое семейство оказывается вышло новых. Ребята, тестим:
У меня во втором кванте 300В должна влезть. Ждём кванты от Анслота. Эксперты по 47В, так-так.
Аноним 01/07/25 Втр 08:35:16 1260865 12
Челы, кто-нить создавал свои датасеты? Хочу попробовать зафайнтюнить небольшую модельку, но не вдупляю с какой стороны подобраться. Ну положим есть:

1. Первоисточник, который я готов расчленить как угодно. Пиздеж от лица ГГ (монологи и диалоги) и других персонажей, среди которых тот, манера речи которого и знания которого будут затюнены в бота.
2. Wiki-статьи, где более подробно разбирается лор и прочая залупа.
3. Прочие данные. Моя писанина, дополняющая это дерьмо. Минимум по сравнению с 1 и 2.

Что мне непонятно:
1. Какую модель под это взять для 16GB VRAM и альтернативно - для 32GB (не уверен, можно ли тренировать AI на двух видюхах?), обе карточки AMD мусор - 6800 и 9070.
2. Где почитать статей на тему создания датасетов и файнтюна. Именно от знающих людей, не от ботов пишущих про самих себя.

---

Общие представления у меня есть, но хотелось бы взяться за работу, зная, что я не обосрусь фундаментально на самом базовом уровне типа формата датасета под конкретную модель.
Аноним 01/07/25 Втр 09:13:27 1260885 13
Мда, GLM в 3м кванте это груздь-доска, обратно на Синтвейв.

>>1260865
>зафайнтюнить
Для файнтюна надо МИНИМУМ вчетверо больше VRAM чем для Q8 инфиренса, и скорее всего рига у тебя нет =))
Разве какую-нибудь мелочь в 3-4Б.
Датасеты можно прямо на обниморде посмотреть.
Но в целом там ппц всё заморочно, как с картинками не прокатит.

>>1260765 →
>что в таверне для текст комплишена нельзя делать такие пресеты
Может и можно, не задумывался, но в любом случае это вызовет пересчёт контекста что может быть ДОЛГО.
Аноним 01/07/25 Втр 09:17:31 1260886 14
>>1260885
>Разве какую-нибудь мелочь в 3-4Б.
Ну так это тоже полезный опыт.
>Датасеты можно прямо на обниморде посмотреть.
Точно. Что-то я тупанул.
Аноним 01/07/25 Втр 09:21:35 1260888 15
>>1260770
А какого хуя.avi

Почему идет 28b а потом- хуяк, хуяк, и 100+.
Где мои 50b ? Пидоры.
Аноним 01/07/25 Втр 10:01:08 1260898 16
>>1260888
>Почему идет 28b а потом- хуяк, хуяк, и 100+.
Для смартфона=>для потребительской карты=>для ригадля маньяковдля себя. (По сути 28В вообще чисто демонстрационная модель, так думаю)
Аноним 01/07/25 Втр 10:06:44 1260900 17
>>1260898
Но это же моэ, кавааай - все дела.
Для потребителя как раз и подойдет что то больше 30 но меньше 70ч
Аноним 01/07/25 Втр 10:09:45 1260903 18
asus-tuf-geforc[...].jpg 117Кб, 1000x1000
1000x1000
На 12 гб все-таки очень тяжело живется.
Надо признать этот факт и перестать коупить.

Поэтому с сегодняшнего дня начинаю челлендж - до конца года собрать деньги на 3090. Тем более, как раз удачный день для начала - ровно полгода впереди. Планирую откладывать по 400 рублей в день, всего в итоге должно выйти чуть больше 70000, именно столько на авито стоит б/у 3080 от асуса, которую я хочу.

Удачи мне продержаться до конца всего пути.
Аноним 01/07/25 Втр 10:11:30 1260906 19
Аноним 01/07/25 Втр 10:27:37 1260919 20
>>1260903
>>1260906
Чел ты отбитый совсем что ли, скоро 5080 Super с 24гб высрут.
Аноним 01/07/25 Втр 10:35:22 1260923 21
>>1260903
Удачи! Счастливой покупки некрокарточки!
Аноним 01/07/25 Втр 10:57:16 1260934 22
>>1260903
Проблема аппетитов. Я вот сижу на 8 гб и гоняю 12b модели, вроде ок, но хочется карту на 12 гб взять. Меня на самом деле в основном устраивают 12b, просто они очень хуёво читают большие карточки и лорбуки. Я например физичесски не могу протестить большие модели и посмотреть насколько сильно отличии в написание текста между моделями поменьше, но вот видимо слава богу я не знаю об этом. Так же застал времена когда 8b модели еле пердели на 8гб картах, наверное поэтому и радуюсь нынешним 12b.
Аноним 01/07/25 Втр 11:17:15 1260943 23
>>1260919
Это для мажоров, а я нищий с зп 40к.
Аноним 01/07/25 Втр 11:20:16 1260945 24
>>1260943
анончик, а не думал тогда о mi50 на 32гб? она в районе 40 и выйдет, неплохая штука
Аноним 01/07/25 Втр 11:24:45 1260947 25
>>1260943
Ну и в чем логика всирать свои гроши на то, что уже устарело? Тебе наоборот надо копить на хорошее.
Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб с ворвешься в мир йоба-моделей с хорошей видимокартой.
Сейчас есть смысл снюхивать AI-помои только если ты сам маня-разработчик и тебе критически важно не отстать. А вот потреблядям лучше дать газку назад и окунуться в другие хобби, пока вся эта параша не обретёт вменяемый вид.
Аноним 01/07/25 Втр 11:38:11 1260952 26
>>1260945
> она в районе 40 и выйдет
Меньше 15 даже если всё сложить и везти её одну
Аноним 01/07/25 Втр 11:50:30 1260953 27
>>1260952
Ну да, а еще линукс накатывать, пердолиться, и все это ради рабочей темпы 100 градусов по цельсию и 5т/с на 32b моделях
Аноним 01/07/25 Втр 11:54:30 1260954 28
>>1260903
>Удачи мне продержаться до конца всего пути.
Удачи! Мистраль 3.2 в 24гб входит идеально, 6 квант и 32к неквантованного кэша. Стоит того. К тому же к концу срока могут появиться более интересные предложения с таким же количеством ВРАМ.
Аноним 01/07/25 Втр 11:57:14 1260955 29
>>1260952
ты с таобао заказывал?
Аноним 01/07/25 Втр 12:37:55 1260973 30
>>1260955
Прошлый тред. Если коротко - да

>>1260953
Одну попробую разобрать и термуху перемазать, но нужно в начале стрессы погонять
Аноним 01/07/25 Втр 12:50:56 1260981 31
https://pixeldrain.com/u/n7JDy4Mx
Пресет для magnum-diamond. Семплеры для русика онли подобраны. Удивительно хорошо, думаю я переезжаю с синтии на постоянку на этот алмаз, лучше сохраняет логику и детали на русском языке. Думаю, на англе не хуже будет.
Сама модель:https://huggingface.co/Doctor-Shotgun/MS3.2-24B-Magnum-Diamond
Спасибо анону, который ее тут вкинул.
Аноним 01/07/25 Втр 12:54:17 1260983 32
>>1260981
А у меня вопрос. ВОПРОСИЩЕ. ВОПРОШЕНЦИЯ.
Зачем использовать тюн мистрали, когда есть сама мистраль ?
Я потыкал 3.2 - это сама по себе былинная победа, не надо его тюнить. Хи из пиздат эз из.
Аноним 01/07/25 Втр 12:56:32 1260986 33
>>1260981
Спасибо.

>>1260983
MS3.2 Харош, очень харош, но мб челу нужен именно кум с сюжетаом, а не сюжет с кумом. Магнум всё-таки смещает акценты.
Аноним 01/07/25 Втр 13:00:14 1260989 34
>>1260983
Хз, мне магнум в душу запал сам по себе (мне кажется он хорошо следует инструкциям, следит за промптом), также обожаю мистральки, а тут их сочетание.
>>1260986
Ты попробуй сначала, мб опять обосрусь скину недопиленные сэмплеры. Хотя тут я с тремя карточками перед этим попробовал в овер 20 сообщений, обычно тогда у меня по пизде все шло.
Акценты реально смещены и я больше по кум рп именно, тут соблюден прям баланс хороший как по мне.
Аноним 01/07/25 Втр 13:00:42 1260990 35
1751364042517.jpg 83Кб, 1264x1154
1264x1154
Аноним 01/07/25 Втр 13:07:41 1260996 36
>>1260989
У меня новый мистраль норм работает на почти нейтральных настройках. Темпа 0.8 - 1.5, мин-п 0.02 - 0.05 для англ, можно поднять до 0.1 для ру. XTC 0.1 / 0.1 для большего разнообразия свайпов, но отключить если кажется что шизит, особенно на ру.
Аноним 01/07/25 Втр 13:08:55 1260999 37
>>1260996
>Темпа 0.8 - 1.5
Но при этом сами лягушатники пишут про 0.15.
Huh ?
Аноним 01/07/25 Втр 13:10:17 1261001 38
>>1260999
хз, это видимо для ассистента, например я перевожу нейронкой в скрипте, и там вообще темпа 0.0 стоит, для рп такая низкая не нужна
Аноним 01/07/25 Втр 13:23:19 1261012 39
>>1260865
Общая парадигма датасета для ллм: серия сообщений по ролям, где от лица юзера даются запросы или его посты, а от сети ответы или посты персонажа/гма/..., или пары инструкция - большой ответ на эту инструкцию.
Как запарсить в такой формат твои источники уже думай, можно привлечь саму ллм для обработки.
> 16GB VRAM и альтернативно - для 32GB
1б, 2-3б для второго варианта максимум влезет. Остальное уже peft с кучей компромиссов.
> можно ли тренировать AI на двух видюхах?
Объединить для деления памяти - в целом да, но как правило объединяют только одинаковые а не разного калибра.
> AMD мусор
Без шансов.
>>1260885
> это вызовет пересчёт контекста
С какого перепугу? Вызовет только если у тебя в самом начале рандомайзер, который меняется от поста к посту.
> может быть ДОЛГО
Только у бедолаг.
Аноним 01/07/25 Втр 13:28:13 1261017 40
>>1261012
А что насчет лор как есть в sd? Просто я послушиваю книги озона и уже давно мысль есть его стиль повествования внести в нейронку. Просто выкачать в виде аудио его книжки (там часов 200 набежит), перевести stt и начать бумбокс.
Аноним 01/07/25 Втр 13:33:15 1261022 41
>>1261017
>лор
>>1261012
>peft с кучей компромиссов

Ну, и лоры для текстовых не работаю так как для картиночных, так как параметров и связей много больше. С тем же подходом что и к картиночным, можно надрочить только бота-автоответчика.
Аноним 01/07/25 Втр 13:36:44 1261027 42
>>1261012
Когда я задавал похожий вопрос дипсреньку, тот что-то про LORA кукарекал. Это совсем дерьмо? Оно просто упоминало это, кукарекая как можно и 8B зафайнтюнить. Алсо про амд тоже странная заметка, учитывая то, что гуглятся человеческие отзывы о пердолинге с файнтюнами на красных карточках.
Аноним 01/07/25 Втр 13:37:54 1261029 43
>>1261022
> можно надрочить только бота-автоответчика.
м-магнум?
Аноним 01/07/25 Втр 13:41:23 1261035 44
>>1260888
Поддвачну, сейчас наблюдается серьезный дефицит средне-больших размеров.
>>1260903
Удачи, анончик.
>>1260919
По цене 4090, если очень повезет то по цене до дикого подорожания.
>>1260947
> Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб
Святая наивность, при хорошем сценарии там будут в ходу уже 64+гб карточки в количестве нескольких в ригах, при плохом - мало что поменяется и 32гига останутся дорогими, также как 24 сохранят актуальность. И главное - все эти 4 года будет сидеть и ждунствовать грустить, а не довольно урчать эксплуатируя.
То же самое уже наблюдалось в гей_минге и прочем-прочем, но бедолаги необучаемы.
Аноним 01/07/25 Втр 13:45:11 1261042 45
>>1261017
Главная и основная проблема - лору для текстовых нельзя разбивать на части, как в случае со SD. Поэтому для обучения даже 12b, тебе нужен хоппер, лол.
Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.
Аноним 01/07/25 Втр 13:48:54 1261044 46
>>1261029
>м-магнум
У магнума вроде именно тюн а не qLora
Аноним 01/07/25 Втр 13:48:56 1261045 47
Локальщики, вопрос по промтингу. Какой лучше подход использовать, когда прописываешь системную инструкцию? Лучше указывать, что локалка это рассказчик, или напрямую, что локалка это персонаж? Мне хочется, чтобы модель не просто описывала действия и ощущения, но еще и энваермент и всё прочее. Но если попросить локаль быть наративщиком, то она чаще начинает писать за меня, а если попросить быть персонажем, то она занимается только персонажем и чаще игнорирует остальную информацию, касающуюся, например, лора.
Аноним 01/07/25 Втр 13:50:35 1261047 48
Аноним 01/07/25 Втр 13:51:13 1261048 49
>>1261045
Разный. Я неиронично прибегаю к гопоте и прошу составить промт под конкретные хотелки, а потом ручками. Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Просто помни что корпосетки очень, очень, очень, ОЧЕНЬ БЛЯТЬ, цензурированны.
Аноним 01/07/25 Втр 13:51:32 1261049 50
>>1261017
Peft и есть лоры. Но здесь все гораздо сложнее чем с картинками. В тех можно без проблем натянуть модель на глобус чтобы она генерировала только конкретный объект, 95% лор так и делают. Здесь же нужно аккуратно добавить знания не разрушая все остальное, что сильно усложняет процесс тренировки и повышает требования.
В целом, стиль - самое простое из подобного и тут лора как раз сработает лучше всего, но все равно придется накапливать нормальный датасет и стараться чтобы оно не стало просто повторять слоп из тех книжек по поводу и без.
>>1261027
Это не дерьмо, это метод со своими компромиссами. Щитмиксы мистраля - почти все это лишь вмердженные лоры а то и вообще qlora, потому и такая залупа лоботомированная.
>>1261042
> лору для текстовых нельзя разбивать на части, как в случае со SD
Что?
> Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
Что?
> То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.
В целом посыл туда.
Память на полные веса + память на обучаемые веса (если файнтюн то 1 и второе одно и то же, если лора то веса лоры), память на состояния оптимайзера (x1-x4 от веса обучаемых параметров), память на рабочий контекст с учетом батча. В десктопных видеокартах фейл начинается уже на первом этапе.
Аноним 01/07/25 Втр 13:51:38 1261051 51
>>1261035
>То же самое уже наблюдалось в гей_минге
Ну благо для гейминга 12ГБ была и остаётся тем что хватает на всё.
Ну, кроме InZoi.
Аноним 01/07/25 Втр 13:52:44 1261052 52
>>1261045
Индивидуально от модели зависит. Многие хуево следуют инструкциям. Ты можешь накатать длинную залупу и из нее лишь половина будет учтена при исполнении задачи, причем каждый раз это окно внимания будет сдвигаться и модель будет проебывать новую часть инструкций с каждым инпутом промпта. Сталкивался с такой хуйней, пришел к выводу не юзать длинные промпты вообще.

^ это если что про мелкие 8B - 30B, насчет 70B не уверен (думаю та же залупа), а вот у супер-больших с этим может быть получше.
Аноним 01/07/25 Втр 13:53:56 1261055 53
image.png 5Кб, 357x20
357x20
image.png 86Кб, 1241x252
1241x252
image.png 8Кб, 251x130
251x130
Чот у меня llamка не реагирует на то что в настройках таверны у меня стоит контекст в 16к токенов и обрабатывает все равно ток 4к (из 8к контекста). Это нормальное поведение или надо что-то менять? Самому ток задавать контекст заранее при запуске модели?
Аноним 01/07/25 Втр 13:55:39 1261056 54
>>1261049
> Что?
Это я про «активации» (я до сих пор не понимаю, почему они так называются)
Аноним 01/07/25 Втр 13:55:58 1261057 55
>>1261055
>Самому ток задавать контекст заранее при запуске модели
Аноним 01/07/25 Втр 13:56:17 1261060 56
>>1261055
>Самому ток задавать контекст заранее при запуске модели?
Да, количество контекста определяется бэкендом, а не фронтендом.
Аноним 01/07/25 Втр 13:58:31 1261061 57
>>1261057
>>1261060
Так, а нахуя тогда мне дают ползунок дрыгать в таверне? Или это ограничение сколько он будет на бек из чата отправлять? Наверное сам и ответил на свой вопрос, спасибо анонцы
Аноним 01/07/25 Втр 13:59:26 1261063 58
>>1261048
>Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Это понятно, но общие правила действуют для всех. И именно эти общие правила меня интересуют. Конкретные фетиши и квирки я уже потом смогу прописать, но общий вектор хочется задать один раз и для всех моделей.

>>1261052
>модель будет проебывать новую часть инструкций с каждым инпутом промпта
Ну так по мере заполнения чата у нее начинает появляться больше примеров и необходимость в мейн промте постепенно начинает пропадать. Главное чтобы первый десяток был составлен так, как нужно тебе, и потом модель это подхватит.
Аноним 01/07/25 Втр 13:59:53 1261064 59
>>1261061
А хороший вопрос так то, лол. Просто прими это как данность. Может это для Api нужно, хуй его знает.
Аноним 01/07/25 Втр 13:59:54 1261065 60
>>1261061
>нахуя
это для апи, асиги тоже в таверне сидят
Аноним 01/07/25 Втр 14:00:07 1261066 61
>>1261061
Да, ты сам ответил на свой вопрос.
Аноним 01/07/25 Втр 14:01:27 1261068 62
>>1261051
> 12ГБ была и остаётся тем что хватает на всё
Уровень коупинга имаджинировали лол.
В гейминге определяющим уже является мощность чипа если врам достаточно. И суть в том, что варебухов, предлагающих ждать по нескольку лет в надежде что станет лучше всегда было достаточно, и всегда они лишь с проглотом сосали.
Есть смысл подождать какого-то релиза если он запланирован в разумный срок и предполагаются крутые модели, но не более. Прогресс неостановим, то, о чем ты сегодня мечтаешь и надеешься что подешевеет через годы в то время будет уже средним или днищем относительно растущих требований.
>>1261061
> нахуя тогда мне дают ползунок дрыгать в таверне?
Таверна с его помощью осуществляет промпт менеджмент, удаляя старые сообщения что выходят за этот лимит и посылая всегда не более чем доступно.
Аноним 01/07/25 Втр 14:01:52 1261069 63
>>1261061
Если контекст именно в таверне заполнится, она начет выгружать куски контекста самостоятельно. Если заполнится контекст в кобольде, то он начнет сдвигать токены или просто прервет генерацию, если я не ошибаюсь.
Аноним 01/07/25 Втр 14:05:25 1261072 64
>>1261063
https://pixeldrain.com/u/sGaeTTfa Storyteller.json
Лучшее что я пока пробовал.

>>1261068
>коупинга
Никакого коупинга, 4080 12Гб ноутбук, неиллюзорно хватает на всё что только не пробовал, даже Wuthering Waves на релизе год назад где в неё не плюнул только ленивый, и на новую локу в нём же сейчас.
Аноним 01/07/25 Втр 14:10:57 1261076 65
>>1261072
> 4080 12Гб ноутбук
Это аналог 4060 по перфомансу?
> неиллюзорно хватает на всё
Рад за тебя, но это реально коупинг ибо обеспечит что-то типа 60фпс с просадками в древних 1080п на средних настройках в современных тайтлах. Или мобильные дрочильни гонять.
> Wuthering Waves
Неблохо, как оно сейчас?
Аноним 01/07/25 Втр 14:12:56 1261080 66
>>1261076
>60фпс
выше никогда и не ставил, мне норм

>>1261076
>Неблохо, как оно сейчас?
Збс, впрочем и всегда было, играю с релиза и не дропал.
А щас ещё и тонны QOL фич завезли.
Аноним 01/07/25 Втр 14:15:05 1261082 67
>>1261072
>Лучшее что я пока пробовал.
Сомнительно, если честно. Кучу подобных промтов перегонял, писал собственные по такому же принципу. Модель половину инструкции просто игнорирует, не понимания в каких сценариях её правильно использовать. Но может проблема именно в модели, так как я гоняю только мистрали на 12 и 24 кило параметров.
Аноним 01/07/25 Втр 14:18:44 1261085 68
>>1261082
Можешь в режиме ассистента спросить как будет выполнять эту инструкцию. Толькр важно - ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп.
Но это позволит выяснить понимает ли вообще она эту инструкцию.

Можно попросить переписать промт "под себя", на деле такое действительно давало буст, даже на 12Б.
Аноним 01/07/25 Втр 14:26:50 1261093 69
>>1261085
>ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
По опыту могу сказать, что да. Это вообще ничего не гарантирует. Это как спросить её про то, знает ли она про цитату "терпим карлики" и потом спросить, чьего она авторства. Она чаще всего не может просто ответить "нет" или "я не знаю, как эту инструкцию применять", она просто начнет интерпретировать, как умеет. И там уже чистый рандом.

На самом деле, жаль, что у нас нет своей датабазы с промтами, как у корпоратичков. Да, у них и моделей в сотню раз меньше, но даже если бы она покрывала хотя бы десяток самых популярных локалок, было бы неплохо.
Аноним 01/07/25 Втр 14:32:13 1261094 70
>>1261093
> что у нас нет своей датабазы с промтами
Локалщики мы или ключи просящие ?
Смерды или энтузиасты нейронные ?
Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?
Аноним 01/07/25 Втр 14:32:42 1261095 71
>>1261080
> выше никогда и не ставил, мне норм
Ну вот видишь.
На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать, на экраны старых смартфонов без слез не взглянешь, во что-то динамичное типа шутанов - играть тяжело. Норм только в кинцо не телеке с геймпадом, но там уже нужно разрешение и картинка.
>>1261085
> не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
К сожалению именно так. Но никто ведь не мешает напрямую потестить в рп, можно на небольшом готовом чате.
>>1261093
> Это как спросить её про то, знает ли она про цитату
Используешь цитату в рп также как вставлял мемчик или отсылки в естественных диалогах@смотришь на реакцию. Популярные все узнает, чем умнее модель тем лучше результат. На больших можно "спрашивать у Ганса плохие ли мы" комментируя действия сомнительной моральности.
Аноним 01/07/25 Втр 14:33:41 1261096 72
база треда:
- меньше Q6_K жизни нет
- меньше 24B жизни нет
- меньше 16GB жизни нет
- меньше 8 каналов DDR4 жизни нет
- меньше 5 т/c жизни нет

дополняйте
Аноним 01/07/25 Втр 14:34:38 1261098 73
Аноним 01/07/25 Втр 14:35:43 1261099 74
>>1261096
Нахуй иди.
Дополнил.
Аноним 01/07/25 Втр 14:36:02 1261101 75
image.png 1523Кб, 1200x800
1200x800
Аноним 01/07/25 Втр 14:40:13 1261104 76
image 60Кб, 462x243
462x243
>>1261095
>На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать
Мусью слишком много кушать =))
Вообще рили, хз, то ли ценители дофига, толи что, но я пробовал 144 гц и не ощутил разницу с 60.
Аноним 01/07/25 Втр 14:40:52 1261105 77
>>1261094
>Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?
На самом деле из всех вопросов касательно локалок, вопрос с промтами самый неочевидный. Настроить бек и фронт можно путем тупого перебора параметров, если ты совсем нихуя не понимаешь. А вот составлять инструкцию тебе точно придется тупым перебором, даже если ты дохуя чего понимаешь. И если кто-то уже сделал это за тебя и поделился результатами - то его можно заслуженно чмокнуть в щечку.
Аноним 01/07/25 Втр 14:43:08 1261108 78
>>1261101
кому ты пиздиш квен3 не мультимодальный
Аноним 01/07/25 Втр 14:45:23 1261110 79
>>1261105
Круговорот промтов в треде =))
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов