Tehnografi.com - Технологические новости, обзоры и советы
[adinserter block="67"]

Vicuna-13B: альтернатива ChatGPT с открытым исходным кодом, которая впечатляет GPT-4

Следующая статья поможет вам: Vicuna-13B: альтернатива ChatGPT с открытым исходным кодом, которая впечатляет GPT-4

В последние годы мир чат-ботов значительно продвинулся вперед благодаря разработке больших языковых моделей (LLM), таких как ChatGPT от OpenAI. Тем не менее, детали архитектуры и обучения ChatGPT остаются неясными, что мешает исследователям развивать его успехи. Это где Викунья входит – чат-бот с открытым исходным кодом, альтернатива ChatGPT это поддерживается надежным набором данных и масштабируемой инфраструктурой. В этой статье мы подробно расскажем о возможностях Vicuna, о том, как она разрабатывалась, и о ее потенциале для будущих исследований.

Что такое Викунья, или Викунья-13Б?

Викунья (откроется в новой вкладке) — это модель чат-бота с открытым исходным кодом, которая называется Викунья-13Б, созданный группой исследователей из Калифорнийского университета в Беркли, CMU, Стэнфорда и Калифорнийского университета в Сан-Диего. Он создан путем точной настройки модели LLaMA для общих разговоров пользователей из ShareGPT, и предварительные оценки показывают, что он обеспечивает более 90% качества ChatGPT. Примечательно, что стоимость обучения Vicuna-13B составляет примерно 300 долларов.

Как ведет себя викунья?

Викунья продемонстрировала впечатляющая производительность в предварительных оценках. Путем тонкой настройки Vicuna с 70 000 общих разговоров пользователей ChatGPT модель становится способной генерировать подробные и хорошо структурированные ответы. Его качество не уступает ChatGPT и превосходит другие модели, такие как LLaMA и Stanford Alpaca, более чем в 90% случаев.

Развитие Викуны: обучение и инфраструктура обслуживания

Команда Vicuna собрала около 70 000 разговоров с ShareGPT.com и усовершенствовала сценарии обучения, предоставленные Alpaca. Они использовали PyTorch FSDP на 8 графических процессорах A100 для обучения и реализовали облегченную систему распределенного обслуживания. Команда также провела предварительную оценку качества модели, создав набор из 80 различных вопросов и используя GPT-4 для оценки результатов модели.

Чтобы обучить Vicuna, команда доработала базовую модель LLaMA, используя общие разговоры пользователей. Они обеспечили качество данных, преобразовав HTML обратно в уценку и отфильтровав неподходящие или некачественные образцы. Они также внесли различные улучшения в рецепт обучения, такие как оптимизация памяти, многоэтапная обработка диалогов и снижение затрат за счет спотовых инстансов.

Система обслуживания, созданная для Vicuna, способна обслуживать несколько моделей с распределенными рабочими процессами. Он поддерживает гибкие подключаемые модули для рабочих GPU как из локальных кластеров, так и из облака. Используя отказоустойчивый контроллер и функцию управляемого спота в SkyPilot, система обслуживания может хорошо работать с более дешевыми спотовыми инстансами из нескольких облаков, снижая затраты на обслуживание.

Команда Vicuna выпустила код обучения, обслуживания и оценки на Гитхаб (откроется в новой вкладке).

Оценка чат-ботов с помощью GPT-4

Оценка чат-ботов — сложная задача, но команда Vicuna предлагает систему оценки, основанную на GPT-4, для автоматизации оценки производительности чат-ботов. Они разработали восемь категорий вопросов для проверки различных аспектов производительности чат-бота и обнаружили, что GPT-4 может производить относительно стабильные оценки и подробные объяснения из этих баллов. Однако предложенная схема оценки еще не является строгим подходом, поскольку большие языковые модели, такие как GPT-4, склонны к галлюцинациям. Разработка комплексной стандартизированной системы оценки чат-ботов остается открытым вопросом, требующим дальнейших исследований.

Ограничения и будущие исследования

Vicuna, как и другие большие языковые модели, имеет ограничения в задачах, связанных с рассуждениями или математикой. У него также могут возникнуть трудности с точной идентификацией или обеспечением фактической точности своих выходных данных. Кроме того, он недостаточно оптимизирован с точки зрения безопасности, токсичности или снижения погрешностей.

Тем не менее, Vicuna служит открытой отправной точкой для будущих исследований, направленных на устранение этих ограничений, наряду с другими последними достижениями в области ИИ, такими как Auto-GPT и LongChain.

Еще одна интересная разработка, которая может стать следующим важным событием, — это объединение возможностей ChatGPT и данных. Представьте, что вы можете просто задать вопрос в чате и получить мгновенную визуализацию данных и понимание данных, не возясь с программированием Excel, AirTable, Power BI или Python в течение нескольких часов. Это то, что Канары РАТ (откроется в новой вкладке) работает над:

Вдохновленный? Получите доступ к информации о своих данных с помощью одной подсказки: RATH на базе ChatGPT уже открыт для бета-тестирования! Поднимитесь на борт и проверьте это!

(откроется в новой вкладке)

Часто задаваемые вопросы

  • Как я могу получить и использовать гири модели Vicuna 13-b?
    Чтобы использовать модель Vicuna 13-b, вам необходимо загрузить исходную модель LLaMa 13B и применить дельта-веса, предоставленные командой Vicuna. Дельта-веса можно найти на https://huggingface.co/lmsys/vicuna-13b-delta-v0 (откроется в новой вкладке).

  • Как применить дельта-веса к модели LLaMa 13B?
    Вы можете применить дельта-веса, выполнив команду в репозитории FastChat: python3 -m fastchat.model.apply_delta –base /path/to/llama-13b –target /output/path/to/vicuna-13b –delta lmsys/викуна-13b-дельта-v0. Эта команда автоматически загрузит и применит дельта-веса к базовой модели.

  • Могу ли я преобразовать модель Vicuna 13-b в формат llama.cpp/gpt4all?
    Да, модель Vicuna 13-b можно преобразовать в формат llama.cpp/gpt4all. Модель лишь немного подправляет существующие веса, не меняя структуру.

  • Есть ли проблемы с лицензированием при использовании Vicuna 13-b?
    Команда Vicuna выпускает гири как дельта-гири в соответствии с лицензией модели LLaMa. Тем не менее, использование модели в коммерческих целях все еще может быть плохой идеей из-за возможных юридических осложнений.