E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    近段时间大家在网上见到AI这个关键词的频率越来越高了,实际上AI在生产与创作领域已经有相当广泛的应用,视频和照片编辑、图片素材生成、视频超分、添加字幕以及翻译、视频会议、起草文档和PPT、数据分析和解读甚至编程等应用在AI助力下都可大幅提升效率。而对于个人用户来说,把这些工作用的软件工具都剔除后,最有用的应该就是LLM聊天机器人了,运用得当的话它可比传统搜索引擎强多了,可成为你的得力助手。

    其实想体验LLM聊天机器人最简单的方式是直接用线上的,现在国内有许多类似的产品,比如阿里的通义千问、百度的文心一言等等,功能都挺齐全的,我最初也是从这些开始上手的,不过在线的功能始终还是会涉及私密性的问题,所以我就开始着手研究本地部署的聊天机器人。

    NVIDIA Chat RTX上手体验

    最开始尝试的其实是NVIDIA的Chat RTX,这软件NVIDIA刚对它进行了更新,旧版其实挺不好用的,只内置了两个英文的LLM,新的版本加入了智谱AI的ChatGLM3这个中文LLM的支持,同时还支持语音输入和图像搜索功能。

    最新版ChatRTX的版本号升级到0.3,新版的安装包从36.2GB一下子减少到11.6GB,原因是现在里面只自带了一个Mistral 7B的模型,而原本还有个Llama2 13B的模型。


    新版ChatRTX长这样的,可以看到多了个增加新模型的功能

    但这并不是可以随意添加模型的意思,而是可选择下载NVIDIA编译过的模型,Llama2 13B现在搬到了这里,此外还新增了ChatGLM 3 6B和Gemma 7B这两个模型的支持,那个CLIP则是图片搜索用的模型,想要下载哪个的话选中它然后点旁边的下载即可。

    模型的下载是不需要工具的,你可以在旁边的命令行窗口中看到下载速度相当快。

    下载完之后会提醒你模型可安装了,这里你要手动点击安装,需要注意的是到了安装这步就需要工具了,因为安装过程会在Hugging Face下载部分文件,不用工具会导致安装失败。

    安装完之后就可以和机器人聊天了,我们下载的这个ChatGLM 3 6B由于是个小模型,而平台使用的是影驰RTX 4070 Ti SUPER 星曜 OC显卡,可见显存占用还不到6GB,所以显存容量超过8GB的RTX 30/40系显卡都可使用,应用范围还是很广的,当然那些13B以上的模型就得用12GB显存以上的显卡了。


    影驰RTX 4070 Ti SUPER 星曜 OC

    ChatRTX跑的是NVIDIA TensorRT-LLM,效率其实是要比其他跑CUDA的软件快不少的,但我使用的时候发现这机器人聊天时没有联系上下文功能,这点体验就不太好。

    最后要说的是NVIDIA ChatRTX是可以手动添加模型,但过程相当麻烦,要相当多的准备功夫,而且大部分都要在命令行里面操作,没相关的基础知识的话估计会相当的头大,这里我就不展开说了

    Ollama搭建聊天机器人简单教程

    随后我就去改去尝试Ollama,这是一个开源的大型语言模型服务工具,可帮助用户快速在本地运行大语言模型。大家可以访问Ollama官网下载该软件,软件支持macOC、Linux和Windows系统,这里我们选择的是Windows平台,软件的安装过程没啥好讲的,根据提示下一步就行。

    安装完成之后有个地方是可能需要改的,由于Ollama的默认模型安装位置是在C盘用户文件夹下的, 如果需要改位置的话就得去改环境变量,具体位置在系统属性=》高级=》环境变量,在系统变量那里选择新建一个叫“OLLAMA_DODELS”的条目,变量值填你指定的模组下载文件夹即可,这样Ollama算是设置好了。

    当然了Ollama只是负载运行的,你还得套一层UI,不然你就得用命令行来和机器人聊天了。这里我就选择了使用Chrome的插件Page Assist,安装方法你在Chrome的应用商店搜这个插件就行,只不过这过程你需要用到梯子。

    Page Assist并不需要做什么特殊设置,最多改下软件语言,有语音输入输出需求的还可以自行修改对应设置, 它是支持网络搜索的,但目前搜索引擎只能选择Google和DuckDuckGo。

    接下来就需要拉LLM模型了,最简单的方法其实是访问Ollama Library,这里有大量已经适配好的LLM模型,每个模型旁边都有清晰的标识,包括模型的详细信息和拉取命令,如果已经装了Page Assist的话会多出一个下载按键,想下载的话直接点那个键就行,没有的话就复制那行命令贴到命令行那里运行,解下来等待下载完毕。


    你也可以复制指令到命令行下载

    下载好后把Page Assist开打,在左上角选择你下好的模型,然后就可以问机器人各种问题了,Ollama会自动检测并使用可用的GPU资源,无需额外配置。

    这里我们这里就下载千问1.5的14b模型来演示一下,拥有16GB显存的显卡跑14b模型没啥问题,8GB显存的显卡就只能跑7b或者8b的模型了,如果显卡有24GB显存的话可以试试34b的模型。

    如果Ollama Library上没有你想要的模型的话,可自行到Hugging Face国内镜像站下载GGUF模型,一般来说在模型页面会教你怎么导入到Ollama中的, 我们就把最新的Llama3中文微调模型导入到Ollama里面使用。

    此外Page Assist现在还在测试知识库功能,可自行搭建本地的知识库,也可以把文档扔进去给AI分析归纳信息,支持pdf、csv、txt和md格式文件,单个条目可添加单个或多个文件。

    使用时需要在输入窗口选择你需要用到的文档,所以软件的知识标题填别随便填,否则很容易混乱,此外使用本地知识时网络搜索就不可使用了。

    对于消费级显卡来说,显存容量最多就24GB,单张卡能跑的模型大小是有限制的,但Ollama是支持多卡的,而且不需要用户额外的操作,把第二张显卡插上去,把驱动装好即可使用,这里我们就用了两张影驰RTX 4070 Ti SUPER 星曜 OC显卡运行yi1.5 34B的模型来演示一下。

    当软件识别出单张显卡的显存容量不足矣运行当前选择的模型时,就会自动把负载平均分配给两张显卡,可以看到两张RTX 4070 Ti SUPER的显存都占用了12GB,GPU负载也是50%左右,实际上如果凑够48GB显存的话就能跑70/72B的模型,你可以选择两张RTX 4090或RTX 3090,也可选择三张16GB显存的显卡,实际上我们此前评测的影驰RTX 4060 Ti无双MAX显卡就非常适合这种AI工作站。

    此外不同的显卡混搭是可以的,我们就尝试过可以用RTX 4070 Ti SUPER搭配RTX 4060 Ti 16GB使用,并没有出什么问题,不同显存容量的显卡混搭测试过也是可以的,测试过RTX 4090搭RTX 4080以及RTX 4070 Ti SUPER搭RTX 4070 SUPER这种组合,Ollama可以正常工作,并没有出什么问题。

    全文总结

    以上就是这段时间我们在研究本地部署的LLM大模型的体验,NVIDIA Chat RTX目前虽然比最早的体验版好用了不少,但依然处于很早期的状态,要自行添加指定模型比较麻烦,而且不能联系上下文这点体验并不好,不过想装来玩玩还是可以的,毕竟它的安装和使用都很简单,内置的小模型对显存容量需求也不高,8GB以上的显卡就可以跑。

    Ollama搭配Page Assist这组合胜在够简单,比较适合刚接触这方面的新手,添加模型很方便,知识库和联网搜索功能都很好用,当然上限确实不是很高就是,而且功能也够用。

    玩了几个星期的LLM大模型感觉最深的还是跑这些显存是真不太够用,跑些稍微大些的模型16GB显存就不够用,现在终于理解高端显卡配24GB显存的意图了,而且在游戏领域现在没啥用的多卡并联在这里也有很大作用,毕竟24GB显存跑INT4量化的34b模型基本就极限了,想跑70b级别的模型得把显存容量翻倍,此时你就有24GB*2或者16GB*3的选择,说真的三张RTX 4060 Ti 16GB比两张RTX 4090 D便宜多了,如果是此前的影驰RTX 4070 Ti SUPER 星曜 OC这种单槽卡搭配HEDT或者工作站主板使用,可以在单CPU平台上堆出拥有非常庞大的显存系统,当然RTX 4060 Ti和RTX 4090 D的算力差距巨大就是另一回事了。

    这次介绍的Chat RTX和Ollama搭Page Assist组合都是比较初级的本地LLM大模型方案,在这方面我们本身也是在研究中,希望这篇教程对那些想尝试搭建本地聊天机器人的新手有帮助,有更好思路的欢迎在下面留言讨论。

    ×
    热门文章
    1AMD Ryzen AI 9 365初测成绩曝光:IPC提升基本符合预期
    2佰维展示X570 PCIe 5.0 SSD:联芸科技主控+长江存储闪存颗粒
    3图马思特推出《艾尔登法环》DLC联名手柄,售价199.99美元
    4苹果正在寻求与中国本土企业合作,为iPhone 16系列的AI功能提供服务
    5《生化危机2 : 重制版》五年售出1390万份,成为系列作品销量最高的一部
    6谷歌已经与台积电达成合作:首款芯片为Tensor G5,选择3nm工艺制造
    7传目前SF3工艺良品率仅20%,但三星仍未放弃Exynos 2500
    已有 4 条评论,共 14 人参与。
    登录快速注册 后发表评论
    • quasar小学生 05-28 21:44    |  加入黑名单

      A卡可以拉ollama/ollama:rocm镜像直接docker cli部署,或者用docker-compose连openwebui一起。7900xtx跑q4量化的千问14b每秒大几十tokens,显存占用60%。不知道Windows上能不能用

      支持(2)  |   反对(0)  |   举报  |   回复

      4#

    • Strike编辑 05-28 11:18    |  加入黑名单

      一刀流小依 研究生

      堆个4张p100啥的,跑得动吗?
      05-27 19:51
    • 支持(0)  |   反对(0)  |   举报  |   回复
    • 跑是能跑的,只要能跑CUDA就行,就是速度如何而已,单个对话生成速度受单卡性能制约,多卡可提升并行性能。

      支持(1)  |   反对(0)  |   举报  |   回复

      3#

    • 一刀流小依研究生 05-27 19:51    |  加入黑名单

      堆个4张p100啥的,跑得动吗?

      支持(0)  |   反对(0)  |   举报  |   回复

      2#

    • 恒温麾下一代宗师 05-27 18:19    |  加入黑名单

      最好还是做到exe一键安装

      已有2次举报

      支持(0)  |   反对(5)  |   举报  |   回复

      1#

    提示:本页有 4 个评论因未通过审核而被隐藏

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明