开云(中国)Kaiyun·官方网站 - 登录入口推理算力需求正在速即增长-开云彩票官方网站 登录入口

真实有点 Amazing 啊。
这两天GPU圈子发生了个事儿,被网友们究诘地津津乐说念——有一款显卡卖爆了。
火到什么过程呢?便是一进货就被抢光。
GPU 供不应求其实照旧司空见惯了,但之是以此次能被热议起来,是因为这款产物背后的厂家。
不是你认为的英伟达、AMD,而是……英特尔。

为什么会如斯?
从玩家们的究诘中不穷苦出谜底——性价比够高,2000 元价位就能在 2K 画质下畅玩 3A 游戏。
The Verge 也相等"直给"地给以了一句评价:
英特尔终于在 GPU 上拿下了一次告成。
而这款显卡,恰是英特尔不久前发布的第二代 Arc B580,售价仅249 好意思元。

要知说念,英伟达 299 好意思元的 RTX 4060 和 AMD269 好意思元的 RX 7600,仅配备了 8GB 的 VRAM。
但英特尔的 Arc B580 不仅价钱比它们低,还配备了12GB 的 VRAM和 192bit 的显存位宽。
即使是价钱更低的 Arc B570(219 好意思元,下个月上市)也配备了 10GB 的 VRAM。

除此除外,还有一个更专诚义的事情。
诚然 Arc 是游戏显卡,但毕竟是 GPU 啊,于是……也有一部分东说念主买来驱动搞 AI了。而这,可能会让它畴前的销售再增三分热度。

这不,有东说念主在 Reddit 上就共享了怎样在 Arc B580 上搞 AI 绘制 Comfy UI 了:

不仅是个东说念主用户的尝鲜,咱们还探问到有些企业照旧入辖下手把英特尔的显卡塞进包括职责站和就业器在内的商用议论建设中了,具体搭配的"食谱"便是:英特尔至强系列 CPU+Arc 显卡。
不外暂时用的照旧英特尔上一代的A770,当作上一代的旗舰型号,A770 有着 16G 大显存,用在 AI 推理上,也算笔底生花。

据可靠的音书,如斯组合最为拉风的上风,雷同是"性价比"三字。
而由此激勉的,更值得究诘的一个话题应当是:
耗尽级显卡搞 AI,到底行弗成?
最初不错看出来,不管个东说念主照旧企业,买英特尔耗尽级显卡来搞 AI,基本皆是来作念AI 推理的。
内容上,推理算力需求正在速即增长,大有向上锻真金不怕火算力需求之势。
一方面,跟着行业热议的"预锻真金不怕火 Scaling Law 撞墙"了,像 OpenAI o1/o3 系列模子也驱动依靠加多推理算力提升模子武艺。
另一方面,AI 哄骗落地的爆发也使得推理需求大幅增长,这些需求时时不彊求算力的溢出甚极度致,即所谓硬需求不高,而是愈加堤防达成够用的性能(包括并发度和时延),以及与之同步的易获取、易部署、易使用和本钱上是否够实惠。
那么作念AI 推理为什么取舍英特尔游戏显卡?正如前边分析,性价比细目是一大磋商成分。
从硬件方面讲,即使是顶级的算力卡,单卡作念 AI 推理在靠近高并发等场景时,显存也会成为瓶颈,但升级到四卡、八卡本钱又会飙升。此时,英特尔 A770 这种 2000 元价位就有 16G 大显存的型号,就成了兼顾性能与本钱之选。
从哄骗方面讲,许多场景其实对每秒 token 生成速率要求并不高,特殊是有流式传输等优化时刻,独一 first token latency 到位了,背面生成速率得志一定要求,体验就很好。
这是咱们拿到的 4 张英特尔 Arc A770 显卡跑 Qwen2.5 32B 模子的演示 Demo,来感受一下这个速率,是不是有余了?
看到这里可能有东说念主要问了,用英特尔显卡跑 AI,CUDA 的问题若那边置?
拿最流行的大模子推理框架之一vLLM来说,收获于开源软件的发展,其早已达成了高档别的概述和封装,其实换用哪种硬件,用起来皆没差太多。
再加上英特尔我方提供的开源oneAPI,就能作念到很低的移动本钱。

可能还有东说念主要问了,那为什么不选专用 AI 推理加快器,比如风头正盛的 Groq、Sambanova 这些?
这就要说到,多模态交互是咫尺 AI 哄骗的一大趋势,不管是与 AI 视频对话、数字东说念主,照旧直播、短视频场景的一些哄骗,皆同期会用到视频解码或图形渲染武艺,这就非得是通用 GPU不可。
专用加快器诚然在特定任务上有上风,但在处理各种化需求时,通用 GPU 更具纯真性。
是以归来来看,用英特尔显卡搞 AI 推理,算力够用,大显存还有,可行性就有了,性价比也有了,关于现存业务来说,移动本钱更是理念念。
背面能拿下多大商场,会不会成为一个趋势,就静瞻念其变了。
英特尔的弧线解围
英特尔耗尽级显卡被企业拿去搞 AI 推理了,英特尔我方是什么作风?
那细目是乐见其成的,何况特殊宠爱。
其实,英特尔在两年前刚推出 Arc 系列时就选拔与友商不同的计谋,许可证方面明确不放胆数据中心使用。

为了便捷环球用好 AI,英特尔的软件团队一直没闲着,除了更新 oneAPI,还在捏续推出和更新一系列开源器具,吸粉束缚。
举例加快库 IPEX-LLM,可用于大模子的推理和微调,在 GitHub 上照旧有 6.8k star。

以及低比特量化器具 neural-compressor,也取得 2.3k star。

从 IPEX-LLM 也不错看出英特尔对中国商场的宠爱,针对中国主流的开源大模子 ChatGLM、Qwen、MiniCPM 等皆提供了适配,汉文文档和教程也作念的比拟完善。

为了便捷环球取舍模子,英特尔还在 HuggingFace 上珍重了一个低比特量化模子的名次榜,建设好条款,就不错一键比拟并筛选出我方需要的模子。

其中性能排名靠前的,不乏英特尔我方动手量化的开源社区优秀模子。

这样看下来,英特尔为 AI 开源社区作念的稠密孝敬,给企业和开采者提供了便利,亦然咫尺环球股东尝试英特尔显卡的原因之一。
临了,咱们还探问到一个内幕音书:
英特尔看到 AI 推理这个商场需求缓缓扩大后,在后续产物计谋上也有所调度。
2025 年,英特尔准备推出 Battlemage 系列显卡的更大显存版块,其容量将增至 24G。
以后便是现存版块陆续就业于游戏等耗尽级商场,24G 的更大显存版块对准"坐褥力商场"。
"坐褥力商场"的盘算用户涵盖了数据中心、旯旮机房、评释科研和个东说念主开采者等。
领有更大显存的英特尔显卡,不仅可在 AI 推理需求上,也能在渲染和视频编解码哄骗上作念到比专科图形卡、职责站显卡性价比更高。
还真别说,"从游戏东说念主间转向打工赢利" + "算力够用、显存保大",很有可能会成为英特尔 GPU 解围的一招妙棋。
参考纠合:
[ 1 ] https://www.reddit.com/r/pcgaming/comments/1hh2dvn/intel_finally_notches_a_gpu_win_confirms_arc_b580/
[ 2 ] https://www.techspot.com/news/105810-intel-launches-new-arc-battlemage-b580-b570-gaming.html
[ 3 ] videocardz.com/newz/intel-will-not-prohibit-gaming-arc-gpu-use-in-centers
[ 4 ] https://github.com/intel-analytics/ipex-llm
[ 5 ] https://github.com/intel/neural-compressor
[ 6 ] https://huggingface.co/spaces/Intel/low_bit_open_llm_leaderboard
— 完 —
点这里� � 宥恕我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿发扬日日再见 ~

