禅心汇
  • 首页
  • 热点
  • 财经
  • 科技
  • 汽车
  • 房产
  • 消费
  • Uber盘前上涨逾4%,公司宣布历史首次回购

    科技  |  03-05  |  9119个浏览

    Uber盘前上涨逾4%,公司宣布回购70亿美元股份。Uber首席财务官表示,这是公司首次授权实施股票回购计划,并称“这是对公司强劲的财务势头投下的信任票”。上周,Uber发布了2023年第四季度财报,连续三个季度实现盈利,同时也首次实现了全年盈利。从而使其成为最新一家提高对股东回...

  • 传苹果VisionPro 4或5月登陆中国,大厂应用火速跟进

    传苹果VisionPro 4或5月登陆中国,大厂应用火速跟进

    科技  |  03-05  |  8507个浏览

    Apple Vision Pro 目前仅在美国推出,但从一开始就有报道称它将很快在国际上推广。《华尔街新闻》快讯报道,供应链预计该产品最早可能于 4 月份在中国发布。它明确表示“最早四月(但不晚于五月)”。目前还没有更多细节,但供应链还声称“工信部的注册程序已接近完成”。消息预计...

  • 号称绝对安全的iOS发现木马病毒,你的苹果手机可能已被黑客控制

    号称绝对安全的iOS发现木马病毒,你的苹果手机可能已被黑客控制

    科技  |  03-05  |  7250个浏览

    划重点1、网络安全公司Group-IB发现了首款针对iOS系统的木马病毒。2、GoldDigger原本是针对安卓系统开发的,现在的改进版本开始威胁iOS用户。3、苹果似乎已经发现这种病毒的威胁,并采取了封锁措施。腾讯科技讯 2月17日消息,据外媒报道,苹果始终致力于为其操作系统提...

  • 力箭二号液体运载火箭计划2025年首飞

    力箭二号液体运载火箭计划2025年首飞

    科技  |  03-05  |  8297个浏览

    记者今天从中国科学院获悉,中科宇航与中国科学院微小卫星创新研究院近日举行中国空间站低成本货物运输系统总体方案讨论确认会,明确了由中科宇航力箭二号液体运载火箭发射卫星创新院自主研制的低成本货运飞船产品,将于2025年执行首次飞行任务。同时,首飞还可搭载低轨互联网星座卫星。2023年...


  • 一些OpenAI技术人员还在持续放出更多用Sora生成的视频作品,如海上自行车比赛、男人向巨型猫王鞠躬、鲨鱼跳出海面吓到在海滩的人……‍‍‍

    ‍‍‍‍‍民间高手们同样行动力惊人:有的将OpenAI展示的生成视频示例的提示词输入到Midjourney、Pika、RunwayML、Make-A-Video等其他明星模型对比效果;有的把Sora和比它早几个小时发布的谷歌最新力作Gemini 1.5 Pro玩起了联动。

    Sora的爆火,再度坐实了阿尔特曼“营销大师”的称号。

    一些网友怀疑阿尔特曼是专挑谷歌发Gemini 1.5的时间亮出Sora,硬生生把手握100万tokens技术突破的Gemini 1.5话题度杀到片甲不留,是一出用大型广告秀吸引更多融资的高招。


    而最新被曝出的消息,似乎印证了OpenAI对新融资的迫切。据外媒报道,随着新一笔要约收购交易完成,OpenAI的估值或超过

    800亿美元

    。

    阿尔特曼宏大的7万亿美元芯片筹资计划也亟待输血,毕竟最近刚给他的小目标再加1万亿,并收获了马斯克的“😂”评论。


    这样看来,利好的还是AI infra和芯片企业。

    01.大佬们怎么看Sora?

    不管是震惊Sora的强大,还是吐槽其生成视频的破绽,都能收获极高的关注度。大佬们也分为几派,从不同角度对Sora进行点评。

    1、吃瓜感慨派:时间不等人,甘拜AI下风

    代表之一是马斯克,在社交平台X上的各网友评论区活跃蹦跶,四处留下“人类愿赌服输(gg humans)”、“人类借助AI之力将创造出卓越作品”等只言片语。


    AI文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela感慨后浪拍前浪,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。


    出门问问创始人李志飞在朋友圈感叹:“LLM ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”


    2、展望预言派:OpenAI还有武器,创企压力倍增

    周鸿祎发了一条长微博和一个视频,预言Sora“可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具”,认为OpenAI“手里的武器并没有全拿出来”、“中国跟美国的AI差距可能还在加大”,AGI“不是10年20年的问题,可能一两年很快就可以实现”。

    美国旧金山早期投资人Zak Kukoff预测一个不到5人的团队将在5年内用文生视频模型和非工会的劳动力制作一部票房收入超过5000万美元的电影。


    GitHub Copilot主创Alex Graveley则替生成式AI创企们捏了把汗:“如果OpenAI打算继续逐个行业的蚕食AI初创公司,他们应该尽快上市。构建一个只有500人受益的新经济是个糟糕的未来。”


    前阿里副总裁、正在AI infra赛道创业的贾扬清,评价简单粗暴:“真的非常牛。”他认为“对标OpenAI的公司有一波被其他大厂fomo(害怕错过)收购的机会”,“开源还需要一段时间才能catch up”,算法小厂“要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就开源”,并预言“infra的需求继续会猛增”。

    3、上手体验派:比较多个视频生成模型,联动Sora和Gemini 1.5

    知名连续创业者Gabor Cselle在测试关于美丽东京白雪皑皑的提示词后,得出的结论是Sora在长镜头上表现得更好。


    Gabor Cselle还让谷歌Gemini 1.5 Pro观看并分析评论了OpenAI Sora制作的视频。

    Sora的原提示词是:“美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近摊位上购物。绚丽的樱花花瓣随雪花在风中飞舞。”


    Gemini 1.5 Pro给出的评论是:“这段视频拍摄的是日本一条下雪的街道,樱花盛开。有一些不一致的地方表明视频可能是AI生成的。首先,雪下得很大,但樱花还在盛开,樱花通常开在春天,那时天气温暖,没有雪;其次,雪以一种很均匀的方式落下,这与现实生活中的雪通常不同;第三,尽管下着雪,视频中的人没有穿任何冬天的衣服。总的来说,这段视频在视觉上很吸引人,但前后矛盾之处表明这不是真实场景。”

    4、技术分析派:Sora或有30亿参数,基础论文被扒‍‍‍‍‍

    含金量最高的当属围绕Sora核心技术的讨论。

    PyTorch创始人Soumith Chintala从视频推测Sora是由游戏引擎驱动的,并为游戏引擎生成组件和参数。

    英伟达高级研究科学家Jim Fan评价Sora是“视频生成的GPT-3时刻”、“数据驱动的物理引擎”,认为它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。


    多伦多大学计算机科学AI助理教授Animesh Garg夸赞OpenAI做得好,评价Sora像是“模型质量的飞跃,它不需要快速的工程来实现随时间一致的RTX渲染质量生成”。


    纽约大学助理教授谢赛宁高赞Sora是“难以置信的、将重塑视频生成社区”,并发表多篇推文进行分析,推测Sora建立在扩散Transformer模型之上,整个Sora模型可能有30亿个参数。

    值得一提的是,Meta首席AI科学家杨立昆转发评论称他的前同事谢赛宁和他的前伯克利学生、现任OpenAI工程师的William Peebles前年合著的扩散Transformer论文,显然是Sora的基础。


    论文地址:

    arxiv.org/abs/2212.09748

    杨立昆还特意指出,这篇论文曾因“缺乏新颖性”而被计算机视觉学术顶会之一拒收。

    下一章将附上大牛们更全面的技术分析。

    02.每个视频都能挑出错,Sora为什么还能这么火?

    OpenAI在发布Sora的博客文章下方特意强调其展示的所有视频示例均由Sora生成。比起OpenAI的承诺,更能证明Sora清白的是这些视频中出现的各种生成式AI“灵魂错误”。

    比如,随着时间推移,有的人物、动物或物品会消失、变形或者生出分身;或者出现一些违背物理常识的闹鬼画面,像穿过篮筐的篮球、悬浮移动的椅子。



    这些怪诞的镜头,说明Sora虽然能力惊人,但水平还不够“封神”。这也给它的竞品和担心工作被取代的人类留下了进化的余地。

    毕竟,AI视频生成已经断断续续火了一年多,而当前最晚出场的Sora,就算是错漏百出,也已经在时长、逼真度等方面甩开同行一条街。


    ▲主要视频生成模型/技术对比(来源:东吴证券)

    让机器生成视频,难点在于“逼真”。比如一个人在同一个视频里的长焦和短焦镜头里外观不会变化;随着镜头转动,站在山崖上的小狗应该跟山崖保持一致的移动;咬一口面包,面包就会少一块并出现牙印……这些逻辑对人来说似乎显而易见,但AI模型很难领悟到前一帧和后一帧画面之间的各种逻辑和关联。

    首先要强调下生成式AI模型跟传统信息检索的区别。传统检索是按图索骥,从数据库固定位置调取信息,准确度高,但不具备举一反三的能力。而生成式AI模型不会去记住数据本身,而是从大量数据中去学习和掌握生成语言、图像或视频的某种方法,产生难以解释的“涌现”能力。

    OpenAI在技术报告里总结了一些以前模型常用的视频生成和建模方法,包括循环网络、生成式对抗网络、自回归Transformer和扩散模型。它们只能生成固定尺寸、时长较短的视频。


    而Sora实现了

    将Transformer和扩散模型结合的创新

    ,首先将不同类型的视觉数据转换成统一的视觉数据表示(视觉patch),然后将原始视频压缩到一个低维潜在空间,并将视觉表示分解成时空patch(相当于Transformer token),让Sora在这个潜在空间里进行训练并生成视频。

    接着做加噪去噪,输入噪声patch后Sora通过预测原始“干净”patch来生成视频。OpenAI发现训练计算量越大,样本质量就会越高,特别是经过大规模训练后,Sora展现出模拟现实世界某些属性的“涌现”能力。

    这也是为啥OpenAI把视频生成模型称作“

    世界模拟器

    ”,并总结说持续扩展视频模型是一条模拟物理和数字世界的希望之路。


    令技术大牛们兴奋的焦点就在这个能力上。

    先看

    架构

    ,构建于扩散Transformer(DiT)模型上,DiT=[VAE编码器+ ViT + DDPM + VAE解码器]。

    其次是

    视频压缩网络

    ,看起来只是一个训练原始视频数据的VAE(一个ConvNet),Token化可能在获得良好的时间一致性方面发挥重要作用。


    谢赛宁回顾说,在研究DiT项目时,他和Bill没有创造“新颖性”,而是优先考虑了

    简单

    和

    可扩展性

    。

    简单

    意味着灵活。他认为人们经常忽略掉一件很酷的事,当涉及到处理输入数据时,如果让模型方式更灵活。例如在MAE中,ViT帮助我们只处理可见patches,而忽略掩码patches;类似的,Sora“可通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小”,而UNet并不直接提供这种灵活性。

    他猜测Sora可能还会使用谷歌的

    Patch n" alt="Sora爆火48小时:杨立昆揭秘论文,参数量或仅30亿">

    Sora爆火48小时:杨立昆揭秘论文,参数量或仅30亿

    科技  |  03-05  |  7351个浏览

    OpenAI新爆款Sora的热度持续发酵,在科技圈的刷屏阵仗都快赶上正月初五迎财神了。智东西2月17日报道,这两天,OpenAI首款文生视频大模型Sora以黑马之姿占据AI领域话题中心,马斯克、杨立昆、贾扬清、Jim Fan、谢赛宁、周鸿祎、李志飞等科技人物纷纷下场评论,一些视频...


  • Semianalysis的最新文章中,从数字格式的基本原理出发,深⼊探讨了神经⽹络量化的技术现状。

    本⽂中,将介绍浮点与整数、电路设计注意事项、块浮点、MSFP、微缩格式、对数系统等内容,还会介绍量化和推理数字格式的差异,以及⾼精度与低精度训练方法。


    此外,鉴于量化和精度损失带来的挑战,稳重还将讨论模型的下⼀步发展。

    最后,文中将介绍英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、 MatX和Lemurian Labs等硬件开发商在扩展⽬前流⾏的8位格式(如FP8和Int8) 时将采⽤的技术。

    矩阵乘法

    任何现代机器学习模型的主体都是矩阵乘法。

    在GPT-3中,每⼀层都要进⾏⼤量的矩阵乘法运算:例如,其中⼀个具体运算是⼀个(2048 x 12288)矩阵乘以⼀个(12288 x 49152)矩阵,然后输出⼀个(2048 x 49152)矩阵。

    重要的是如何计算输出矩阵中的每个元素,这可以归结为两个⾮常⼤的向量的点积(在上⾯的例⼦中,⼤⼩为12288)。

    这包括12288次乘法和12277次加法,累积成⼀个数字,即输出矩阵的单个元素。


    通常情况下,通过硬件将累加器寄存器初始化为0,然后反复:

    - 乘以 x_i * w_i

    - 将其加⼊累加器

    每个周期的吞吐量均为1,经过~12288个周期后,输出矩阵的单个元素的累加完成。

    这种「融合乘加」运算(FMA)是机器学习的基本计算单元:芯⽚上成千上万个FMA单元经过策略性排列,可⾼效地重复使⽤数据,从⽽并⾏计算输出矩阵的许多元素,从而减少所需的周期数。

    上图中的所有数字都需要以某种⽅式,在芯⽚内的某个位置⽤位表示:

    - x_i,输⼊激活

    - w_i,权重

    - p_i,成对乘积

    - 在整个输出完成累积之前,所有中间部分累积加和

    - 最终输出总和

    在这个巨⼤的设计空间中,⽬前⼤多数机器学习量化研究都归结为两个⽬标:

    1. 实现良好的能量和⾯积效率。这主要取决于权重和激活所使⽤的数字格式。

    2. 既要⾜够精确地存储数千亿个权重,又要使⽤尽可能少的位,以便从容量和带宽的角度减少内存占⽤。这取决于⽤于存储权重的数字格式。

    这些⽬标有时是⼀致的,有时是相悖的。接下来文章将对两者进⾏深⼊探讨。

    数字格式设计目标1:芯片效率

    许多机器学习芯⽚计算性能的根本限制在于功耗。

    虽然H100在论文中可以实现2,000 TFLOPS的计算能⼒,但在此之前就会遇到功耗限制,因此每焦⽿能量的FLOPs是⼀个极其重要的跟踪指标。

    鉴于现在的训练运⾏经常超过1e25 FLOP,我们需要极其⾼效的芯⽚,在数⽉内消耗兆⽡级的电⼒,以击败SOTA。


    基本数字格式

    首先深入了解计算中最基本的数字格式:整数。

    基数为2正整数

    正整数可以用2进制(基数为2)来自然表示。这种表示法称为UINT,即⽆符号整数。下⾯是⼀些8位⽆符号整数的例⼦,也称为UINT8,从0到255。


    这些整数的位数不限,但通常只⽀持以下四种格式:UINT8、UINT16、UINT32和UINT64。

    负整数

    负整数需要⼀个符号来区分正负,只需在最显著位加上⼀个符号即可:例如, 0011表示+3,1011表示-3。这称为符号-数值表示。

    下⾯是INT8的⼀些示例,INT8从-128到127。请注意,由于第⼀位是符号,最⼤值实际上减半了,从255到127。

    符号大小是直观的,但效率很低——你的电路必须实现相当不同的加法和减法算法,⽽这些算法又与⽆符号整数的电路不同。

    有趣的是,硬件设计⼈员可以通过使⽤⼆进制表示法来解决这个问题,这样就可以对正数、负数和⽆符号数使⽤完全相同的进位阶梯电路。所有现代CPU都使⽤⼆进制表⽰法。

    在⽆符号int8中,255的最⼤值是1111111111。在有符号int8中,最⼩值为-128,最⼤值为127。

    为了让INT8和UINT8共享硬件资源,可以⽤1111111111来表⽰-1。现在,当数字1相加时,会溢出到00000000,如预期的那样表示0。同样,11111110也可以表⽰为-2。


    溢出是一种特征!实际上,0到127被映射为正常值,128到255被直接映射到-128到-1。

    定点数

    更进⼀步说,我们可以在现有硬件上轻松制作新的数字格式,⽆需修改。

    虽然这些都是整数,但你也可以想象它们是其他数的倍数!例如,0.025就是千分之25,可以直接存储为整数25。现在,我们只需在其他地⽅记住所有正在使⽤的数字都是千分之⼀。

    新的「数字格式」可以⽤千分之⼀来表示-0.128到0.127的数字,实际逻辑没有变化。整数仍被视为整数,然后⼩数点被固定在右起第三个位置。这种策略称为定点法。

    ⼀般来说,这是⼀个有⽤的策略,本⽂中会经常提到——如果你想改变可以表示的数字范围,可以在某个地⽅添加⼀个⽐例因⼦。(很明显,你可以在⼆进制中这样做,但⼗进制更容易讨论)。

    浮点数

    不过,定点也有⼀些缺点,尤其是乘法运算。⽐⽅说,你需要计算1万亿乘以1万亿分之⼀。

    ⼤⼩上的巨⼤差异就是⾼「动态范围」的⼀个例⼦。那么10^12和10^-12都必须⽤数字格式来表示,因此很容易计算出需要多少位:从0到1万亿,以1万亿为增量,需要10^24的增量,log2(10^24)~= 80 位,才能以我们想要的精度表示动态范围。

    每个数字是80位显然是非常浪费的。你不⼀定关⼼绝对精度,你需要关⼼的是相对精度。

    因此,即使上述格式能够准确区分1万亿和999,999,999,999.9999999999之间的误差(⼀般也不需要区分)。⼤多数情况下,你关⼼的是相对于数字⼤⼩的误差量。

    这正是科学记数法所要解决的问题:在前⾯的例⼦中,我们可以将⼀万亿写成1.00 * 10^12,将⼀万亿分之⼀写成 1.00 * 10^-12,这样存储量就⼩得多了。

    这样虽然更复杂,但可以让你在相同的上下⽂中毫⽆顾虑地表示极⼤和极⼩的数字。

    因此,除了符号和数值外,我们现在还有⼀个指数。IEEE 754-1985在当时使⽤的许多略有不同的⼆进制格式中,标准化了业界通⽤的⼆进制存储⽅式。

    主要的有趣格式——32位浮点数(float32或FP32)可以描述为 (1,8,23):1个符号位、8个指数位和23个尾数位。

    - 符号位为0表⽰正,1表示为负。

    - 指数位被解释为⽆符号整数e,代表⽐例因⼦2^e-127,其价值介于2^-126和2^127。更多的指数位意味着更⼤的动态范围。

    - 尾数位代表数值1。更多的尾数位意味着更⾼的相对精度。


    其他位宽已被标准化或显示采⽤,例如FP16(1,5,10)和BF16(1,8,7)。而争论的焦点在于范围与精度。


    FP8(1,5,2或1,4,3)最近在OCP标准中标准化了一些额外的奇怪规定,但目前还没有定论。许多人工智能硬件公司已经实现了具有稍微优越的变体的芯片,但这些变体与标准不兼容。

    芯片效率

    说回硬件效率,所使⽤的数字格式对所需的芯⽚⾯积和功耗有巨⼤影响。


    整数芯片电路设计

    整数加法器是有史以来研究得最透彻的芯片设计问题。

    虽然加法器的实际实现要复杂得多,但有⼀种⽅法可以让我们把加法器想象成⼀路加法并根据需要携带1,因此从某种意义上说,⼀个n位加法器所做的⼯作量与n成正⽐。

    关于乘法,回想⼀下⼩学的长乘法。我们进⾏n位数乘以1位数的乘积,最后将所有结果相加。

    在⼆进制中,乘以⼀位数是微不⾜道的(0或1)。这意味着n位乘法器实质上是n位加法器的n次重复,因此⼯作量与n^2成正⽐。

    虽然实际应⽤因⾯积、功耗和频率限制⽽⼤不相同,但⼀般来说:1)乘法器⽐加法器昂贵得多;2)在低位数(8位及以下)情况下,FMA的功耗和⾯积成本相对于加法器的贡献越来越⼤(n对n^2缩放)。

    浮点电路

    浮点运算单位则⼤不相同。相⽐之下,乘积/乘法相对简单。

    - 如果输⼊的符号中正好有⼀个是负号,则符号为负,否则为正。

    - 指数是输⼊指数的整数和。

    - 尾数是输⼊尾数的整数乘积。

    相⽐之下,总和相当复杂。

    - ⾸先,求指数的差值。(假设exp1⾄少和exp2⼀样⼤,如果不⼀样⼤,则在指令中进⾏交换)

    - 将尾数2向下移动(exp1-exp2),使其与尾数1对齐。

    - 在每个尾数中加⼊⼀个隐含的前导1。如果⼀个符号是负数,则对其中⼀个尾数进⾏2的补码运算。

    - 将尾数相加形成输出尾数。

    - 如果出现溢出,则将结果指数增加1,并将尾数向下移动。

    - 如果结果为负数,则将其转换回⽆符号尾数,并将输出符号设为负数。

    - 对尾数进⾏归⼀化处理,使其具有前导1,然后删去隐式前导1。

    - 对尾数进⾏适当的四舍五⼊(通常是四舍五⼊到最近的偶数)。

    值得注意的是,浮点乘法甚⾄可以⽐整数乘法成本更少,因为尾数乘积中的位数更少,⽽指数的加法器⽐乘法器⼩得多,⼏乎没有关系。

    显然,这也是经过极度简化的,特别是非规范和nan处理,我们还没有深⼊研究,这占⽤了⼤量⾯积。但我们可以得出这样的结论:在低位数浮点运算中,乘积成本很低, ⽽累加是昂贵的。


    FP32 乘法加法单元

    在这⾥,我们提到的所有部分都⾮常明显——将指数相加,尾数的大型乘法器数组,根据需要移动和对齐事物,然后进行归一化吃力(从技术上讲,真正的「融合」乘法加法有点不同,但在这⾥省略了)。


    FP8与INT8在⾼效深度学习推理⽅⾯的⽐较(⾼通)

    本图表说明了上述所有要点。需要消化的东西很多,但要点是,INT8xINT8累加和累加到定点(FX)的成本是最便宜的,并且是由乘法(mby)主导,⽽使⽤浮点的操作数或累加格式(通常是巨⼤的)主要是累加的成本(alignadd +normacc)。例如,使⽤FP8操作数和「定点」累加器,⽽不是通常的FP32,就可以节省很多成本。

    总⽽⾔之,高通论⽂和其他论⽂称,FP8 FMA⽐INT8 FMA多占⽤40-50%的芯⽚⾯积,能耗同样更⾼,甚⾄更糟。这也是⼤多数专⽤ML推理芯⽚使⽤INT8的主要原因。

    数字格式设计目标2:准确性

    既然整数成本更低,为什么我们不去普遍使⽤INT8和INT16,⽽要⽤FP8和FP16呢?这要看这些格式能在多⼤程度上准确地表示神经⽹络中实际出现的数字。

    我们可以把每种数字格式看作⼀个查找表。例如,⼀个2位数字格式可能是这样的:


    显然,这组四个数字并没有什么⽤处,因为它缺少了太多数字。事实上,根本就没有负数。如果你的神经⽹络中的某个数字不存在于表格中,那么你能做的就是把它四舍五⼊到最接近的条⽬,这就给神经⽹络带来⼀点误差。

    那么,表格中理想的数值集是什么?

    比如,如果神经⽹络中的⼤部分数值都接近0(实际情况也是如此),我们就希望能有很多数值接近0,这样我们就能在重要的地⽅获得更⾼的精度,⽽在不重要的地⽅牺牲精度。

    在实践中,神经⽹络通常是正态分布或拉普拉斯分布(laplace distributed),有时会出现⼤量离群值,这取决于模型结构的具体数值。特别是在超⼤语⾔模型中,往往会出现极端离群值,这些 离群值虽然罕见,但对模型的功能⾮常重要。


    上图显⽰了LLAMA-65B部分的权重,这看起来很像正态分布。如果将其与FP8和INT8中数字的分布进⾏⽐较,就会发现浮点运算的重点⾮常明显——接近于0。这就是我们使⽤浮点运算的原因!


    不过,它与真实分布的匹配度仍然不⾼,每次指数递增时都会出现尖锐点,但⽐int8好得多。

    我们能做得更好吗?从0开始设计格式的⼀种⽅法是尽量减少平均绝对误差,即四舍五⼊造成的平均损失。

    对数系统

    例如,英伟达在HotChips⼤会上提出对数系统是继续扩展8位数字格式的可能途径。

    要知道,对数系统的四舍五⼊误差⼀般较⼩,但也存在⼀些问题,包括加法器的成本⾼得惊⼈。



    NF4及其变体(AF4)是⼀种4位格式,使⽤精确查找表来最⼩化误差,假定权重遵循完全正态分布。但这种⽅法在⾯积和功耗上都⾮常高昂——现在每次操作都需要查找⼀个庞⼤的条⽬表,这⽐任何INT/FP操作都要糟糕得多。

    ⽬前有许多替代格式:posits、ELMA、PAL等。这些格式声称在计算效率或表述准确性⽅⾯有各种优势,但都还没有达到商业相关的规模。

    也许其中的⼀种,或者⼀种尚未发表/发现的,将具有INT的成本和FP的表征准确性——目前有⼏种已经提出了这⼀主 张,甚⾄更好。

    这篇文章的作者对Lemurian Labs PAL抱有很⼤希望,但他们的数字格式还有很多未披露之处。他们声称⾃⼰的16位精度和范围都优于FP16和BF16,同时硬件成本也更低。


    随着不断扩展8位格式,PAL4还声称其分布⽐英伟达在HotChips上提出的对数系统更好。他们的论文声明令⼈惊叹,但⽬前还没有硬件实现这种格式......。


    区块数字格式

    ⼀个有趣的现象是,张量中的元素⼏乎总是与附近的元素⼤⼩相似。当张量中的元素⽐通常情况下⼤很多时,附近的元素基本上就不重要了——它们相对来说太⼩,无法在点积中看到。

    我们可以利⽤这⼀点——可以在多个元素之间共享⼀个指数,⽽不是在每个数字上都有⼀个浮点指数。这样可以节省⼤量冗余指数。

    这种⽅法已经存在了⼀段时间——Nervana Flexpoint、微软MSFP12、英伟达VSQ,以及2023年OCP推出的Microscaling。

    在这⼀点上,存在着⼀整套不同权衡的可能格式。微软曾试图量化硬件的设计空间:


    硬件供应商⾯临着⼀个棘⼿的问题,即既要设计⾼度专业化的⾼效格式,又要不影响未来模型架构的发展,因为未来的模型架构可能会有截然不同的数值分布。

    推理

    推理过程对成本和功耗特别敏感,因为一个模型虽然只训练一次,却要服务于数以百万计的用户。

    因此,推理用的芯片会更倾向于采用更经济、体积更小的数值格式。而这很可能会导致,模型在训练时使用的格式与推理中使用的差异巨大。

    目前,市面上有很多工具可以实现格式的转换。

    在方法谱系的一端,训练后量化(Post-Training Quantization, PTQ)可以仅通过一些简单的算法来更新模型的权重,而无需执行任何实际的训练步骤:

    - 最基本的方法是直接将每个权重值四舍五入到最接近的数值

    - LLM.int8()将大部分权重,除了一小部分异常值,转换成INT8格式

    - GPTQ利用权重矩阵的二阶信息来实现更精细的量化处理

    - Smoothquant采用一种数学上等价的变换方法,来减少异常的激活值

    - AWQ根据激活值的数据来更精确地量化最关键的权重

    - QuIP对模型的权重进行预处理,降低其对量化过程的敏感性

    - AdaRound将每一层的权重四舍五入的过程视为一个二次二元优化问题,进行独立优化

    然而,这种方法虽然极大地减少了成本,但实际带来的性能损失要比宣称的大得多。

    在另一端,量化感知训练(Quantization-Aware Training, QAT)通过调整模型的精度,并继续训练一段时间来适应新的精度。

    这种方式直会接利用常规的训练流程让模型适应量化后的状态,效果更好但相应的计算成本也更高。

    训练

    因为涉及到反向传播,训练过程相对更复杂。

    整个过程中包括了三次矩阵乘法操作:一次发生在前向传播,另外两次发生在反向传播中。


    在每个训练步骤中,系统会接收当前的权重值,然后通过与不同数据进行一系列矩阵乘法计算,最终产出更新后的权重值。

    FP8格式的训练流程则更加复杂。下面英伟达提出的FP8训练流程的一个简化版:


    - 过程中的每次矩阵乘法计算都以FP8 x FP8格式进行,并将结果累积到更高精度的FP32中。之后,为了进行下一层的计算,这个结果会被量化回FP8格式。之所以需要更高精度来进行累积,是因为它包含了成千上万次的小幅度更新,这些微小的变化需要足够的精度才能确保不会被忽略掉。

    - 每个FP8格式的权重张量都有一个比例因子。鉴于每一层网络的数据范围可能截然不同,调整数据来适应每一层的特定范围非常关键。

    - 在主要计算流程之外,权重更新对精度的要求也是极高的,通常需要保持在如FP32这样更高的精度水平。这是因为权重的微小更新与原有权重值相比,数量级差异巨大,因此需要足够的精度来确保这些小的更新不会因为四舍五入而消失不见。

    最后,训练和推理的一个显著区别在于,训练过程中的梯度值会出现更加极端的异常点,这一点非常关键。

    虽然可以将激活函数的梯度量化为INT8格式(例如使用SwitchBack或AQT技术),但权重梯度至今仍难以进行这样的量化,因此它必须保持在FP16或者是特殊格式的 FP8(1,5,2)中。

    硬件厂商

    在量化技术这一领域,无论是HuggingFace的模型量化工具,还是硬件供应商们,都在为了实现更低的比特数、更高的准确率和更好的能效而不懈努力。

    然而,这个问题远不止比特数那么简单——硬件中蕴含着极大的复杂性,涉及到多种不同的格式,而这些都有待进一步的优化。

    为了跟上黄氏定律(Huang" alt="推倒万亿参数大模型内存墙,万字长文:从第一性原理看神经网络量化">

    推倒万亿参数大模型内存墙,万字长文:从第一性原理看神经网络量化

    科技  |  03-05  |  7173个浏览

    【新智元导读】为了应对大模型不断复杂的推理和训练,英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs,纷纷开始研发全新的硬件解决方案。从32位,到16位,再到8位,量化在加速神经⽹络⽅⾯发挥了巨⼤作⽤。放眼一看,世界把所有的⽬光都聚...

  • 【光明论坛】为乡村振兴提供强大的人才队伍支撑

    【光明论坛】为乡村振兴提供强大的人才队伍支撑

    科技  |  03-05  |  5860个浏览

    近日,2024年中央一号文件公布,文件明确提出“壮大乡村人才队伍”,进一步强调了人才培养对乡村振兴的重要意义,为有力有效推进乡村全面振兴擘画了路线图。乡村振兴,关键在人。人才振兴是乡村振兴的基础,加强乡村人才队伍建设是推进乡村全面振兴的题中应有之义。针对当前农村发展中缺人才的问题...

  • 去哪儿:今年春节坐飞机出游的人比返乡的人多,游客覆盖全球1754个城市

    去哪儿:今年春节坐飞机出游的人比返乡的人多,游客覆盖全球1754个城市

    科技  |  03-05  |  6609个浏览

    新浪科技讯 2月17日上午消息,“出游”代替“返乡”成主角。去哪儿数据显示,今年假期中间不仅没有出现出行低谷,从单日出行量看,选择初二(2月11日)坐飞机出游的人比腊月二十九(2月8日)返乡的人还要多。今年春节假期中国游客足迹遍布全球115个国家,覆盖全球1754个城市(除中国大...

  • 亿纬锂能成价格战风暴中的幸存者

    亿纬锂能成价格战风暴中的幸存者

    科技  |  03-04  |  7200个浏览

    2月5日晚,动力电池二线龙头厂商亿纬锂能发布2023年业绩预告。归属上市公司股东的净利润维持同比正增长,虽然不如龙头厂商宁德时代,但相比孚能科技等全年亏损的二三线电池企业还是相对出色。亿纬锂能在2023年,实现归属于上市公司股东的净利润40.35亿元-42.11亿元,同比增长15...

  • NBA 和 WWE 2K 游戏开发商 Visual Concepts 再次裁员,业界血洗仍在持续

    科技  |  03-04  |  4944个浏览

    IT之家 2 月 8 日消息,位于得克萨斯州奥斯汀的游戏开发商 Visual Concepts 近日再次宣布裁员,这次裁员影响到了旗下多个游戏项目,包括即将于明年春天发售的《WWE 2K24》。具体裁员人数并未公布,但据悉本次裁员涉及《WWE 2K24》《NBA 2K》以及《LE...

  • 巴菲特连续四年居首!《福布斯》公布2024年度美国慈善富豪25强

    科技  |  03-04  |  7918个浏览

    《福布斯》今日评出了2024年度美国最慷慨的25位亿万富豪,他们在去年向一系列事业捐赠了数百亿美元,从医疗和科学研究到环境可持续性,再到为低收入美国人群提供法律服务等。数据显示,截至2023年12月30日,这25位慈善家的累计捐赠总额升至近2110亿美元,较去年增长了约7%。过去...

  • 奥特曼警告:“社会失调”可能放大人工智能风险

    科技  |  03-04  |  6021个浏览

    OpenAI首席执行官萨姆·奥特曼周二表示,让他在人工智能方面夜不能寐的危险是“非常微妙的社会失调”,这可能会使系统造成严重破坏。在迪拜举行的世界政府峰会上,奥特曼通过视频电话发表讲话,再次呼吁成立一个像国际原子能机构这样的机构来监管人工智能,因为人工智能的发展速度可能比世界预期...

  • 华硕发布a豆14 Air轻薄本:女性用户的“智能闺蜜” 首发价5299元

    科技  |  03-04  |  5841个浏览

    新浪数码讯 2月19日上午消息,PC制造商华硕召开a豆新品发布会,正式推出专为女性用户打造的AI超轻薄本a豆14 Air,主打颜值和AI,助力女性用户展现自信、勇敢出击。轻薄外观,鲜明配色华硕认为,时尚是女性生活态度和个性的表达。而本次推出的a豆14 Air拥有瑰蜜粉金、鼠尾草青...

  • 任继周院士新作《中国农业伦理学》发布

    任继周院士新作《中国农业伦理学》发布

    科技  |  03-04  |  5547个浏览

    近日,任继周院士《中国农业伦理学》新书发布仪式暨《任继周著作集》电子书赠送仪式在兰州大学举行。这部由任继周院士主编的《中国农业伦理学》,为助力我国生态文明建设和农业可持续发展拓展清晰思路,为解决当代农业农村农民发展问题开辟新的途径。近日,任继周院士《中国农业伦理学》新书发布仪式暨...

  • 重磅!OpenAI首个视频生成模型发布,1分钟流畅高清,效果炸裂

    科技  |  03-04  |  6395个浏览

    据OpenAI官网,OpenAI首个视频生成模型Sora发布,完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇官网的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。一位时髦女士漫步...

  • 盘点|OpenAI首个视频模型发布,竞争者有谁、何时可供使用?

    科技  |  03-04  |  6453个浏览

    人工智能在去年给人类带来巨大冲击,不少声音指出在创意等方面人类尚无法被其取代。这一想法再次遭到挑战。当地时间2月15日,人工智能巨头,ChatGPT母公司OpenAI宣布,正在研发“文生视频”模型Sora,可创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活...

  • 淘天集团第三财季营收1290.7亿元 同比增长2%

    淘天集团第三财季营收1290.7亿元 同比增长2%

    科技  |  03-04  |  7753个浏览

    新浪科技讯 北京时间2月7日晚间消息,阿里巴巴(NYSE: BABA;HKEX: 9988)今日发布了截至2023年12月31日的2024财年第三财季财报:营收为2603.48亿元,同比增长5%。净利润为107.17亿元,同比下滑77%;不按美国通用会计准则,净利润为479.51...

  • 土卫一可能有片海

    土卫一可能有片海

    科技  |  03-04  |  8055个浏览

    根据对土星卫星土卫一轨道的近距离测量,科学家发现,其冰冷的外壳下似乎有一片广阔的全球性海洋。如果其他“冰世界”也有类似的海洋,可能会增加宜居行星的数量。2月7日,相关研究成果发表于《自然》。根据对土星卫星土卫一轨道的近距离测量,科学家发现,其冰冷的外壳下似乎有一片广阔的全球性海洋...

  • 带个保温杯上讲台讲化学,赵东元院士说做科研最重要是“爱”

    带个保温杯上讲台讲化学,赵东元院士说做科研最重要是“爱”

    科技  |  03-04  |  5822个浏览

    “如果我把保温杯里的化学物质倒入大海,过一周后再把海水捞上来,还能找到保温杯里原有的化学物质吗?”12月28日,在复旦大学相辉堂举行的第五期浦江科学讲坛上,复旦大学化学与材料学院院长、复旦大学相辉研究院首任院长赵东元以“‘孔’中看世界——无尽的科学前沿”为题作报告。他带着一个保温...

  • 百年几何事 人生一卷诗——苏步青的诗情与诗思

    百年几何事 人生一卷诗——苏步青的诗情与诗思

    科技  |  03-04  |  5861个浏览

    【科学家的诗词情缘】开栏的话翻开现当代诗词集,不少科学家的身姿活跃其间。这些科学家,纵横于科学的世界,也驰骋于诗词的田野。他们接续先哲余韵,创作出一首首饱含深情的古典诗词佳作。这些诗篇,是现代科学与传统文化的碰撞,也是时代脉动与个人情怀的交融。本版今起开设《科学家的诗词情缘》栏目...

  • 消失的摩托车返乡大军

    消失的摩托车返乡大军

    科技  |  03-04  |  9436个浏览

    每逢过年,春运无疑是最被人关注的话题。成千上百万的异地打工人,在忙碌了一年之后,期待着能够在过年期间回到家乡和家人团聚。而在遭遇冻雨和暴雪等极端天气导致高铁、飞机大量延误,高速大面积拥堵的情况下,今年的春运,无疑又是相当艰难的一年。绿皮火车、高铁动车乃至飞机甚至自驾,春运返乡的方...

  • 大尺寸液晶面板迎涨价 厂商按需生产主导市场

    大尺寸液晶面板迎涨价 厂商按需生产主导市场

    科技  |  03-04  |  6949个浏览

    再度迎来涨价。2月6日上午,TrendForce集邦咨询发布的最新面板报价显示,2月上旬65吋电视面板均价为164美元,较1月下旬上涨1美元;55吋电视面板均价为123美元,价格上涨1美元。TrendForce集邦咨询分析师范博毓在接受《证券日报》记者采访时表示:“预期2月份65...

  • 黄彦熙:认真对待每一位患者

    黄彦熙:认真对待每一位患者

    科技  |  03-04  |  5272个浏览

    今年7月,四川大学学生黄彦熙在2023年港澳台大学生暑期实习活动中体验采茶。四川省科学技术协会供图在成都的这段学习生涯,这位台湾青年有机会接触更多的人和事,也认识了更多来自全国各地的同学和朋友。将来,他希望在大陆开启自己的职业生涯。——————————对医学生黄彦熙来说,10月2...

  • 中国科学院2024跨年科学演讲传播量超2.58亿人次

    中国科学院2024跨年科学演讲传播量超2.58亿人次

    科技  |  03-04  |  9178个浏览

    2023年12月31日,中国科学院举办了以“复兴路上的科学力量”为主题的2024跨年科学演讲活动,并联合上海广播电视台“日出东方?科技追光”跨年融媒直播,组成了超30小时的超级跨年直播。截至1月2日,全网累计传播量超2.58亿人次。2023年12月31日,中国科学院举办了以“复兴...

  • 大众推出 ID.7 Tourer 旅行版电动汽车,续航最高达 685 公里

    科技  |  03-04  |  8505个浏览

    IT之家 2 月 20 日消息,大众汽车集团今天宣布在其 ID 系列纯电动汽车阵容中新增一款车型 ——ID.7 Tourer。这是一款基于 ID.7 轿车打造的旅行版车型,拥有更大的载货空间和更长的续航里程,专为欧洲市场打造,预售即将开启。根据大众汽车集团的新闻稿,ID.7 To...

  • 中学生对话企业科技工作者 感受科学魅力

    中学生对话企业科技工作者 感受科学魅力

    科技  |  03-04  |  9417个浏览

    近日,“美一次·科技筑梦”公益活动在美的全球创新中心举行。来自华东师范大学附属顺德美的学校以及德胜学校的40多名初中生与3名美的科技工作者对话,共同感受科学的魅力。近日,“美一次·科技筑梦”公益活动在美的全球创新中心举行。来自华东师范大学附属顺德美的学校以及德胜学校的40多名初中...

  • 关于Apple Vision Pro的一些启发

    关于Apple Vision Pro的一些启发

    科技  |  03-03  |  9202个浏览

    市面上对于Apple Vision Pro的解读有很多,但少有涉及AR/VR产品根本性问题的了解和洞察。关于Vision Pro理想应用是“空间显示“?Elon Musk评价AVP,"我不明白为什么要将电视机挂在鼻子上“,其实这句评论没有贬低AR/VR,甚至还高估了。因为使用VR...

  • 荣耀小米超旗舰双双入网 卫星、影像大战一触即发

    科技  |  03-03  |  4956个浏览

    荣耀小米超旗舰双双入网 卫星、影像大战一触即发【手机中国新闻】2月15日,知名数码博主数码闲聊站爆料,小米14 Ultra和荣耀Magic6 RSR都入网了,两台5G卫星移动终端,新一轮影像旗舰大战。从入网信息来看,两款产品设备名称都是“卫星移动终端”,荣耀的产地在深圳,而小米的...

  • 智谱接连被卖掉的股份,又被老股东买走了

    智谱接连被卖掉的股份,又被老股东买走了

    科技  |  03-03  |  6560个浏览

    近日,国内头部大模型初创公司智谱AI被早期投资方中科创星接连减持之事引发业内关注。1月22日,界面新闻从知情人士处独家获悉,中科创星所减持的股份已被包括君联资本和Boss直聘等在内的老股东接盘。另外,智谱还将引入新的投资者。作为国内头部基座大模型公司,智谱AI在过去一年中备受关注...

  • 苹果又摊上大事!欧盟要开出近40亿元天价罚单

    科技  |  03-03  |  4581个浏览

    快科技2月20日消息,据英国《金融时报》18日报道,欧盟委员会预计将对美国苹果公司处以约5亿欧元、约合38.8亿元人民币的罚款。罚款理由是该公司在音乐流媒体服务方面存在妨碍市场竞争的行为。欧盟委员会下属的反垄断监管机构称,苹果违反了欧盟法律,“阻止其竞争对手通知iPhone用户,...

‹‹ ‹ 7 8 9 10 11 12 13 14 15 16 › ››

文章排行

  • 月榜
  • 年榜

1上海车展新品折射车企战略方向

2爬坡过坎向新行——重庆汽车产业跃升记

3第五届消博会丨“购物车”里的消费“新”风尚

4两部门:在银行信贷等业务领域开展审计报告批量查验试点

5多地政策“组合拳”加力稳楼市

6智谱 AI 启动 A 股 IPO 辅导 成 “大模型六小虎” 首家冲刺上市企业

7走进民企看发展︱从实验室到高原盐湖 解码这家企业的“吸附力”创新密码

8房地产市场延续止跌回稳走势

9首季中国经济观察丨规模增长、质量提升,首季外贸成绩单展现中国经济韧性

10新能源汽车一季度开门红 多方利好激发产业持续动能

1-

2金龙鱼开启品质见证之旅,为国民健康而生!

3国台酒文化与新技术融合传播发布会举行

4白象中国面携手与辉同行阅山河,解锁多“面”陕西

5多地加大补贴力度 促进汽车以旧换新

6《赶大营》建组:再现津商史诗 感悟家国情怀

7甘肃外送电和新能源发电增长加快

8《时光正好》温暖治愈都市中年女性

9内蒙古:“绿色算力”赋能“东数西算”

10“丑鞋”SHAKA入局 户外赛道越来越挤

最近发表

  • 活跃度提升 “好房子”受期待——“五一”假期多地楼市观察
  • 2024年A股韧性尽显 新质生产力动能突出
  • 供需两旺!我国假日旅游消费热度再创新高
  • 从更新指南到“秘密”递表 港股IPO“科企专线”正式推出
  • 新华全媒+丨金融部门打出重磅“组合拳” 释放稳市场稳预期强信号
  • 同比增长近4倍!北方最大邮轮母港见证“五一”假期“邮轮热”
  • “好房子”有了“硬杠杠”
  • 上汽华为合作车型尚界落地上海临港生产
  • “最年轻城市”正在建设“最宜老城市”——深圳科技发力打造“银发经济”新生态
  • 半导体设备行业持续回暖 多家上市公司去年营收净利双增长

网站分类

  • 热点
  • 财经
  • 科技
  • 汽车
  • 房产
  • 消费

版权所有:禅心汇 苏ICP备2024068752号-1 苏公网安备32021102001757号
Powered By Z-BlogPHP Theme By zblog老白