Powered by RND
PodcastsBusiness张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

张小珺
张小珺Jùn|商业访谈录
Dernier épisode

Épisodes disponibles

5 sur 109
  • 106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象
    今天继续《商业访谈录》的机器人专场,嘉宾是北京大学助理教授、银河通用创始人兼CTO王鹤。王鹤毕业于清华和斯坦福大学。他给我们从“具身智能”的学术缘起开始聊起,这是一个学术流派从一个学科中萌芽到边缘再到主流渗透的全过程。而随着ChatGPT诞生,“具身智能”这个小众概念,在过去2年成了新的资本宠儿——但一时间,也带来了新的乱象。我们探讨了一些具身智能产业界关键问题:1/具身智能起源于计算机视觉的学术流派,视觉、语言、智能的关系是什么?为什么VLM(视觉语言模型)的表现显著弱于LLM(大语言模型)?2/具身智能的最大困境之一是数据采集,合成数据是正解吗?具体应该怎么做?3/如果大模型提倡的是“智能即产品”,那么具身智能呢?王鹤的回答是“生产力即产品”。去年底,英伟达创始人黄仁勋来华访问。答谢宴上,王鹤不仅和黄仁勋同桌,而且就在做黄仁勋旁边(挨着坐)。在节目最后,我们也聊了聊这个有趣的插曲——他提到,那晚黄仁勋吃了不少水煮肉片。2025,我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的自问自答05:58 语言不是智能的本质,而是“一次跃变”“具身智能”和“机器人”是不同学术流派“具身智能”起源于“计算机视觉”的研究流派视觉有智能吗?纯视觉智能的可解释性差,是端到端的语言不是智能的本质,不能说没有语言就没有智能智能的本质是什么?“一种视情况对环境做出反应的能力”语言是人类能产生这么高智能的“一次跃变”视觉的本质是一种非常强的sensor(传感器)25:08 具身智能的学术边缘史具身智能最早兴起的task(任务)是,导航加入视觉模态,强调Perception–Action Loop(感知-动作循环),成为具身智能研究流派能立起来的核心叙事标志性事件:“具身智能是计算机视觉未来的三颗北极星之一”(李飞飞)我和Skild创始人Deepak Pathak在Facebook人工智能实验室FAIR打过交道41:15 我的学术之路2016年,博士第一个项目:从人类视频里学多步的人与物体交互过程的生成(动画领域)在Stanford博士第一年,在不喜欢的方向非常挣扎,后来换组、换方向Stanford是高度自由的市场:你可以随时踢你老板,你老板可以随时踢你第一篇论文憋了很久,很绝望完全从视频中学习,学习世界模型,还没成为当下能推进具身智能的技术我的第二个项目:位姿估计和合成数据相关2020年李开复曾在湾区丽思卡尔顿组织brunch,观点分歧回国坚定以家庭机器人为目标推进research,根本没有allies(盟军)01:25:08 具身智能的软件和硬件是螺旋上升的问题ChatGPT火了以后,很多人开始找我创业,我说创不了所有工业机械臂在去年的全球总产值才1000亿RMB,和理想一家车企产值相当如果采取不成熟的激进的硬件方案,对智能会是一种拖累在这个硬件基础上,我们的方案是,做相对专用的智能和越来越通用的智能VLM为什么显著弱于LLM?互联网视觉数据/所有人眼观测的覆盖〈〈〈互联网文字数据/人类所有说的话的覆盖(VLM数据不够,VLA的Action数据是最近两年才开始收集的)01:44:34 我们要避免陷入以下泥潭这一代具身智能公司相比此前机器人公司,差异在哪?在我看来,具身智能公司如果陷入以下两个泥潭,天花板会很有限:1、“长期漂浮”的公司;2、“算不过来账”的公司,边际成本不降我们要做一个应用场景内的泛化(现在选择的是货架场景)在我看来,机器人领域的头部效应很重01:55:17 具身智能是,“生产力即产品”雇人摇操采真实数据的成本到底有多高?一笔经济账真实数据在我们训练数据的比重是1%,合成数据管线挑起大梁行业内的tricky现象:把没有功能的机器人卖给别人(这是一种商业模式)关于合成数据和Sim-to-Real(仿真到现实迁移)的常见误区有出货量后的数据回流和数据飞轮如果大模型是“智能即产品”,那么具身智能就是“生产力即产品”02:13:51 资本轰炸后的人为乱象谁在创造生产力,谁在讲故事,这是最乱的——这个源自美国对Figure的估值400亿美元的两种逻辑有的人胆子很大,不告诉别人我是摇操,但实际摇操呼吁:真实展示!不要摇操!5年内我们一定要有万台以上的应用,如果做不到这个,我们这个领域就被证伪了!不要去搞一些砸我们行业招牌的事情!这些模式是很可怕的,是在砸这个行业的饭碗通用机器人的到来不要想得那么快02:25:25 一个插曲去年黄仁勋访华为什么和黄仁勋同桌且在旁边?聊了什么?黄仁勋能吃辣,吃了很多水煮肉片02:28:26 最后的快问快答【机器人专场】逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
    --------  
    2:38:52
  • 105. 和奔驰王忻聊,产业大转折下的德国汽车、话语权和技术battle
    《商业访谈录》访谈过很多中国新能源车企的CEO和高层,今天的嘉宾来自一家德国百年车企,他是奔驰中国自动驾驶与车联网研发负责人王忻。我们聊了聊中国汽车产业20年变革的历程,以及一家德国车企的转型与秘密故事。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)产业大转型01:25 20年前,就连波导手机也做过汽车07:54 我曾在汽车Tier 1德尔福18年,3年前加入奔驰,背后是产业大转折09:30 过去20年全球汽车产业的几个技术周期(2004年以前,2004-2014年,2014-2020年,2020年至今)11:31 现在转变成数据驱动的时代,Tier 1黑盒交付的时代不再话语权27:40 中国团队和德国总部的话语权是争夺过来的吗?28:27 奔驰中国研发团队组织架构、沟通机制和battle34:08 德国企业的battle文化和美国企业是不同的41:23 为中国设计生产的功能要反向输出全球的时候,需要哪些流程?新技术43:21 智能化是不可逆的趋势,但不能激进46:50 车车通讯在L3实现以后需要重新定义51:54 科技和豪华的关系:如果智能平权,豪华的标准变了吗01:01:49 去年从规则算法切换到端到端的过程挺煎熬的01:04:40 激光雷达是一个很好的冗余01:05:35 CLA和豆包合作大语言模型139岁车企01:09:36 以人为本01:11:08 安全的步骤01:13:08 世界上第一位汽车驾驶员是奔驰创始人的太太01:15:00 在百年企业工作是什么体验——荣耀是什么?负担是什么?01:17:48 百年一遇的大转型、大变革01:33:22 奔驰CEO康林松会发脾气吗?相关单集:对话奔驰全球CEO康林松:转型期CEO和转型之中的139岁奔驰【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
    --------  
    1:32:15
  • 104. 和Rokid祝铭明聊,吴妈、阿里、硬件创业黑森林的第11年
    随着AI的软件能力向硬件溢出,除了具身智能,智能眼镜或许是另一个会受益的产业。今天的嘉宾是智能眼镜公司Rokid创始人祝铭明(Misa),2025上半年Misa佩戴其公司开发的智能眼镜出现在一次演讲中,一度引发关注,今年也是他在硬件黑森林里创业的第11个年头。我们从他的第一家公司1000万美金被阿里并购开始聊起——聊了聊马云和吴妈,也聊了聊他的第二段创业、智能眼镜市场的中美对比、阶段与趋势。我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)02:00 开始的快问快答02:36 阿里1000万美金收购我的第一个创业公司,全部换成了股票05:14 最糟糕的时候,马云找我聊,引荐了Joe Cai(蔡崇信),又引荐了王坚博士08:05 我还有两个星期发薪水,账上只有4000块15:55 在阿里当高管,吴妈(吴泳铭)提出想做AI,成立M lab22:43 Rokid的融资、马云的建议27:40 吴妈当年是我的顶头上司,对吴妈的comments31:41 2019年重要决策:一星期内从AI切换AR赛道48:00 像器官一样的硬件会从手机切换到智能眼镜?59:17 重要决策之后裁员了一大半,清空了一幢楼01:05:45 转型后第一次PMF01:09:55 现在的智能眼镜在黑莓到iPhone 1的中间阶段01:11:52 AI在硬件上的展开:具身智能、随身智能01:13:05 在智能眼镜,明年上半年会是与巨头竞争的时间点01:19:29 马云总结创业公司和巨头竞争的4个机会:4个不01:23:38 中美定义智能眼镜产品的不同01:41:35 公司价值观第一条是玩心,老板总是那个trouble maker01:48:32 聊聊杭州创业者们01:59:05 硬件创业的黑森林02:27:00 最后的快问快答【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
    --------  
    2:08:56
  • 103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈
    今天的嘉宾又是一位AI应用创业者,Lovart创始人陈冕。他的产品成为2025年既Manus之后,另一个在全球斩获一定知名度的Agent。不同的是,Manus是通用Agent,Lovart是垂直Agent,面向设计师使用。与其说他是做产品的CEO,他的精神状态更贴近一名“战斗型CEO”。这次访谈发生Lovart火了之后,你能感受到陈冕在过去2年遭遇了补贴战争、产品下架、账上只剩4000块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻,充斥着的要溢出的快乐。这是2025年对一位Agent创业者精神状态的截取。浪潮的大幕才刚刚拉开。2025,期待我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)03:00 开始的快问快答漂泊05:00 一个90后的不断跳槽的10年移动互联网经历(腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映)07:02 经历了两次战斗,战斗正酣的时候是顶点,后面一地鸡毛13:58 从0到1做瓜瓜龙,刚升字节4-1,就撞上双减了15:18 换一种选择,会更好吗?AI来了,觉得自己被解救了25:25 AI至少是电脑的发明,比肩信息革命的变革(智能化vs信息化)28:58 被救赎的一刻:“希望是一切痛苦的解药,是一切痛苦的意义”29:51 避开大模型主航道和语言主轴,选择多模态、创作2023年:前一秒赢了中国第一,下一秒被下架了、裁员了、没钱了36:00 见的第一个投资人是张予彤37:43 2023年6月-9月,我全情的战斗!——3个月烧了200万美金39:03 前一秒刚赢了中国第一,下一秒被下架了、裁员了、没钱了40:45 怎么看投流?怎么看Kimi投流?42:35 被下架什么心情?奔溃啊44:09 公司账上只剩4000块45:17 现在获客成本是多少?怎么有效获取用户?49:38 时机稍纵即逝,好的节奏时一定要扩大战果2024年:哐哐哐狂投50:05 2024年哐哐狂投,一个月一轮融资,close了3轮52:21 我们非常清楚第一代产品liblib的局限性,开始考虑第二代产品55:58 第二代产品Lovart是怎么预研的?2025年:Lovart火了59:48 如果这个设计师叫Lovart,他/她又Love art,还蛮酷的01:01:47 争抢“全球第一个XX Agent”究竟带来什么?01:03:00 为啥搞邀请码成了标配?01:03:56 Lovart火了之后01:07:30 AI应用创业的know-how这是我创业最!!爽的!!东西!!01:19:57 我是双子座,时而发狂,时而很软01:24:04 与焦虑共生,就是干!01:25:26 这是我创业最!!爽的!!东西!!01:28:00 但在这一刻就是好爽啊!!!我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈01:28:32 给我多少钱、给我多少职级,都买不到01:32:35 在陌生领域的创新,就像用火柴在潮湿的木头上反复地滑动,点燃又熄灭;直到有一天,你抓住了某一个缝隙,把木柴点燃,火势弥漫整个山洞01:33:58 2023年底去高瓴办公室,阳光中,我恍惚了大闹一场,悄然离去01:35:00 童年:漂泊、武侠小说和电脑游戏01:26:01 我不知道故乡是哪,只能一直往前走01:38:46 给其他AI应用创业者的建议01:42:29 最后的快问快答【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
    --------  
    1:45:27
  • 102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”
    今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。下面是广密和祥雨的聊天。2025,我们和AI共同进步!我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)多模态研究的10年史:迷茫和转机02:00 张祥雨的学术经历和个人研究主线12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?38:45 做了大半年十分迷茫,但在此刻出现了转机训练大模型发现的怪事、蛛丝马迹与办法41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实44:33 经过分析,这是next token prediction的本质缺陷45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验47:27 生成模型的“特征坍缩现象”50:48 解决方案就是引入RL(强化学习)53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT对多模态研究的新思考和新进展01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)01:19:06 尝试了半年,结果给大家透露一下吧!01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误01:24:07 o1激发的反思pattern,在预训练语料中都有分布了01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间01:45:42 多模态的“GPT-4时刻”还有多久预见下一个“GPT-4时刻”01:46:56 long context和多模型协作02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习02:21:22 澄清一些有关Agent的观点02:25:00 人虽然没有生成器官,但人有世界模型02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑【更多信息】联络我们:微博@张小珺-Benita更多信息欢迎关注公众号:张小珺
    --------  
    2:28:43

Plus de podcasts Business

À propos de 张小珺Jùn|商业访谈录

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)
Site web du podcast

Écoutez 张小珺Jùn|商业访谈录, The Diary Of A CEO with Steven Bartlett ou d'autres podcasts du monde entier - avec l'app de radio.fr

Obtenez l’app radio.fr
 gratuite

  • Ajout de radios et podcasts en favoris
  • Diffusion via Wi-Fi ou Bluetooth
  • Carplay & Android Auto compatibles
  • Et encore plus de fonctionnalités
Applications
Réseaux sociaux
v7.18.5 | © 2007-2025 radio.de GmbH
Generated: 6/23/2025 - 2:57:06 AM