特斯联华先胜：不迷信大模型，现阶段的革新仍在“交互”

如今大模型之于技术变革，为“行业”和“领域”在有限范围内落地，提供了很大的可能性，在新的AI商业化叙事里，人们或主动、或被动地加入资源竞赛狂潮中。

【资料图】

身处这场竞赛中的特斯联 CTO 华先胜，也给出了自己关于大模型的冷静思考与破局答案。

大模型不是智能涌现的终点

在大模型“智能涌现”之后短短一年，物理世界与信息的生产方式发生革命性变化，映射到更广泛的城市空间，也必然带来新一轮的革新。对此，华先胜表示，“虽然大模型的确取得了很大的进展，但不要迷信大模型，它有它的局限。”

据华先胜回忆，去年 ChatGPT 出来之后，他非常地关注并且第一时间去试用了。不可否认的是，它确实是一个巨大的突破，一方面，惊叹它能力的大幅度提升，但也发现它不如我们想象般的强大，哪怕是稍微深入一些的问题，它的表现都不够好。

“过去深度学习刚诞生时，大家也觉得它可以解决一切问题，可以用足够复杂的模型和足够多的数据去建立现实世界各种问题的模型。但在实战中，其实需要深入行业才能真正解决问题。今天的大模型并没有改变这一规律，仍然需要深入领域去了解对应的流程、数据等，才能解决行业的问题。”华先胜提到。

今天，在特斯联的超级智慧园区里，软体机器人隐身于园区的各大屏幕里，对园区的事情了如指掌，你可以向它问路、获取需要的信息，也可以使用它执行操作。人与机器共存的背后，是大模型与 IoT 硬件通过语义对齐，实现人、物联网设备和城市之间的高度智能化，这与特斯联一贯以来坚持城域 AIoT 领域为技术核心的战略非常吻合。

那么，当 AIoT 遇见大模型，将会碰撞出怎样的火花呢？华先胜给出了他的思考：AI 是 AIoT 的灵魂， IoT 是它的感知和控制，像它的“手脚”，当然也包括为其提供“身体”的物理基础，也即算力资源。

LLM（大语言模型）的出现，推动 AI 能力向更通用的目标迈进了一步：首先，大语言模型可以直接作为 AIoT 系统的交互界面。其次，AIoT 数据天生就是多模态的，多模态大模型有望解决过去很多需要通过 “AI + 规则”来解决的问题。

在华先胜眼中，目前提到 AIoT 大模型，主要有两条路线：第一种是将过去 AI 所做的事情用大模型进行升级、再做一遍，这是大部分人的做法；第二种是真正意义上大规模的 AIoT 大模型，将 AIoT 里的多模态异构数据真正使用起来，放入大模型当中去。

“不过，这种真正意义上的AIoT大模型未来也可能会很快出现，也可能需要很长时间。”华先胜说。

他认为，现阶段 AIoT 行业里所使用的大模型、仍处于他^_^第一种技术路线，也即基于语言或语言加视觉的“伪”AIoT 大模型。在“伪”AIoT 大模型出现前，AIoT 设备之间的连接和协同完全基于人类专家预定义的规则，这些规则是固定的、不完备的和不自我进化的，不一定能直接理解和遵循人类指令。但有了大模型后，根据高度多样的 Context（任意季节、时间、人物、指令等），我们可以自动地、动态地构建物体间连接和协同规则，提供自适应的、多样的、深入的、融合人类指令的智能场景体验。

华先胜还表示，“无论哪条路线，眼下特别典型的全域 AIoT 大模型还没有出现。”

立体感知，精准控制

真正的AIoT大模型应该具备什么能力呢？华先胜认为，AIoT 与其他行业有两大差异。首先是异构数据多，大量的传感器收集了天气、温度、湿度、电量、降水量等各种各样的数据，信息更丰富；其次，IoT 设备不只是感知设备，还可以反向控制环境。更丰富的感知维度，更强大的行动力，这是 AIoT 大模型所应该具备的。

回到场景下去赋能 AIoT 领域，仅依靠一个通用的、又有很多局限的大模型是很难实现。因此，AIoT 大模型还要满足几个特性：

第一，专业性。它一定是专业的，能够解决领域内更专业的相关问题。今天的大模型看上去很厉害，但并不具备足够的领域专业信息，无法在园区里真正使用。

第二，可靠性。模型对所关注的场景要非常了解，一方面通过引入新知识让它懂得足够多；其次，还需要一些约束的方法让输出结果高度可靠，不出现“一本正经胡说八道”的“幻觉”。

第三，性能和成本的平衡。从训练成本出发，一个特别大的通用模型不是一个常规创业公司所能承受的；其次在推理时，如果用户量或访问量过大，也会导致大模型服务撑不住。因此，简化模型是一个好的选择。我们不需要它是一个百事通，只要能解决我所关注的问题，且具备一定的常识就可以。

第四，系统打通。这个大模型不只有知识，更要同园区的系统深度耦合，以获取实时信息，还能在被授权的前提下去实时地反控园区。

当提及近期备受关注的具身智能技术，华先胜指出，“我们提出的AIoT大模型，是现有大模型技术的具身化。AIoT 设备既是我们的眼睛和耳朵，也是我们的手和脚。目前，我们更多地聚焦于交互和场景联动，后面我们也会将感知和控制也替换成大模型。特别是，我们的超级 IoT 设备和机器人，在无缝联合的服务器端能力（物联网和大模型）和机器人侧能力（感知、规划、行动和交互）的支持下，本身就是具身智能的体现，只不过特斯联的机器人具身智能是机境协同的具身智能，不只是机器人本身的直接能力。”

AIoT 大模型的多模态挑战

关于 AIoT 大模型落地的难点，华先胜认为，其难点主要有几个方面，除了满足上述提到的专业性、可靠性、性能和成本的平衡、以及系统打通外，落地对实时性要求也会高很多，因为它是一个真正起效果的 AIoT 系统；此外，它在能力上的演化，不仅是大模型自身的更新，还涉及数据积累、记忆迭代等。总的来说，AIoT 大模型落地最大的难点在于多模态。

他进一步指出，长期来看，将 IoT 数据统一融入 AIoT 大模型中是有可能的，也许是以文本/图片为中心、其他 IoT 数据和中心对齐的方式，这是需要的。但由于AIoT 数据的异构和多模态，将不同类型的数据整合和有效地利用，需要克服数据表示和对齐的挑战。

首先，在数据表示上，各类传感器数据应该以何种形式建模，是参考文本作为序列输入、还是参考图像作为矩阵输入、还是一种新的建模形式？对此，目前无论是学术界和工业界都暂无定论。

此外，在数据对齐上，语言模型从语言中学习、又生成语言，这是人类能理解的，而AIoT领域有很多没有标签和信息标注的数据，其本身的上下文也大多不具备显性的语义，无法将语义与数据进行对应，这使得它生成的数据、信息无法被理解，需要再加工建立 AIoT 数据和自然语言的语义对齐，才能赋予这些数据以意义。

大模型不是 AGI 唯一途径，“模型+系统”才是正解

面对 AIoT 等各个领域 A I落地面临的困境，如何实现真正意义上的AGI？华先胜认为目前有三条可能的路径：

[if !supportLists]·

第一条路径是大模型持续演化和进步，不断地增大模型的规模、增加数据的量和模态来产生一个超级大模型以实现 AGI。

第二条路径是变革当前的连接主义，研究新的模型框架使得更接近于人脑或人心的工作模式，在低功耗的前提下，具备强大的分析、推理、发现和创新的能力。

第三条路就是我们所提出来的“模型+系统”的方法；不同于第一条路以大模型系统为核心，这里所讲的系统更广泛，有大小模型的融合和演化，有模型与规则的融合，有规则和模型的相互转化等。通过系统和模型融合的方法，我们会构建一个更复杂的、可以不断自我成长的智能体。

华先胜以 AIoT 领域为例表示，大语言模型本身是 AIoT 的扩充，将大语言模型作为一个具有强大理解能力的“大脑”，再通过系统连接 AIoT 设备来给它配上“眼睛”、“鼻子”、“耳朵”、“手”和“脚”，使其具备多元的感知、分析、决策和控制能力，从而实现更强的智能。当模型+系统使用得越来越多，积累了更多数据，才有可能真正实现多模态、异构数据的“大一统”AIoT 大模型。