第682章 提示和设想 重生后我只做正確选择
他起身走到白板前面,没有回头,背对著所有人,手中的黑色马克笔已经毫不犹豫地落在了白板上。
笔尖划过光滑的板面,发出沙沙的轻响。
陈默手腕沉稳,线条流畅而肯定,没有丝毫犹豫。
一个简洁却完全不同於传统感知架构的图形框架迅速在他笔下成型。
“把摄像头採集的原始视频流(raw video),”陈默一边画,一边清晰地说道,声音不大,却字字如锤,敲在每个人的神经上,“直接输入到一个统一的、基於transformer架构的编码器(encoder)。”
他在白板左侧画了几个代表摄像头的抽象符號,用箭头指向一个代表神经网络的大方框,在方框里重重写下了“transformer encoder”。
“在这个编码器內部,通过强大的注意力机制(attention mechanism),让模型自己学会在像素级別上,跨时间、跨空间、跨摄像头视角,去建立关联,去理解三维空间的结构!
让ai自己『看』懂这个世界的几何关係,而不是依赖我们人工预设的规则去分割目標、匹配特徵。”
隨著笔尖持续移动,在白板中央画出一个代表三维空间特徵(3d features)的立体区域,並標註了“bev (birds-eye-view) representation”。
“在模型內部,自然生成统一、稠密的鸟瞰图(bev)空间表徵。
在这个统一的bev空间里,雷射雷达点云也好,毫米波雷达目標也好,甚至未来的v2x车路协同信號也好,都只是作为辅助的『特徵』(feature)。
通过跨模態注意力机制(cross-modal attention)自然地融入、补充、增强这个由视觉主导构建的三维空间理解。”
他在bev空间周围画上代表雷射雷达、毫米波雷达、v2x的符號,用虚线箭头指向中央的bev空间,並在连接处標註了“attention”。
“最终输出的是什么?”陈默的笔尖用力地在bev空间下方画了一个输出箭头,重重写下两个词:“occupancy grid(占据柵格)”、“flow prediction(运动流预测)”。
“不是一个个孤立的、需要后期费力融合的『目標框』(bounding box)和『轨跡线』(trajectory)。
而是这个三维空间中,每一个『体素』(voxel)是否被占据的概率,以及占据物未来的运动趋势!
这才是最接近人类驾驶员对周围环境空间和运动態势的直觉感知方式。
这才是通往l3级以上高阶智能驾驶的真正钥匙!”
“沙沙”声停止了。
陈默放下笔,转过身。
会议室內一片死寂。
落针可闻的死寂。
时间仿佛被按下了暂停键。
所有人都僵住了,如同被施了定身法。
会议室里的智能驾驶团队五人组,反应是最为直接且剧烈。