Research on LiDAR Point Cloud Terrain Classification Based on Convolutional Neural Network ()
2.1. 研究区概况
数据集以四川省广元市苍溪县某农村地区为研究区。苍溪县位于川陕交界处的嘉陵江中上游地带,其地形总体呈现出“北高南低、西高东低”的空间格局,地貌类型以低山丘陵为主,地形破碎程度较高。境内山地主要集中在北部和西北部地区,山体高大连绵,坡陡谷深,局部区域的相对高差可达几百米;丘陵多分布在中部及南部地区,为嘉陵江及其支流长期侵蚀和切割作用的产物,构成典型的剥蚀—侵蚀地貌。在嘉陵江主河道及部分支流沿岸,则发育有规模不大的冲积平原,为当地重要的农业和居民用地。嘉陵江自北向南纵贯苍溪全境,其河谷宽窄不一,沿线常形成V形或槽状谷地(见图1)。
图1. 研究区地理位置图
整体而言,苍溪县兼具山地、丘陵和平坝等多种地貌形态,是自然地理过渡区的重要代表。这种地貌背景不仅影响了当地的土地利用与交通格局,也对高精度遥感测绘、点云分类及地面物体识别提出了更高的技术要求。
2.2. 数据集获取
利用无人机LiDAR扫描该区域,并经过解算后得到点云数据,将原始LAS数据导入cloudcompare软件进行预处理(如去噪、下采样等),然后对其裁剪划分出训练数据集和测试数据集,最后进行目视解译和人工标注,建立CSV格式数据集。制作数据集的流程图(见图2)。
图2. 数据集制作流程图
1) 数据预处理
预处理是点云应用流程中至关重要且不可或缺的初始环节,其核心目标是将原始、杂乱的观测数据转化为清洁、准确、规整且适合后续特定应用的高质量点云数据集。本文将对原始点云数据进行去噪和下采样,以平衡各类样本数量并降低计算负担。
点云去噪的核心目标在于识别并剔除原始点云中不反映真实场景几何结构的异常点,以提升数据质量并为后续建模、分类等应用奠定基础。原始点云中的噪声主要源于传感器固有误差(如测距漂移、热噪声)、环境干扰(如大气悬浮粒子、飞鸟或昆虫的瞬时反射)以及多路径效应等,表现为两类典型形态:离散型离群噪点(在空间中显著孤立,与主体点云缺乏空间连续性)和附着型表面噪点(分布于真实地物表面,导致局部几何结构呈现高频不规则扰动)。去噪的本质原理是挖掘真实地物点与噪声点在空间分布模式、局部邻域关系及几何特征上的统计或结构性差异,通过设计有效的判别规则或学习机制实现两者的精准分离。
点云下采样本质是在最小化几何信息损失的前提下,通过智能化压缩点云规模以解决海量数据带来的计算、存储及传输瓶颈。随着激光雷达与深度相机技术的发展,单帧点云常包含数百万至数十亿级的离散点,直接处理不仅效率低下,且大量冗余点对特征提取与模式识别并无实质贡献。下采样通过空间信息的有损压缩策略,依据点云的空间分布特性与几何特征重要性,选择性保留代表性点集,在数据精简率、几何保真度与计算效率三者间寻求最佳平衡。
经过点云去噪、点云下采样等一系列数据预处理流程后得到点云,如图3所示。
图3. 预处理后的点云
2) 数据集划分
将预处理后的点云数据导入软件cloudcompare进行后续处理。首先在点云数据上选择训练样本和测试样本,以裁剪划分出训练集和测试集,为确保模型能够准确泛化、具备鲁棒性并避免偏差,应遵循如下原则:样本应覆盖不同地形环境,如平原、丘陵、建筑区、林区等,保持空间均衡,以提升模型在实际应用中的泛化能力;尽量使每一类别(地面、建筑、植被)的样本数量相对均衡,避免样本不均衡引发模型偏置;应在整个区域范围内均匀抽样,避免只集中在某一片区域,影响模型泛化能力;适当抽取建筑与植被、地面与植被等边界过渡区域的样本,有助于提高模型的判别能力;训练样本与测试样本应来自不同区域或不同批次数据,避免数据泄漏,确保验证结果的可靠性。
3) 数据集语义标注
数据集划分以后,对训练数据集和测试数据集分别进行三种语义类别的分割;地面点(道路、农田、低矮草丛)、植被点(树木、灌木)、建筑物(自建房、棚屋)。对每一种类别的数据点选择完成后,将其以csv格式导出cloudcompare;在导出文件的第12列输入目标类别(0地面点、1建筑物点、3植被点),前11列作为数据的原始特征;标注完成后,将其整理和整合成最终的csv格式的训练数据集和测试数据集的标注信息,其可视化效果如表1和表2所示,样本点的数量如表3所示,其中蓝色代表地面、绿色代表建筑物、红色代表植被。
表1. 训练数据集标注信息
表2. 测试数据集标注信息
表3. 数据集样本点数量
类别 |
训练集点数 |
测试集点数 |
地面点 |
295,277 |
25,277 |
建筑物点 |
290,000 |
20,000 |
植被点 |
284,723 |
14,723 |
3. 改进CNN网络模型
卷积神经网络(CNN)作为深度学习领域的核心架构,在点云分类与特征提取任务中展现出显著优势,成为突破传统方法瓶颈的关键技术。相较于基于手工设计特征或图神经网络的解决方案,CNN实现了层次化特征学习机制与局部几何感知能力的有机结合。点云具有无序性、非结构化等特性。CNN通过可学习的卷积核在点云局部邻域上执行滑动操作,能够自适应地捕捉点之间的空间相关性,这种机制天然契合点云局部几何结构的表达需求。不同于传统方法依赖预先定义的几何描述符(如法线、曲率),CNN的卷积层通过多层次非线性变换,自动从原始坐标或浅层特征中提炼出对分类任务具有高度判别性的抽象表示,这种端到端的学习范式大幅降低了对领域专业知识的依赖,同时避免了手工特征工程的主观性与局限性。
CNN处理点云的关键创新在于三维卷积算子的泛化应用。早期研究通过体素化将点云转换为规则三维网格,使标准3D CNN得以直接应用。尽管体素化会引入量化误差并损失细节,但3D CNN能够有效建模空间体素间的语义关系,尤其在大尺度场景分类中表现出强大性能。随着PointNet++等架构的突破,直接在点集上操作的点卷积(如PointConv、KPConv)应运而生。这类算子无需体素化,直接在点的k近邻或球邻域内构建卷积核,通过多层感知机(MLP)学习连续空间中的权重函数。点卷积不仅保留了原始点的几何精度,还能自适应不同密度区域,显著提升了细粒度分类(如区分建筑立面构件与植被枝叶)的准确性。
在特征提取层面,CNN的分层抽象架构赋予了其多尺度表示能力。浅层卷积层捕捉局部几何基元(如边、角点),深层网络则逐步融合更大感受野内的上下文信息,形成对复杂地物(如完整建筑、树木集群)的全局理解。这种层次化表示对于点云中普遍存在的部分遮挡和密度不均问题具有强健的容忍度,因为高层特征可通过语义上下文补偿局部信息的缺失。
图4展示了本文所设计的用于点云数据分类的CNN网络的基本结构,其采用一维卷积神经网络(1D-CNN)架构,将传统用于图像处理的CNN结构适配于序列数据处理场景。针对点云的高维度、无序特征,本模型进行了架构调整与优化,网络输入以标准化后的点云特征向量为基础,通过在通道维度上增加一个伪“图像”通道,使得一维点云序列能够映射到二维卷积框架中。三个连续的卷积层采用核大小为3、步幅为1、填充为1的配置,不仅保留了局部邻域信息,还避免了特征图尺寸的大幅缩减;每层卷积之后紧跟ReLU激活函数与最大池化操作,有效提升了网络的非线性表达能力与对噪声的鲁棒性。
图4. 改进CNN网络基本结构
与传统基于静态特征提取的分类网络不同,本模型在架构上进行了两方面的改进:其一,引入了多层深度卷积,以三级逐渐扩展的通道数(16→32→64)构建逐层递增的特征表示,从而捕捉从低级几何纹理到高级形状语义的多尺度信息。其二,在全连接层之前添加了Dropout正则化,显著降低了过拟合风险,保证了模型在训练集和验证集间的鲁棒一致性。通过将展平后的特征向量输入至128维的隐藏层,模型在保持足够表达能力的同时,避免了高维全连接层带来的计算与存储开销。
在优化策略上,本模型采用Adam优化器配合StepLR学习率调度器,以0.001的初始学习率和0.7的衰减率平衡收敛速度与稳定性。此外,为进一步减轻过拟合,引入Dropout正则化(0.5比率)和五折交叉验证,训练过程中还对输入批次进行在线数据增强,随机加入Gaussian噪声、缩放及特征删除,使模型在多样化样本上均能保持良好分类性能。
综上所述,本模型创新性地将一维点云数据映射到二维卷积框架,通过多层卷积网络的深度语义学习与适度的正则化手段,使其在地面、建筑、植被三类点云分类任务中表现出优异的精度和泛化能力。
4. 实验与结果分析
4.1. 实验环境和参数设置
本文所进行的实验环境是Windows 10系统下进行训练的,具体的环境参数为Python 3.9、CUDA 11.8、PyTorch 2.2.1。数据批处理大小batch_size = 32;交叉验证对折n_splits = 5;衰减率gamma = 0.7;初始学习率为0.001。
4.2. 精度评价体系
为全面评估所设计的卷积神经网络(CNN)模型在点云分类任务中的性能,本文采用了多种主流的分类精度评价指标,包括总体分类精度(Overall Accuracy, OA)、混淆矩阵(Confusion Matrix)、识别率(Recall)。这些指标不仅能够反映模型的整体分类能力,还可揭示其在不同类别之间的识别优劣。
总体分类精度(Overall Accuracy, OA)是衡量分类模型在整个测试样本上正确分类的能力,定义为:
(1)
式(1)中,nii表示混淆矩阵中第i类被正确分类的样本数量,k表示分类的总类别数,N是总样本数量。该指标反映了模型在所有类别中的平均表现,是衡量分类性能的最常用和直观的标准之一。
识别率(Recall)表示模型在所有真实正类中正确识别出的比例,定义为:
(2)
式(2)中,FN表示假负例(False Negative)。识别率高说明模型能够识别出更多真实属于该类的样本,漏判较少。
混淆矩阵用于统计模型分类结果的正确与否情况。对于多分类任务,混淆矩阵是一个k × k的方阵,第i行第j列的元素表示真实类别为i而被预测为类j的样本数。通过混淆矩阵可以进一步计算各类别的识别率与误判情况,从而分析模型的偏向性与薄弱环节。
4.3. 数据分类结果
将训练数据集导入CNN中进行训练,进而利用训练出的模型对测试数据集进行测试,总体分类精度(Overall Accuracy, OA)为93.6599%,得到类别混淆矩阵如表4所示,分类精度表如5所示,并对测试集的人工标注和CNN分类效果进行可视化,结果如图5和图6所示;从实验结果中可看出,地面点的分类效果较好,识别率(recall)为94.88%,但仍有约6%的样本被误判,例如被误分类为建筑物的点数为931,这可能由于某些低矮平房的屋顶与地面的高差较小,或是部分水泥道路的斜坡与坡屋顶特征相似,导致地面与建筑物点发生了混淆,此外也可能是局部点云密度不高导致纹理缺失等原因导致;建筑物点的分类精度相对较低,识别率(recall)为86.52%,是三个类别中最容易被误判的,被误分类为植被比例较大(2131个),这表明可能存在爬墙植物、绿化平台等混合特征,与地面点混淆较少,表明模型较好地区分了底部结构与平坦地面;植被点的分类非常优秀,识别率(recall)达到了99.55%,几乎没有被误分类,表明模型对这类非规则结构(如树冠、灌木)提取特征效果较好,卷积神经网络的层次特征提取具有明显优势。
表4. 类别混淆矩阵表
|
预测 |
真实 |
类别 |
地面 |
建筑物 |
植被 |
地面 |
24,031 |
931 |
314 |
建筑物 |
361 |
17,508 |
2131 |
植被 |
67 |
0 |
14,656 |
表5. 分类精度表
类别 |
识别率(recall) |
总体分类精度OA |
地面 |
94.88% |
93.6599% |
建筑物 |
86.52% |
植被 |
99.55% |
图5. 测试集原始人工标注图
图6. 测试集CNN分类效果图
5. 结论与展望
本文针对无人机LiDAR点云地物分类问题,提出了一种基于改进的卷积神经网络模型,通过对四川某地区采集的点云数据进行人工标注,实现了地面、建筑和植被三种地物的点云分类。利用所设计的CNN模型对人工构建的数据集进行模型训练及测试,并不断对模型参数进行优化,总体分类精度(OA)可达93.6599%。实验结果表明,本文所设计的改进CNN能够自动学习点云的空间分布特征和形状模式,减少了人工特征设计的工作量,并有效提升了分类的泛化能力和鲁棒性,利用分类结果提取的地面点和植被点可用于高精度地形重建和森林资源监测等,在城市规划、环境保护等领域具有重要的应用价值。
未来工作可在以下方面继续优化:一方面,可尝试更深或更复杂的网络结构(如引入残差网络、图神经网络等)进一步提升分类精度;另一方面,可结合多源数据(如光学影像、真彩色信息)实现点云与影像数据的融合分类,以充分利用多模态信息。此外,还可研究在线增量学习和模型自适应技术,提高算法在不同区域和不同扫描条件下的迁移能力。总之,深度学习技术在点云分类领域展现出巨大潜力,值得深入探索和应用。
Conflicts of Interest
The author declares no conflicts of interest.
Appendix (Abstract and Keywords in Chinese)
基于卷积神经网络的LiDAR点云地物分类研究
摘要:随着无人机LiDAR技术的发展,大规模高精度点云数据在地形地物分类与提取中逐渐发挥着重要作用。本文针对四川某地的地表无人机LiDAR点云数据,以地面点、建筑物点、植被点为类别,构建了基于改进型卷积神经网络(CNN)的点云分类模型。首先,对原始点云的类别进行人工标注,制作训练集和测试集,并提取每个点的几何和强度等特征,然后使用PyTorch构建多层CNN模型,对点云进行端到端分类训练和模型测试。实验结果显示总体分类精度(OA)可达93.6599%,尤其是对地面点和植被点的分类效果最好。
关键词:LiDAR,点云,地物分类,卷积神经网络