发展状况,大数据分析技术有哪些方面的应用

2022-05-30 11:12:14 投资策略

非结构化数据的大数据处理

　　数据包括文字、图片、音频、视频等，属于非结构化数据，计算机无法直接识别。摄像机信息需要经过预处理、解压缩、解码、去重、合并、提取、清洗、分段nlp，将图片、音频、视频等媒体信息转换成结构化数据进行聚类识别。均值漂移算法是算法中的专家。　　

　　识别相机中的物体需要AI识别，除了分类还可以跟踪均值漂移。其实跟踪也是分类的做法。　　

　　在10，000张图片中，我们假设要跟踪一辆有车牌号的红色汽车。其实我们可以用mean shift找出所有图片中相似的红色分类图片，可能涉及100个摄像头。一次分类之后，我们就可以利用车牌进行精准搜索了。这样，即使他们中的许多人没有准确的车牌定位，我们也能近似出相机中出现的粗略蓝图。　　

spark map reduce

　　使用spark实现均值平移并行采用map Reduce的思想，用map计算所有样本点与基准点之间的距离，然后用Reduce分类的均值计算一个新的基准点。当然，数据必须转换成特征向量，并分割成多个rdd的对象数据。map对每个RDD的数据进行分类，reduce操作汇总数据以计算每个基准点。Spark框架会自动完成并行计算。实际上，数据集被分布到不同的节点来执行聚类计算。　　

　　在这里，特征向量的定义是设计。比如颜色也是一个特点。　　

使用python

　　在大数据应用中，python经常被用来生成数据，作为测试算法的工具。下面是python均值漂移算法的一个例子。使用make_blobs生成数据，当然也可以使用random生成数据。　　

　　导入numpy为npfrom sklearn.cluster导入MeanShift，estimate _ bandwidth from sk learn . datasets导入make _ blobs # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #生成随机数据中心=[[0，1]，[-1，-1]，[1，-1]，[2，2]] x，_=make _ blobs (n _ samples=10000，centers=centers， cluster _ STD=0.6)## # # # # # # # # # # # # # # # # # # # # # # # # # # #分位数=0.2，n_samples=500)ms=MeanShift(带宽=带宽， bin _ seeding=True)ms . fit(X)labels=ms . labels _ cluster _ centers=ms . cluster _ centers _ labels _ unique=NP . unique(labels)n _ clusters _=len(labels _ unique)print('估计的聚类数：% d ' % n _ clusters _)# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # )plt.plot( cluster_center[0]，cluster_center[1]，' o '，markerfacecolor=col，markeredgecolor='k '，markersize=14，)plt.title('估计的聚类数：% d ' % n _ clusters _)PLT . show() 摄像头大数据分析跟踪均值漂移算法-spark和python