发展状况,大数据分析技术有哪些方面的应用

  

  

非结构化数据的大数据处理

  

  

  数据包括文字、图片、音频、视频等,属于非结构化数据,计算机无法直接识别。摄像机信息需要经过预处理、解压缩、解码、去重、合并、提取、清洗、分段nlp,将图片、音频、视频等媒体信息转换成结构化数据进行聚类识别。均值漂移算法是算法中的专家。   

  

  识别相机中的物体需要AI识别,除了分类还可以跟踪均值漂移。其实跟踪也是分类的做法。   

  

  在10,000张图片中,我们假设要跟踪一辆有车牌号的红色汽车。其实我们可以用mean shift找出所有图片中相似的红色分类图片,可能涉及100个摄像头。一次分类之后,我们就可以利用车牌进行精准搜索了。这样,即使他们中的许多人没有准确的车牌定位,我们也能近似出相机中出现的粗略蓝图。   

  

  

spark map reduce

  

  

  使用spark实现均值平移并行采用map Reduce的思想,用map计算所有样本点与基准点之间的距离,然后用Reduce分类的均值计算一个新的基准点。当然,数据必须转换成特征向量,并分割成多个rdd的对象数据。map对每个RDD的数据进行分类,reduce操作汇总数据以计算每个基准点。Spark框架会自动完成并行计算。实际上,数据集被分布到不同的节点来执行聚类计算。   

  

  在这里,特征向量的定义是设计。比如颜色也是一个特点。   

  

  

使用python

  

  

  在大数据应用中,python经常被用来生成数据,作为测试算法的工具。下面是python均值漂移算法的一个例子。使用make_blobs生成数据,当然也可以使用random生成数据。   

  

  导入numpy为npfrom sklearn.cluster导入MeanShift,estimate _ bandwidth from sk learn . datasets导入make _ blobs # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #生成随机数据中心=[[0,1],[-1,-1],[1,-1],[2,2]] x,_=make _ blobs (n _ samples=10000,centers=centers, cluster _ STD=0.6)## # # # # # # # # # # # # # # # # # # # # # # # # # # #分位数=0.2,n_samples=500)ms=MeanShift(带宽=带宽, bin _ seeding=True)ms . fit(X)labels=ms . labels _ cluster _ centers=ms . cluster _ centers _ labels _ unique=NP . unique(labels)n _ clusters _=len(labels _ unique)print('估计的聚类数:% d ' % n _ clusters _)# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # )plt.plot( cluster_center[0],cluster_center[1],' o ',markerfacecolor=col,markeredgecolor='k ',markersize=14,)plt.title('估计的聚类数:% d ' % n _ clusters _)PLT . show()摄像头大数据分析跟踪均值漂移算法-spark和python   

  

  可以看到,我们随机生成了四个标准差数据,同时也得到了四个聚类,符合我们的预期。在实际应用中,我们使用真实数据而不是随机数据。   

  

  其实均值漂移跟踪算法的原理也是明白的。上图中的四个类之一是蓝色对象。如果蓝色物体移动,其平均偏心的结果基本不变,因此可以跟踪,但如果物体反转,结果就不那么准确了。   

相关文章