基于Kersa实现的声纹识别
本项目是基于 VGG-Speaker-Recognition 开发的,本项目主要是用于声纹识别,也有人称为说话人识别。本项目包括了自定义数据集的训练,声纹对比,和声纹识别。
本项目是基于 VGG-Speaker-Recognition 开发的,本项目主要是用于声纹识别,也有人称为说话人识别。本项目包括了自定义数据集的训练,声纹对比,和声纹识别。
今天来水一片文章,基于开源的 Pyramidbox 大规模人脸检测编写的 PaddlePaddle 教程,为了方便训练预测,本教程做了一定的修改。这个模型虽然大,但是符合大规模人群中也可以准确地检测到人脸,就是遮挡比较严重也能正确检测。
PyramidBox 是一种基于 SSD 的单阶段人脸检测器,它利用上下文信息解决困难人脸的检测问题。如下图所示,PyramidBox 在六个尺度的特征图上进行不同层级的预测。该工作主要包括以下模块:LFPN、Pyramid Anchors、CPM、Data-anchor-sampling。
MediaPipe 是用于构建跨平台多模态应用 ML 管道的框架,其包括快速 ML 推理,经典计算机视觉和媒体内容处理(如视频解码)。下面是用于对象检测与追踪的 MediaPipe 示例图,它由 4 个计算节点组成:PacketResampler 计算器;先前发布的 ObjectDetection 子图;围绕上述 BoxTrakcing 子图的 ObjectTracking 子图;以及绘制可视化效果的 Renderer 子图。
CrowdNet 模型是 2016 年提出的人流密度估计模型,论文为《CrowdNet: A Deep Convolutional Network for DenseCrowd Counting》,CrowdNet 模型主要有深层卷积神经网络和浅层卷积神经组成,通过输入原始图像和高斯滤波器得到的密度图进行训练,最终得到的模型估计图像中的行人的数量。当然这不仅仅可以用于人流密度估计,理论上其他的动物等等的密度估计应该也可以。
SSD,全称 Single Shot MultiBox Detector,是 Wei Liu 在 ECCV 2016 上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比 Faster RCNN 有明显的速度优势,相比 YOLO V1 又有明显的 mAP 优势。本开源是基于 PaddlePaddle 实现的 SSD,包括 MobileNetSSD,MobileNetV2SSD,VGGSSD,ResNetSSD。使用的是 VOC 格式数据集,同时提供了预训练模型和 VOC 数据的预测模型。
本章介绍使用 Python 实现场景的几种排序算法。分别有冒泡算法、快速排序、插入排序、希尔排序、选择排序、堆排序、归并排序、计数排序、桶排序、基数排序。
在上一章我们介绍了《双目摄像头测量距离》,在这个基础上,我们来了解如何在 Android 上使用双目测距算法。通过本教程,你不仅掌握如何在 Android 中使用 SBM 等双目测距算法,顺便也了解到如何在 Android Studio 配置 OpenCV,通过使用 OpenCV 可以在 Android 中实现很多图像处理的功能。
在计算机视觉中,可以通过双目摄像头实现,常用的有 BM 算法和 SGBM 算法等,双目测距跟激光不同,双目测距不需要激光光源,是人眼安全的,只需要摄像头,成本非常底,也用于应用到大多数的项目中。本章我们就来介绍如何使用双目摄像头和 SGBM 算法实现距离测量。
本章介绍如何使用 PaddlePaddle 实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于 PaddlePaddle 实现声音分类》
。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。
本章介绍如何使用 Tensorflow 实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于 Tensorflow 实现声音分类》。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。
本章我们来介绍如何使用 PaddelPaddle 训练一个区分不同音频的分类模型,例如你有这样一个需求,需要根据不同的鸟叫声识别是什么种类的鸟,这时你就可以使用这个方法来实现你的需求了。
本章我们来介绍如何使用 Tensorflow 训练一个区分不同音频的分类模型,例如你有这样一个需求,需要根据不同的鸟叫声识别是什么种类的鸟,这时你就可以使用这个方法来实现你的需求了。话不多说,来干。
目前大部分的手机都有语音助手,例如小米手机的小爱同学,VIVO 的小 V 等等,通过智能助手我们可以快速询一些资讯或者操作手机,例如询问天气,发送微信给你的好友等等。这篇文章就来介绍如何使用 AIUI 快速搭建类似这样的智能助手。
我们在 Android 应用做语音识别的时候,一般是用户唤醒之后开始说话。当用户超过一定的时候没有说话,就停止录音,并把录音发送到语音识别服务器,获取语音识别结果。本教程就是解决如何检测用户是否停止说话,我们使用的是 WebRTC 架构的源代码中的 vad 代码实现的。
这个专栏是深度学习框架 PaddlePaddle Fluid 版本的教程,开发环境主要是 PaddlePaddle 1.6.0 和 Python 3.5。内容涉及了 PaddlePaddle 的安装,并从简单执行 1+1 运算例子入门 PaddlePaddle,借助各个实例一步步入手 PaddlePaddle,通过本系列教程你可以学到如何使用 PaddlePaddle 搭建卷积神经网络,循环神经网络,并能够训练自定义数据集,最后还可以部署到自己的实际项目中。
这个专栏是深度学习框架 PaddlePaddle V2 版本的教程,开发环境主要是 PaddlePaddle 0.11.0 和 Python 2.7。内容涉及了 PaddlePaddle 的安装,并从手写数据集识别入手,借助实例一步步入手 PaddlePaddle,通过实例掌握 PaddlePaddle 的使用,从零进入人工智能领域。
在深度学习中,我们经常会使用到 sigmoid 函数作为我们的激活函数,特别是在二分类上,sigmoid 函数是比较好的一个选择,以下就是 sigmoid 函数的公式:
现在越来越多的手机要使用到深度学习了,比如一些图像分类,目标检测,风格迁移等等,之前都是把数据提交给服务器完成的。但是提交给服务器有几点不好,首先是速度问题,图片上传到服务器需要时间,客户端接收结果也需要时间,这一来回就占用了一大半的时间,会使得整体的预测
如果读者使用过百度等的一些图像识别的接口,比如百度的细粒度图像识别接口,应该了解这个过程,省略其他的安全方面的考虑。这个接口大体的流程是,我们把图像上传到百度的网站上,然后服务器把这些图像转换成功矢量数据,最后就是拿这些数据传给深度学习的预测接口,比如是
我们在第六章介绍了生成对抗网络,并使用生成对抗网络训练 mnist 数据集,生成手写数字图片。那么本章我们将使用对抗生成网络训练我们自己的图片数据集,并生成图片。在第六章中我们使用的黑白的单通道图片,在这一章中,我们使用的是 3 通道的彩色图。