人工智能 标签

使用MTCNN实现人脸检测

  |   0 评论   |   0 浏览   |   夜雨飘零

MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。和很多处理图像问题的卷积神经网络模型,该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。

PPASR语音识别(入门级)

  |   0 评论   |   0 浏览   |   夜雨飘零

在数据预处理方便,本项目主要是将音频执行梅尔频率倒谱系数(MFCCs)处理,然后在使用出来的数据进行训练,在读取音频时,使用 librosa.load(wav_path, sr=16000)函数读取音频文件,再使用 librosa.feature.mfcc()执行数据处理。MFCC全称梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,主要计算方式分别是预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT),最后提取语音数据特征和降低运算维度。本项目使用的全部音频的采样率都是16000Hz,如果其他采样率的音频都需要转为16000Hz,create_manifest.py程序也提供了把音频转为16000Hz。

人脸关键点检测

  |   0 评论   |   0 浏览   |   给我丶鼓励

在这个任务是对坐标进行回归,使用均方误差(Mean Square error )损失函数 paddle.nn.MSELoss() 来做计算,飞桨 2.0 中,在 nn 下将损失函数封装成可调用类。这里使用 paddle.Model 相关的 API 直接进行训练,只需要定义好数据集、网络模型和损失函数即可。

使用模型代码进行 Model 实例生成,使用 prepare 接口定义优化器、损失函数和评价指标等信息,用于后续训练使用。在所有初步配置完成后,调用 fit 接口开启训练执行过程,调用 fit 时只需要将前面定义好的训练数据集、测试数据集、训练轮次(Epoch)和批次大小(batch_size)配置好即可。

使用卷积神经网络进行图像分类

  |   0 评论   |   0 浏览   |   给我丶鼓励

本案例将会使用飞桨提供的API完成数据集的下载并为后续的训练任务准备好数据迭代器。cifar10数据集由60000张大小为32 * 32的彩色图片组成,其中有50000张图片组成了训练集,另外10000张图片组成了测试集。这些图片分为10个类别,将训练一个模型能够把图片进行正确的分类。

基于insightface实现的人脸识别和人脸注册

  |   0 评论   |   0 浏览   |   夜雨飘零

然后开始编写人脸识别和人脸注册工具类,使用 insightface.app.FaceAnalysis()可以获取模型对象,这里包含了三个模型,首先是人脸检测模型,然后是人脸特征提取模型,和最后的性别年龄识别模型。使用 model.prepare()可以配置 ctx_id指定使用哪一块GPU,如果是负数则是使用CPU执行预测,nms配置的是人脸检测的阈值。load_faces()函数是加载人脸库中的人脸,用于之后的人脸识别对比。

使用tensorflow.js在浏览器中实现人脸识别

  |   0 评论   |   0 浏览   |   给我丶鼓励

如果您是那种希望尽快入门的男孩(或女孩),则可以跳过本节,直接进入代码。但是为了更好地了解face-api.js中用于实现人脸识别的方法,我强烈建议您继续学习,因为我经常被问到这一点。
为简单起见,我们实际上要实现的目标是,识别出具有其面部图像的人,例如 输入图像。我们这样做的方法是为我们要识别的每个人提供一张(或多张)图像,并标上人名,例如参考数据。现在我们将输入图像与参考数据进行比较,找到最相似参考图片。如果两个图像足够相似,我们将输出人名,否则我们输出 '未知'。
听起来像是个计划!但是,仍然存在两个问题。首先,如果我们有一个显示多个人的图像并且我们想要识别所有这些人怎么办?其次,我们需要能够为两个面部图像获得这种相似性度量,以便对其进行比较...

基于PaddlePaddle实现的目标检测模型SSD

  |   0 评论   |   0 浏览   |   夜雨飘零

SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO V1又有明显的mAP优势。本开源是基于PaddlePaddle实现的SSD,包括MobileNetSSD,MobileNetV2SSD,VGGSSD,ResNetSSD。使用的是VOC格式数据集,同时提供了预训练模型和VOC数据的预测模型。

在Android实现双目测距

  |   6 评论   |   0 浏览   |   夜雨飘零

在上一章我们介绍了《双目摄像头测量距离》,在这个基础上,我们来了解如何在Android上使用双目测距算法。通过本教程,你不仅掌握如何在Android中使用SBM等双目测距算法,顺便也了解到如何在Android Studio配置OpenCV,通过使用OpenCV可以在Android中实现很多图像处理的功能。

双目摄像头测量距离

  |   1 评论   |   0 浏览   |   夜雨飘零

在计算机视觉中,可以通过双目摄像头实现,常用的有BM 算法和SGBM 算法等,双目测距跟激光不同,双目测距不需要激光光源,是人眼安全的,只需要摄像头,成本非常底,也用于应用到大多数的项目中。本章我们就来介绍如何使用双目摄像头和SGBM 算法实现距离测量。

使用PaddlePaddle实现声纹识别

  |   0 评论   |   0 浏览   |   夜雨飘零

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于PaddlePaddle实现声音分类》
。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。

使用Tensorflow实现声纹识别

  |   8 评论   |   0 浏览   |   夜雨飘零

本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。