該論文由港中文的孫祎、王曉剛、湯曉鷗提出,應該是最早使用 CNN 進行人臉關鍵點檢測的論文之一了。 在論文中,作者設計了 Three-level cascaded CNNs 用于人臉關鍵點檢測(5 Points):Left Eye Center (LE),Right Eye Center (RE),Nose Tip (N),Left Mouth Corner (LM),Right Mouth Corner (RM)。 在模型的各個 level 中,模型會對各個人臉關鍵點做多次預測,取其平均值。
優點是快和多任務,不僅使用簡單的端到端的人臉關鍵點檢測方法,而且能夠做到去分辨人臉的喜悅、悲傷、憤怒等分類標簽屬性,這樣跟文章的標題或者說是文章的主題貼合——多任務。 我們可以從下圖看到,缺點容易漂移,也就是對于人臉關鍵點的檢測上面,并不能做到很好的精度或者很高的精度,因此有待進一步修改網絡的雛形。 另外一點是對于人臉關鍵點的檢測上,檢測關鍵點小,如果增加其人臉關鍵點的檢測,或降低精度,這是神經網絡模型的通病。
如果采取更大的網絡,特征點的預測會更加準確魯棒,但耗時多,為了在速度和性能上做找到平衡點,使用較小的網絡,并采用級聯的思想,先進行粗檢測,然后微調特征點位置。 下面是最終預測人臉特征點的landmarks_detection.py,其中人臉檢測采用的是級聯CNN或者opencv人臉檢測,在人臉檢測的基礎上預測人臉特征點位置,并將預測的相對位置轉換成圖像上的絕對坐標。
版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。 人臉特征點檢測(Facial landmark detection),即人臉特征點定位、人臉對齊 (Face Alignment),是在人臉檢測的基礎上進行的,對人臉上的特征點例如嘴角、眼角等進行定位。