HÌNH ẢNH NGƯỜI NỔI TIẾNG CELEBRITIES

Apple áp dụng nhận diện khuôn phương diện để mở khóa thiết bị di động; Facebook sử dụng hệ thống gán tag mặt bằng hữu để liên kết cộng đồng; các công ty tài chính nhăm nhe sử dụng nhận diện mặt để xác thực giao dịch thay mang đến thẻ cứng; sân bay, đơn vị ga áp dụng nhận diện khía cạnh để kiểm soát an ninh; trường học, doanh nghiệp muốn áp dụng các hệ thống điểm danh, chấm cộng auto thông qua xác xắn khuôn mặt,...

Bạn đang xem: Hình ảnh người nổi tiếng celebrities

Đó là đa số ví dụ nổi bật cho sự vạc triển khỏe mạnh và thông dụng của câu hỏi face recognition hay nhận diện mặt tín đồ trong thực tế.

Đã có không ít nghiên cứu giúp về vấn đề này, nhiều mô hình được gửi ra, những pre-trained mã sản phẩm được public thuộc với những bộ tài liệu mặt người công khai minh bạch miễn phí. Các tác dụng đạt được bên trên bộ dữ liệu này là cực tốt thế nhưng nhiều quan sát cho thấy thêm việc áp dụng chúng lên những bài toán thực tiễn của nước ta lại chưa được giỏi như vậy. Với mục tiêu xây dựng một dataset dành riêng cho mục đích nghiên cứu, buổi tối ưu hóa bài toán nhận diện khía cạnh người cho người Việt, mình xin được giới thiệu một mini-dataset VN-celebrity với trên 23k khuôn khía cạnh của hơn 1000 bạn Việt. Mong muốn bộ dữ liệu này sẽ giao hàng được nhu cầu nghiên cứu và phân tích của các bạn và nhiều hơn nữa nữa các pre-trained mã sản phẩm dành riêng cho những người Việt được public cùng kể thừa.

Qua bài viết này, bản thân sẽ giới thiệu về giải pháp mà bản thân thu thập, tổng thích hợp dữ liệu. Qua đó bạn có thể xây dựng 1 bộ dữ liệu cho riêng mình hoặc góp sức thêm vào vào bộ dữ liệu này giúp nó càng ngày mở rộng.(Hiện tại, bộ tài liệu đã được public hoàn toàn cho mục đích học tập và phân tích tại đây.)

Xây dựng list tên bạn nổi tiếng

Trước khi tiến hành tích lũy bộ tài liệu khuôn mặt người việt cho quá trình nghiên cứu, điều mình băn khoăn nhất là sự việc quyền riêng tứ và phiên bản quyển hình ảnh. Nguồn tài liệu mặt tín đồ lớn nhất có thể tiếp cận và tích lũy mình cho rằng mạng xóm hội, tuy nhiên, trên đây cũng là điểm cấm do vấn đề về quyền riêng biệt tư. Vấn đề sử dụng các đoạn script vào trang cá thể của tín đồ khác kéo ảnh và thông tin của mình về sử dụng là không được phép( tuy vậy mình biết gồm những doanh nghiệp đang áp dụng nguồn tài liệu này là chủ yếu). Theo như khám phá một thời gian, mình theo luồng thông tin có sẵn nếu chỉ thu thập nhằm mục đích nghiên cứu, mình hoàn toàn có thể tiếp cận các nguồn tài liệu mở hơn đó đó là Google Image(mặc cho dù số hình ảnh xác định được danh tính của nó ít hơn không ít so cùng với mạng làng hội). Dĩ nhiên, nếu như người xuất hiện trong ảnh yêu cầu mình ko được áp dụng hình ảnh của họ nữa, đây là quyền của họ.

Để hoàn toàn có thể lấy được ảnh đã được khẳng định danh tính từ bỏ Google Image(chủ yếu hình ảnh từ các báo), mình bắt buộc một danh sách những tên để triển khai Search. Những chiếc tên này phải đủ nổi để mình có thể tìm kiếm tên của mình một giải pháp dễ dàng. Tôi đã sử dụng Wikipedia vn để định nghĩa danh sách này vì các cái tên được viết trên phía trên đủ nổi nhằm mình hoàn toàn có thể dễ dàng đưa ra họ.

Nằm trong cùng một gốc rễ với Wikipedia là kho tàng trữ Wikidata, một cơ sở dữ liệu thứ cấp cho tự do, đa ngôn ngữ, chuyên thu thập dữ liệu có kết cấu nhằm cung cấp cho những dự án không giống thuộc nền tảng Wikimedia. Thực thụ trong thời hạn gần đây, mình sử dụng dữ liệu từ căn nguyên Wiki hơi nhiều.

Để rước được tài liệu tên người việt nam trên Wikipedia một cách dễ dàng và đơn giản nhất, bạn chỉ cần vào Wikidata Query, triển khai 1 tróc nã vấn như sau:

*

Sau đó tải kết quả trả về bên dưới dàng Json hoặc CSV.

Tuy nhiên, mình sự hiểu biết về SPARQL và mình thích code một ít hơn.

Đầu tiên setup thư viện nên thiết.

pip install sparqlwrapperTiếp theo, mình triển khai 1 tróc nã vấn(bạn cũng rất có thể sinh đoạn code này trên giao diện của Wikidata Query bằng bài toán click vào phần mã nguồn trên bảng kết quả).

from SPARQLWrapper import SPARQLWrapper, JSONendpoint_url = "https://query.wikidata.org/sparql"query = """SELECT ?person ?personLabel WHERE SERVICE wikibase:label bd:serviceParam wikibase:language "vi, en". ?person wdt:P31 wd:Q5. ?person wdt:P27 wd:Q881."""def get_results(endpoint_url, query): sparql = SPARQLWrapper(endpoint_url) sparql.setQuery(query) sparql.setReturnFormat(JSON) return sparql.query().convert()results = get_results(endpoint_url, query)list_name_celeb = <>for result in results<"results"><"bindings">: list_name_celeb.append(result<"personLabel"><"value">)Kết quả mình thu được cũng là 1 trong những danh sách tên người có trên Wikipedia.

Phân tích code một chút.

SERVICE wikibase:label bd:serviceParam wikibase:language "vi, en". Mình lấy những chiếc tên từ bỏ Wikipedia giờ Việt cùng tiếng Anh thay vì chưng tất cả.

?person wdt:P31 wd:Q5.?person wdt:P27 wd:Q881.Trong WIkidata, có thể hiểu các giá trị bắt đầu P là chỉ trực thuộc tính, Q là giá chỉ trị của những thuộc tính đó. P31 là 1 phân một số loại mà đối tượng người dùng này là 1 trong thành viên hoặc một ví dụ chũm thể, là 1 trong những thực thể của nhã lớp nào đó (đối tượng thường có nhãn tên ham mê hợp) cùng Q5 đó là nhãn lớp của nó, nhãn lớp human. Tương tự, ở trong tính P27 ở đó là chỉ đến quốc tịch, Q881 là Việt Nam.

Xem thêm: Mặt Tròn Đeo Kính Râm Nào Hợp, 10 Mẫu Gọng Kính Cận Hợp Khuôn Mặt Tròn

Trong tầm nã vấn này, mình lôi ra tên của không ít người tất cả quốc tịchViệt Nam sinh sống trên WIki tiếng Anh với tiếng Việt.

Để hoàn toàn có thể khai thác nhiều thông tin hơn tự WIkipedia, chắc chắn là bạn nên tò mò 1 chút về SPARQL.

Thu thập dữ liệu hình ảnh sử dụng Google Image Search

Sau khi có được danh sách người mang tên trên Wikipedia, mình bước đầu tiến hành tìm kiếm kiếm ảnh của bọn họ trên Google Image Search. Thiệt may là phần này chúng ta không đề nghị code toàn cục script crawl vì đã có 1 open source là Google Images Download. Việc sử dụng mở cửa source này khá đơn giản, các bạn chỉ cần setup theo chỉ dẫn tại trang chủ của package với chạy đoạn script sau:

from google_images_download import google_images_downloadresponse = google_images_download.googleimagesdownload()for x in tqdm(list_name_celeb): arguments = "keywords":x, "limit":50 absolute_image_paths = response.download(arguments)Sau lúc chạy đoạn code trên, bọn họ sẽ thu được một thư mục mang tên download chứa toàn bộ các thư mục con ứng với hình ảnh và thương hiệu của mọi cá nhân có trong list_name_celeb.

Lưu ý rằng, đây new chỉ là đều bức ảnh trả về dưới sự cung ứng của Google Images download với trường đoản cú khóa kèm theo, chưa thể khẳng định được kết quả trả về là của bạn đó hoặc bức ảnh chỉ có bạn đó. Ta cần phải có một bước kiểm tra lại. Ví dụ như hình ảnh thu được của ca sĩ Tóc Tiên như hình dưới đây:

*

Ở đây mỗi cá nhân mình chỉ lôi ra 50 ảnh, bạn cũng có thể lấy các hơn bằng cách thay đổi giá trị của ngôi trường limit.

Face detection: phát hiện cùng trích xuất phương diện trong ảnh

Đến giờ, bọn họ đã đã đạt được rất nhiều ảnh của đa số nhân vật dụng được mang tên trong list_name_celeb. Mặc dù nhiên, như đã đề cập ở trên, dữ liệu này còn có nhiễu, rất nhiều nhiễu. Ảnh trả về hoàn toàn có thể là của một bạn khác hoặc có tương đối nhiều hơn một người trong ảnh.

Mục đích của bọn họ cũng là thành lập một cỗ dataset về mặt bạn để nghiên cứu các việc như Face recognition, Face verification,... Nên bọn họ chỉ để ý đến phần mặt tín đồ có trong những bức ảnh.

Để trích xuất ra phần khuôn mặt trong các bức ảnh, những pre-trained model cho vấn đề face detection được xem như xét cùng mình đã ra quyết định sử dụng FaceNet"s MTCNN của David Sandberg.

Phần khuôn mặt trong hình ảnh được trích xuất ra cùng theo đổi form size về form size 128∗128128*128128∗128 pixel và 182∗182182*182182∗182 pixel, phần lề xung quanh mặt được mang thêm 10 px nữa cho từng ảnh.

Cuối thuộc là công đoạn khử nhiễu. Dịp này, sức bạn đã được đổ ra với trọng trách là xóa đi hồ hết bức hình chưa hẳn của cùng một người trong từng thư mục. Việc này mất không ít thời gian với nhàm chán.

Tuy nhiên, công dụng thu về thì luôn luôn làm ta trở lên trên phấn trấn. Sau quy trình khử nhiễu, hơn 23 nghìn ảnh đã được tích lũy trên hơn 1000 người. Số lượng này cũng đáng chú ý và có giá trị nghiên cứu. Bộ tài liệu này giống như như bộ tài liệu Labeled Faces in the Wild(LFW) với hơn 13 nghìn hình ảnh của 5749 người, tuy vậy nó nhiều dữ liệu hơn với nó dành riêng cho những người Việt.

Cuối cùng, chúng ta sẽ phần tích một chút ít về bộ dữ liệu mới này.

Tổng kết

Bộ tài liệu thu được bao hàm 23105 khuôn khía cạnh của 1020 người xuất hiện trên Wikipedia Việt Nam. Trong vừa đủ 1 bạn là có khoảng gần 20 ảnh, có 7 người có số ảnh ít nhất là 2 ảnh, người nhiều nhất bao gồm 105 ảnh. Số lượng phân tía như sau:

*

Một điểm lưu ý nữa của bộ tài liệu này cần thân thiện tới kia là hình ảnh thu thập của cùng người hoàn toàn có thể ở những thời kỳ cực kỳ khác nhau, hoàn cảnh rất không giống nhau, có ảnh lúc trẻ con có ảnh lúc già, có hình ảnh đen white có hình ảnh màu. Dưới đó là một số ví dụ(theo thiết bị tự từ trái qua yêu cầu từ trên xuống bên dưới là Đại tướng tá Võ Nguyên Giáp- đơn vị thơ Huy Cận- anh hùng Phạm Tuân- Xuân Bắc- Vân Dung- Xuân Hinh):

*
*
*
*
*
*

Bộ dữ liệu cũng sẽ được sử dụng thành công xuất sắc trong một cuộc thi về thừa nhận diện người lừng danh do AIVIVN tổ chức vào tháng 3/2019. Sau đây là tác dụng của cuộc thi.

*

Hiện tại, bộ tài liệu đã được public trọn vẹn tại đây cho mục tiêu học tập và nghiên cứu và phân tích các bài toán liên quan tới dấn diện phương diện người cho tất cả những người Việt.

Mình hy vọng, cùng với bộ tài liệu này kết hợp với các kỹ năng như transfer learning, fine-tuning,... để giúp đỡ bạn đạt được kết quả tốt hơn cho các bài toán dành riêng riêng cho người Việt.