Cách Tạo Avatar AI Nói Chuyện Dễ Dàng Và Miễn Phí

 Bạn có thể đã từng nhìn thấy những avatar AI nói chuyện trên Youtube, Tiktok hay những trang mạng xã hội khác, chuyển động trông rất thật và tự hỏi "Họ làm điều đó như thế nào?" Đó là câu hỏi mà nhiều người rất muốn biết. Trong bài viết này sẽ tiết lộ toàn bộ quy trình từng bước để tạo Avatar Ai nói chuyện, giúp bạn không phải đoán mò hay lãng phí thời gian vào những công cụ không hiệu quả. 

1. Tạo Hình Ảnh Nhân Vật AI

Khởi đầu với ý tưởng: Tất cả bắt đầu bằng một lời nhắc (prompt) chi tiết, nhất quán và đầy cá tính. Chỉ cần mô tả tầm nhìn của bạn và để AI làm phần còn lại. Nhân vật của bạn sẽ trở nên sống động theo phong cách bạn muốn.

Thêm chuyển động: Bây giờ, hãy thêm chuyển động cho nhân vật. Bạn sẽ cần một lời nhắc với các biểu hiện chuyển động và cảm xúc tinh tế.

Tạo giọng nói có hồn: Không chỉ vẻ ngoài, giọng nói chính là thứ mang lại tâm hồn, sự ấm áp và khiến nhân vật trở nên chân thực.

Đồng bộ hóa: Cuối cùng, khi giọng nói được ghi lại, đã đến lúc đồng bộ mọi thứ: chuyển động, thời gian, cảm xúc. 

Lựa chọn công cụ tạo hình ảnh:

Midjourney vs. GPT-4o: Bạn có thể tạo hình đại diện của mình trước khi GPT-4o, ngoài ra cbạn có thể sử dụng Midjourney cũng là một lựa chọn tốt.

Tính nhất quán của Midjourney: Khi bạn tạo một nhân vật để sử dụng lâu dài, Midjourney mang lại sự vượt trội về phong cách, chi tiết và tính nhất quán. Bạn có thể thay đổi trang phục, kiểu tóc mà khuôn mặt vẫn giữ nguyên.

Cách Tạo Avatar AI Nói Chuyện Dễ Dàng Và Miễn Phí

Hạn chế của GPT: Ngay cả khi bạn cố gắng chỉnh sửa chỉ một khu vực nhỏ như áo sơ mi hoặc nền, khuôn mặt vẫn thay đổi một chút. 

Công cụ "inpainting" của Midjourney: Với các công cụ "inpainting của Midjourney, có thể chọn kiểu tóc và tạo kiểu lại cho khuôn mặt đó mà khuôn mặt không hề thay đổi. Đây là yếu tố giúp hình đại diện của mình giữ nguyên trên các video khác nhau.

Cách tạo lời nhắc (prompt) cho nhân vật:

Sử dụng ChatGPT: Bạn có thể yêu cầu ChatGPT viết lời nhắc Midjourney hoàn chỉnh dựa trên ảnh tham chiếu của bạn. Chỉ cần mô tả tầm nhìn, tâm trạng, phong cách, cá tính và ChatGPT sẽ xây dựng lời nhắc cho bạn.

Tải ảnh trực tiếp lên Midjourney: Bạn có thể tải ảnh tham chiếu trực tiếp lên Midjourney và sử dụng tính năng "describe" (mô tả). Nó cung cấp một số tùy chọn lời nhắc dựa trên hình ảnh của bạn mà bạn có thể tùy chỉnh.

Sử dụng thẻ tham chiếu ký tự (CREF): Nếu bạn muốn hình ảnh mới thực sự giống với tham chiếu, hãy sử dụng thẻ --cref theo sau là URL hình ảnh.

Để lấy URL, hãy gửi ảnh tham chiếu của bạn trong cuộc trò chuyện Midjourney Discord, sau đó nhấp vào ba dấu chấm và sao chép liên kết.

Kiểm soát độ tương đồng:

Sử dụng trọng số hình ảnh (--iw) hoặc trọng số ký tự (--cw).

Lưu ý quan trọng: Không sử dụng hình ảnh của người nổi tiếng hoặc nhân vật từ các kênh YouTube AI khác làm tham chiếu để tránh các vấn đề về bản quyền. Hãy luôn tạo ra thứ gì đó độc đáo hoặc sử dụng ảnh của riêng bạn.

Để khớp chặt chẽ với hình ảnh tham chiếu, hãy thử bắt đầu với --iw 0.8 hoặc --cw 50.

Trọng số càng cao, Midjourney càng cố gắng bám sát hình ảnh tham chiếu. Nếu đẩy lên quá cao (ví dụ: --cw 100), kết quả có thể trông quá giống, khiến hình ảnh phẳng hoặc không tự nhiên.

Nếu giảm quá thấp (ví dụ: --iw 10 hoặc --cw 5), Midjourney sẽ tạo ra thứ gì đó độc đáo hơn nhưng có thể mất đi tính nhất quán theo hướng của bạn.

Bạn nên thử nghiệm vài phiên bản ở các mức độ khác nhau và chọn phiên bản đủ tương đồng để tạo cảm giác là cùng một nhân vật nhưng vẫn mới mẻ và biểu cảm.

Đảm bảo hướng nhìn và cử chỉ: Quan trọng là hình đại diện của bạn phải hướng về phía trước, nhìn thẳng vào máy ảnh.Vì vậy hãy đảm bảo đưa bàn tay và ngón tay vào hình ảnh. Chi tiết nhỏ đó sẽ tạo ra sự khác biệt lớn sau này khi tạo hoạt ảnh.

Lưu trữ và tái sử dụng: Mọi thứ bạn tạo đều được lưu lại. Khi bạn muốn thay đổi trang phục hoặc ánh sáng, bạn sẽ không phải bắt đầu lại. Đó là lý do tại sao Midjourney vẫn là công cụ sử dụng để xây dựng avatar AI, đặc biệt là những avatar mà bạn muốn sử dụng nhiều lần, như người đồng dẫn chương trình ảo hoặc gương mặt đại diện của một thương hiệu.

Chi phí Midjourney: Midjourney yêu cầu đăng ký. Tuy nhiên, bạn không cần duy trì hàng tháng

Giải pháp thay thế miễn phí - Leonardo AI:

Tạo tài khoản và chọn mô hình: Truy cập trang web của Leonardo AI và tạo tài khoản. Trong phần tạo hình ảnh, để có kết quả tốt nhất, hãy chọn mô hình "PhotoReal"  vì nó có xu hướng tạo ra những khuôn mặt giống thật hơn với ánh sáng dịu nhẹ nhàng hơn.

Chọn phong cách: Trong danh sách thả xuống phong cách, chọn thứ gì đó mang tính điện ảnh như "Cinematic" (điện ảnh) hoặc "Portrait" (chân dung) để nhân vật có vẻ ngoài chất lượng cao, mềm mại.

Tỷ lệ khung hình: Đảm bảo đặt tỷ lệ khung hình thành 16:9, đặc biệt nếu bạn dự định tạo hoạt ảnh sau này.

Cài đặt nâng cao - Seed cố định: Cuộn xuống cài đặt nâng cao và bật chế độ "Fixed Seed". Điều này giúp bạn kiểm soát tốt hơn và cho phép tạo các phiên bản mới của nhân vật mà không làm thay đổi khuôn mặt.

Lời nhắc (Prompt):

Bạn có thể nhờ ChatGPT viết hoặc tự tùy chỉnh.

Đảm bảo bao gồm các yếu tố như: vị trí nhân vật (ví dụ: ngồi ở bàn, hướng về phía trước), tông màu tổng thể (ví dụ: bình tĩnh, tự tin, thân thiện), chi tiết (ánh sáng, quần áo, góc máy ảnh).

Quan trọng nhất là các cụm từ như "bàn tay hiển thị trên bàn" hoặc "không bị biến dạng" để tránh các vấn đề về hoạt ảnh sau này.

Sử dụng Seed để duy trì tính nhất quán: Khi bạn tìm thấy giao diện ưng ý, nhấp vào ba dấu chấm trên hình ảnh và sao chép "Seed" (số hạt giống). Sau đó, dán lại vào trường "Fixed Seed". Bằng cách đó, nhân vật của bạn sẽ nhất quán nhất có thể mỗi khi bạn tạo một biến thể mới.

Thay đổi lời nhắc để tạo biến thể: Đừng sử dụng cùng một lời nhắc lặp đi lặp lại. Ngay cả những thay đổi nhỏ như điều chỉnh màu áo hoặc nền cũng giúp tạo ra hình ảnh mới mà không làm mất đi nhân vật cốt lõi.

Tải xuống hình ảnh: Khi hài lòng với kết quả, nhấp để tải xuống. Có thể mất vài lần thử để có được giao diện vừa ý, điều đó hoàn toàn bình thường. Bạn có thể tạo một nhân vật nhất quán chỉ bằng cách sử dụng tín dụng miễn phí hàng ngày của website.

2. Nâng Cao Chất Lượng Hình Ảnh (Nếu Cần)

So sánh chất lượng: Với Midjourney, bạn có thể nâng cấp hình ảnh và chất lượng rất chi tiết. Nhưng nếu sử dụng Leonardo AI, hình ảnh thường có độ phân giải thấp hơn một chút.

Xóa nền: Có rất nhiều công cụ, nhưng một trong những công cụ dễ nhất là Remove.bg. Chỉ cần tải hình ảnh lên và nó sẽ xử lý phần còn lại. Sau đó, tải xuống phiên bản trong suốt của ảnh.

Nâng cao hình ảnh bằng Canva:

Mở Canva và bắt đầu một thiết kế mới bằng kích thước hình thu nhỏ của YouTube.

Tải lên cả hai phiên bản hình ảnh: ảnh gốc và ảnh đã xóa nền.

Kéo giãn ảnh gốc để lấp đầy toàn bộ khung vẽ. Đây sẽ là cơ sở của bạn. Bạn có thể kéo các góc hoặc nhấp chuột phải vào hình ảnh và chọn "Đặt hình ảnh làm nền".

Đặt phiên bản trong suốt ngay trên đầu và căn chỉnh cẩn thận để mọi thứ khớp chính xác. Điều này giúp bạn kiểm soát nhiều hơn khi nâng cấp hoặc tinh chỉnh chi tiết sau này.

Sử dụng công cụ nâng cấp hình ảnh của Canva: Nhấp vào "Ứng dụng", nhập "Image Upscaler" vào thanh tìm kiếm và chọn công cụ nâng cấp hình ảnh. Đây là một phần của Canva Pro, vì vậy bạn có thể đăng ký dùng thử miễn phí 30 ngày để mở khóa tất cả các tính năng cao cấp.

Khi bản dùng thử có hiệu lực, bạn sẽ thấy các mức nâng cấp khác nhau: 2x, 4x, 8x, và thậm chí 16x. Bạn nên chọn 16x để có kết quả sắc nét nhất, nhưng bạn có thể thử nghiệm xem cái nào phù hợp nhất với nhân vật của mình.

Sau khi nâng cấp xong, nhấp vào "Chỉnh sửa" và điều chỉnh độ sáng hoặc vùng nổi bật một chút. Điều này thực sự có thể giúp nhân vật của bạn nổi bật và trông bóng bẩy hơn.

Khi hài lòng, nhấp vào "Tải xuống". Vì bạn đang dùng thử miễn phí, hãy đảm bảo chọn độ phân giải cao nhất hiện có. Bây giờ chúng ta đã có một hình ảnh chất lượng cao, sạch sẽ sẵn sàng cho hoạt ảnh.

3. Tạo Hoạt Ảnh Cho Avatar

RunwayML: Đây là công cụ mà bạn có thể lựa chọn. Tải hình ảnh lên và nhập lời nhắc chuyển động. Bạn thậm chí có thể nhờ ChatGPT viết giúp.

Ví dụ về lời nhắc chuyển động hiệu quả: "Một người đàn ông với mái tóc nâu cắt ngắn và bộ râu được cắt tỉa, mặc áo khoác bomber màu vàng mù tạt bên ngoài áo hoodie đen, đang ngồi ở bàn làm việc. Anh ấy đang nói chuyện trực tiếp vào máy ảnh với năng lượng cao và mỉm cười ấm áp khi giải thích một chủ đề một cách nhiệt tình. Cử chỉ tay của anh ấy tự nhiên và có mục đích, thường kéo dài một hai giây mỗi lần. Thỉnh thoảng, anh ấy đưa hai tay lại gần nhau hoặc chỉ về phía bàn hoặc màn hình trước mặt, phù hợp với lời giải thích bằng lời nói của mình. Tư thế thẳng đứng và hoạt bát, hơi nghiêng về phía trước, cả hai khuỷu tay thỉnh thoảng đặt trên bàn để hỗ trợ. Máy ảnh tĩnh, không thu phóng hoặc lia máy. Ánh sáng nền phát sáng với tông màu cam và xanh mòng két rực rỡ và không thay đổi trong suốt video. Bối cảnh studio hiện đại."

Lời nhắc càng cụ thể, hoạt ảnh càng đẹp.

Tạo nhiều phiên bản hoạt ảnh: Nhiều avatar AI trực tuyến chỉ sử dụng lại cùng một hoạt ảnh ngắn lặp đi lặp lại. Điều đó phù hợp với nhiều người, nhưng bạn nên tạo ra hơn 5phiên bản khác nhau với các chuyển động và biểu cảm khác nhau. Khi chỉnh sửa trong CapCut, bạn có thể khớp cử chỉ với các từ thực tế, khiến mọi thứ trở nên tự nhiên và biểu cảm hơn. Đôi khi, một số hoạt ảnh không như ý, chỉ cần bỏ qua chúng.

Thời lượng clip: Hiện tại, Runway có tùy chọn mở rộng video, tuy nhiên nửa sau luôn giảm chất lượng, khuôn mặt đôi khi trông già hơn hoặc hơi méo. Vì vậy, bạn nên thường sử dụng các clip dài 5 hoặc 10 giây. Clip 10 giây cung cấp nhiều chuyển động hơn nhưng sử dụng 40 tín dụng(credits).

Xử lý hình mờ (watermark) trong Runway (bản miễn phí):

  • Video của bạn có thể có hình mờ nhỏ.
  • Bạn có thể nâng cấp gói, cắt bỏ hoặc xử lý ngay trong CapCut:
  • Nhập video vào CapCut.
  • Thêm hình ảnh gốc bạn đã sử dụng để tạo hoạt ảnh và đặt nó ngay phía trên video.
  • Sử dụng công cụ "Mask" (Mặt nạ) để cắt hình ảnh vừa đủ che khu vực hình mờ. Hoạt ảnh vẫn sạch và hình mờ biến mất.

Xuất video: Ở phiên bản miễn phí, đảm bảo xuất ở chế độ Full HD 1080p. Đây là độ phân giải cao nhất có sẵn mà không cần gói trả phí và trông vẫn sạch sẽ, chuyên nghiệp.

4. Đồng Bộ Hóa Giọng Nói

Đây là phần thú vị!

Chọn công cụ giọng nói AI: Bạn có thể sử dụng bất kỳ công cụ nào bạn thích, ví dụng ElvenLabs

ElevenLabs: Nếu bạn không muốn sử dụng giọng nói của chính mình, ElevenLabs cung cấp những giọng nói cực kỳ chân thực, tự nhiên và biểu cảm.

Chỉ cần nhập nội dung bạn muốn avatar nói, chọn một giọng nói bạn thích và nhấn "Generate" (Tạo). Sau vài giây, bạn sẽ có một tệp giọng nói.

Tầm quan trọng của chất lượng giọng nói: Chất lượng giọng nói thực sự quan trọng. Video có âm thanh kém có thể khiến người xem rời đi sau vài giây, tạo cảm giác không chuyên nghiệp. Vì vậy, đầu tư thời gian để có được giọng nói hoàn hảo là hoàn toàn xứng đáng.

Chỉnh sửa trong CapCut: Trước khi đồng bộ hóa, bạn cần đưa tất cả hoạt ảnh và giọng nói vào CapCut. Đây là nơi bạn có thể bắt đầu khớp các cử chỉ với từ ngữ thực tế, điều chỉnh clip để mọi thứ có cảm giác biểu cảm, tự nhiên và phù hợp với nội dung avatar đang nói. Đây chính là điều kỳ diệu thực sự – không chỉ là khẩu hình khớp mà còn là việc điều chỉnh nhịp độ và năng lượng phù hợp để bạn thực sự cảm thấy nhân vật của mình đang sống.

Đồng bộ hóa cuối cùng với DreamFace (hoặc công cụ tương tự):

Khi đã sẵn sàng, bạn cón  thể chuyển sang DreamFace (hoặc một công cụ đồng bộ môi tương tự) để đồng bộ hóa lần cuối.

Bạn tải lên video hoạt hình đã được kết hợp với giọng nói trong CapCut, và DreamFace sẽ lo phần còn lại.

Xử lý hình mờ (bản miễn phí): Nếu sử dụng phiên bản miễn phí, sẽ có một số hạn chế, bao gồm hình mờ. Để xóa, bạn có thể cắt bỏ hoặc sử dụng phương pháp tương tự trong CapCut mà bài viết đã chỉ trước đó.

Khi mọi thứ đã sẵn sàng, chỉ cần nhấn "Generate" (Tạo) và để DreamFace thực hiện. Khi hoàn tất, avatar của bạn sẽ chuyển động và cảm thấy sống động.

Hy vọng bạn có thể tạo avatar AI của riêng mình và đưa khả năng sáng tạo lên một tầm cao mới.

5. Phân Tích Chi Phí

Midjourney: Gói cơ bản 10 đô la/tháng, cung cấp hơn 200 lượt tạo hình ảnh. Bạn có thể chỉ cần dùng trong một tháng.

Leonardo AI: Có tín dụng miễn phí hàng ngày.

RunwayML: Khoảng 15 đô la/tháng (hoặc có thể có các gói khác nhau), cung cấp tín dụng đủ để tạo khoảng 17-20 hoạt ảnh ngắn (5 giây) cộng với khoảng 5 hoạt ảnh dài hơn (10 giây). Có tùy chọn nâng cấp để có chất lượng tốt hơn.

ElevenLabs: Có gói miễn phí.

CapCut, Remove.bg, DreamFace: Đều có phiên bản miễn phí với giới hạn hàng ngày (nếu có).

Nhìn chung, nếu bạn sử dụng các gói miễn phí, bạn có thể tạo avatar của mình gần như hoàn toàn miễn phí.

Lưu Ý Quan Trọng:

Điều khoản và điều kiện: Phần này thực sự quan trọng, đặc biệt nếu bạn có kế hoạch phát triển kênh và cuối cùng kiếm tiền từ nó. Luôn kiểm tra các điều khoản và điều kiện của mọi ứng dụng bạn sử dụng. Nghe có vẻ nhàm chán nhưng việc này có thể giúp bạn tránh các vấn đề bản quyền nghiêm trọng sau này.

Đừng nản lòng: Nếu có gì đó không hiệu quả trong lần thử đầu tiên, đừng căng thẳng. 

Hãy đặt câu hỏi: Nếu bạn gặp khó khăn, hãy thoải mái và tìm hướng xử lý trên internet

Nhận xét

Bài đăng phổ biến từ blog này

Những Đường Chỉ Tay có thể Báo Hiệu Trúng Số Trong Lòng Bàn Tay

Điều Gì Sẽ Xảy Ra Khi Bạn Chặt hết Cây Xanh Trong Một Thành Phố?

Tâm lý học của việc suy nghĩ quá mức: Tại sao chúng ta làm vậy và cách dừng lại

Tìm Hiểu Về AI(Artificial intelligence), ML(machine learnin) và AI tạo sinh (Generative AI)

Đừng Sợ Mắc Lỗi Khi Nói Tiếng Anh