今天,您可以在浏览器中对最强大的开源图像模型 Flux 进行微调,以生成无限量的个人 AI 图像。整个过程在您的浏览器中完成,您无需强大的硬件或编写一行代码。
Flux 在人脸上的微调能力是以前的开源图像模型(如 Stable Diffusion)所无法轻松实现的。
相信我,微调 Flux 的过程很简单,而且结果令人惊叹。我只是向 AI 输入了一堆我手机相册中的照片,20 分钟后,我发现自己在各种有趣的场景中生成了富有想象力的图像。
在本文中,我将逐步为您介绍微调 Flux 以生成个性化 AI 图像的步骤。这将是有趣、简单,而且——令人惊叹的。
开始之前,您需要准备:
- 至少 10 张清晰的自拍照
- 一个 Replicate 账户
- 一个用于训练 AI 模型的支付方式(只需花费 1 到 2 美元)
如果您准备好了,让我们开始吧。
在 Replicate 上训练 Flux
步骤 1:准备您的训练图像
微调 Flux 的第一步是准备您的训练图像。收集至少 10 张您自己的面部照片。
- 这些照片应清晰显示您的面部。尽量选择不同角度和光照条件,以便为 Flux 提供丰富的学习素材。
- 这些照片可以是 WebP、JPG 和 PNG 格式
- 使用高清图像,最好至少 1024×1024 或更高分辨率
- 文件名和纵横比无关紧要
请记住,您的图像在角度和光照方面越多样化,结果就会更好。但请注意,使用更多图像会导致训练时间更长。
收集好您的图像后,将它们放入一个不带密码的 zip 文件中。您可以随意命名这个 zip 文件。
步骤 2:选择一个独特的触发词
在提示微调后的图像模型时,在生成图像时在文本提示中使用一个独特的“触发词”作为标识符是很重要的。
例如,您不应该使用像“man”或“dog”这样的通用词。相反,使用您的名字,比如“Jimclyde”,作为触发词。
在选择触发词时,请考虑以下几点:
- 它应该是独特的,比如
MY_UNIQ_TRGGR
。想象一下“个性化车牌”,但没有长度限制。 - 它不应该是任何语言中的现有单词,比如
dog
或cyberpunk
。 - 它不应该是
TOK
,因为如果您想要组合它们,它将与其他微调发生冲突。 - 大小写不重要,但大写字母可以帮助视觉上区分触发词和文本提示的其余部分。
暂时保留您的触发词 – 在训练模型后会用到它。
步骤 3:训练 Flux 图像模型
现在是重要的部分:训练模型。转到您的 Replicate 账户,在“探索”选项卡下找到 "flux-dev-lora-trainer"
。
在“创建训练”部分,设置模型目标。您可以使用现有模型或创建一个新模型。
在这个示例中,让我们创建一个名为“jimclyde-flux”的新模型,用于训练我的照片。确保将可见性设置为“私有”,以避免其他用户访问。
在输入图像部分,上传包含训练图像的 zip 文件。
接下来,在步骤 2 中选择的触发关键字。
将其余字段保持默认,最后点击“创建训练”按钮。
请记住,如果您不添加支付方式,训练将不会开始。
训练过程大约需要 20 分钟才能完成,但这取决于队列长度。要监视进度,请转到“训练”页面,并选择正在训练的模型。
训练完成后,您将看到一个成功状态和类似于这样的消息:
训练成功!您现在可以在我们的 Web 游乐场中运行并了解有关您训练模型的更多信息,或通过 Replicate API 开始运行预测。
现在,您已经准备好对微调后的模型进行测试运行。点击“运行训练模型”开始。在添加提示时,请确保在提示中包含您的 trigger_word
,以激活您新训练概念中的生成图像。
生成图像
现在您可以开始生成定制图像。让我们尝试一个示例:
提示:JIMCLYDE,穿着礼服在红地毯秀上为杂志摆姿势,房间光线充足,面向相机,半身照
天啊,当我第一次看到这张图片时,我既感到毛骨悚然又哈哈大笑。看看逼真程度以及它与我的脸有多相似。这既令人毛骨悚然、滑稽,又令人惊叹!
以下是更多示例:
提示:JIMCLYDE,工作室拍摄,穿着白色polo衫和黑色裤子,微笑
提示:JIMCLYDE,在日本餐厅兴奋地吃寿司,因为现在是冬天,穿着黑色泡泡夹克,半身照
提示:JIMCLYDE,穿着白色宽松T恤在天蓝色背景前为品牌拍摄,全身照
再次强调,这简直太神奇了。我没有预料到 Flux 会这么好。整体图像与文本提示一致,主体看起来确实像我,甚至手部——许多图像生成器的一个难题——也被完美呈现。
您可以根据自己的喜好调整提示和其他设置。请原谅我,但这太有趣了——我最终制作了一堆图像。以下是我最喜欢的一些。
要查看生成图像的历史记录,请转到“预测”选项卡并单击 ID 链接。
您还可以通过 API 访问此模型,并将其集成到您的自定义应用程序中。以下是 Node.js 中的示例代码:
import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "jimclydegm/jimclyde-flux:5502907a82b7cfa8915abd05e9436XXXXXXXXX", { input: { model: "dev", lora_scale: 1, num_outputs: 1, aspect_ratio: "1:1", output_format: "webp", guidance_scale: 3.5, output_quality: 90, prompt_strength: 0.8, extra_lora_scale: 1, num_inference_steps: 28 } } ); console.log(output);
总结
总的来说,我通过微调后的 Flux 模型生成自己的图像非常有趣。这样做非常简单,而且成本相当低廉(仅需 1 到 2 美元),考虑到训练步骤数量为 1,000。结果非常令人印象深刻,与我的脸惊人地相似,与文本提示的整体一致性也很好。
请注意,本指南中使用的模型是 DEV 模型,而不是 Pro 模型。Flux Pro 模型在图像生成方面提供了最先进的性能,提供了一流的提示跟随、视觉质量、图像细节和输出多样性。它是比 Dev 模型更强大的图像模型,因此您可以期待使用 Pro 模型获得更好的图像。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。