воскресенье, 9 октября 2022 г.

Впечатления от Stable Diffusion


Так как господин К. таки завёл локальный Stable Diffusion,  немного поигрались коллективно с ним вечером в эту самую генерацию картинок из текста (и проиграли в итоге не раз).

Результаты, на мой взгляд, несколько противоречивы. Честно говоря, в очередной раз убедился в том, что впору, прислушавшись к крикам "ну всё, художников можно закапывать", закапывать орущих эту фразу на каждом углу. Да, порой изображения, генерируемые нейросетью, неплохи. Я именно говорю, что "неплохи", так как полный спектр проблем txt2img нейросетей тут никуда не делся: мыло, странные детали артефактов (это при разрешении-то 512х512, где и так не разойдёшься), откровенная мазня, взятая из очень странных банков данных: такое ощущение, что где-то в банках по некоторым тегам валяются плоды творчества 12-летних.

Нейросеть всё так же ничего не знает о человеческой анатомии, всё так же ничего не понимает в светотени, ну и я уже не говорю о более сложных вещах, таких как композиция, колористика и прочее.

Да, если возиться со входными данными, можно порой добиться неплохого, даже хорошего результата, условный  lexica.art тому доказательство. Но это не то, что выглядит шедевром, особенно   если сильно вглядываться в детали. Не хочу сказать, что всё ужасно, но до шедевра результатам очень-очень далеко. Ну и для этого с вводом приходится попотеть: сайт выше показывает, сколько там нужно подбирать ввод. Выглядит это, честно говоря, скорее обучением естественной нейросети, вместо искусственной. С другой стороны - хотя бы образцы есть.

Что порадовало - судя по роликам и прочему, нейросеть худо-бедно начала объединять и собирать термины в кластеры понятий. Ещё бы она понимала, как они в итоге связаны и должны располагаться на холсте  было бы хорошо. Увы, нет, чаще всего здесь случай правит бал. 

Это годится для референсов художникам, с описаниями вида "вот хочу приблизительно так", или в случаях когда качество арта не сильно важно. В таком случае, да, это инструмент. 

Какие из этого можно сделать выводы? Ну, во-первых, это действительно достижение. Раньше было куда хуже, а сейчас всё же результаты, выдаваемые нейросетью, частенько неплохи. Но, не углубляясь в детали архитектуры, есть ощущение что не хватает следующего:

1) Улучшенного PCFG-парсера естественного языка, который бы более внятно разбирал бы запрос пользователя, определяя связи между понятиями в запросе пользователя и трансформируя их во внутреннее представление в запросе пользователя

2) Что-то наподобие "внутренней онтологии" внутри самой системы, которая бы увязывала понятия между собой. Ну хотя бы чтобы система понимала, что у человека есть руки и они будут на картине всегда, если там есть человек. Они растут из плеч. Их две штуки. Это звучит смешно - но практика показала, что это слишком часто нарушается.  

3)  Было бы хорошо уйти, наконец, от простой идеи генерации пикселей, чтобы система всё же понимала детали сцены, положение камеры, знала о композиции и прочем 3D .

Пока этого нет и  у меня есть сомнения, что будет. Это выглядит большой и сложной работой, а  сама генерация картинок, не уверен, что будет порождать какой-то доход, за пределами академических исследований. Но здесь, я думаю и  надеюсь, что ошибаюсь. 

Ещё есть подозрение, что для некоторых случаев будут хороши специализированные конструкторы, даже ещё более специализированные чем WaifuDiffusion,  но уверенности в этом нет. Есть порой желание таким заняться, но у меня сейчас есть вещи и поинтереснее и поважнее 

Такие дела.

Комментариев нет:

Отправить комментарий