인물 렌더링 오류를 줄이는 프롬프트 설계와 골격 제어 방법
한동안 인물 렌더링 작업을 이어가면서 가장 자주 마주한 문제는 피부 질감이나 의상 표현은 만족스러운데 얼굴만 어딘가 어색하게 무너지는 현상이었습니다. 확대해서 확인해 보면 양쪽 눈의 높이가 조금씩 다르거나 코와 입의 중심축이 미묘하게 틀어진 경우가 적지 않았습니다. 처음에는 프롬프트가 부족해서 생긴 결과라고 생각해 표현을 계속 추가해 봤지만, 같은 조건으로 여러 번 생성해도 비슷한 문제가 반복되었습니다.
생성 결과를 하나씩 비교해 보니 원인은 단순히 키워드의 양이 아니라, 모델이 얼굴 구조를 해석하는 과정과 프롬프트 내부의 논리적 연결에 있다는 점을 확인할 수 있었습니다. 특히 Renaissance painting의 고전적인 인체 비례와 Unreal Engine lighting의 현대적인 광원 표현을 함께 사용할 때 이런 현상이 더욱 자주 나타났습니다. 화면 전체의 질감과 조도는 좋아졌지만 이목구비의 균형은 오히려 불안정해지는 경우가 반복되었습니다.
그래서 이번 작업에서는 프롬프트를 계속 늘리는 대신, 서로 충돌하는 조건을 하나씩 분리하며 다시 조합해 보았습니다. 얼굴 구조를 먼저 안정적으로 고정한 뒤 광원과 질감을 단계적으로 추가하는 방식으로 문장 구조를 재설계했고, 그 과정에서 안면 골격의 균형이 이전보다 훨씬 안정적으로 유지되는 결과를 확인할 수 있었습니다. 이번 글에서는 이러한 수정 과정을 중심으로 어떤 설정이 실제 결과에 영향을 주었는지 작업 순서대로 정리해 보겠습니다.
안정적인 결과를 얻기 위해 가장 먼저 확인한 것은 화풍보다 인물 구조였습니다. 실험에서는 Renaissance classic portrait를 기본 스타일로 설정하고, 여기에 Cinematic Lighting을 단계적으로 적용하며 결과를 비교했습니다.
르네상스 초상화는 인체 비례와 화면 중심축이 비교적 안정적으로 유지되는 특징이 있습니다. 반면 현대적인 렌더링 조명은 피부 질감과 입체감은 크게 향상시키지만 조건이 복잡해질수록 얼굴 구조가 흔들리는 경우도 함께 늘어났습니다.
여러 차례 비교해 보니 두 요소를 한꺼번에 적용하는 것보다, 먼저 구조를 안정시킨 뒤 광원과 질감을 추가하는 편이 훨씬 일관된 결과를 얻을 수 있었습니다. 결국 생성 모델에도 우선순위를 명확하게 전달하는 것이 중요한 과정이라는 점을 확인했습니다.
초기에는 화풍과 분위기를 표현하는 키워드를 중심으로 프롬프트를 구성했습니다.
Renaissance portrait of a beautiful woman, hyper-realistic, dynamic angle, looking at viewer, cinematic lighting, 8k
결과는 예상과 달랐습니다. 턱선의 명암이 부자연스럽게 무너지고 양쪽 눈의 위치도 조금씩 달라졌습니다.
생성 이미지를 여러 장 비교하면서 가장 먼저 발견한 문제는 dynamic angle과 looking at viewer가 동시에 사용되었다는 점이었습니다.
dynamic angle은 사선 구도를 요구하는 반면 looking at viewer는 정면 시선을 유지하려고 합니다. 서로 다른 방향을 동시에 요구하다 보니 모델이 얼굴의 방향을 일관되게 계산하지 못했고, 결국 골격 자체가 흔들리는 결과로 이어졌습니다.
또 하나의 원인은 얼굴 구조를 고정하는 기준 키워드가 부족했다는 점이었습니다. 아름다운 분위기를 설명하는 단어는 많았지만 해부학적 기준이 부족하다 보니 강한 명암이 적용되는 순간 얼굴 중심축까지 함께 흐트러지는 현상이 반복되었습니다.
처음 기대했던 화면은 르네상스 특유의 차분한 비례 위에 현대적인 조명이 자연스럽게 더해진 초상화였습니다.
하지만 실제 결과는 한쪽 눈의 초점이 맞지 않고 광대와 턱선도 좌우 균형이 일정하지 않았습니다. 처음에는 광원 문제라고 생각했지만 생성 결과를 계속 비교하다 보니 원인은 조명이 아니라 프롬프트 내부의 구조적 충돌에 더 가까웠습니다.
이후에는 화려한 수식어를 줄이고 얼굴 구조를 먼저 고정하는 방식으로 순서를 바꾸었습니다. 특히 카메라 위치와 얼굴 방향을 먼저 지정한 뒤 조명과 질감을 추가하는 방식이 가장 안정적인 결과를 보여 주었습니다.
구조를 안정시키기 위해 프롬프트 구성 순서를 완전히 변경했습니다.
A classic Renaissance style portrait of a noble woman, straight-on medium shot, symmetrical facial features, golden ratio face, anatomically correct structure, chiaroscuro lighting, split lighting highlighting the nose bridge and cheekbones, blended with modern Unreal Engine 5 rendering, realistic skin texture, volumetric soft shadows, 8k resolution
이번에는 분위기를 설명하는 표현보다 얼굴 구조를 먼저 지정했습니다.
straight-on medium shot으로 카메라 위치를 고정하고 symmetrical facial features, golden ratio face를 이어 배치해 얼굴 중심축을 먼저 형성하도록 했습니다.
이후 anatomically correct structure를 추가하면서 턱과 광대가 무너지는 빈도가 크게 줄어들었습니다.
마지막으로 chiaroscuro lighting과 split lighting을 적용해 입체감을 더하자 얼굴의 명암이 자연스럽게 유지되면서도 구조적인 안정성은 그대로 유지되는 결과를 얻을 수 있었습니다.
이번에 정리한 구조는 르네상스 화풍에만 적용되는 방식은 아니었습니다.
같은 순서를 Niji, Midjourney, Stable Diffusion에 적용해 보니 스타일은 달라도 얼굴 대칭이 무너지는 빈도는 전반적으로 감소하는 경향을 확인할 수 있었습니다.
특히 가장 효과가 컸던 부분은 카메라 방향과 시선을 서로 일치시키는 것이었습니다.
예를 들어 profile을 사용한다면 looking away처럼 같은 방향의 시선을 지정하는 편이 훨씬 안정적이었습니다. 반대로 측면 구도와 정면 응시를 동시에 요구하면 얼굴 구조가 쉽게 비틀어졌습니다.
이번 작업을 통해 다시 확인한 것은 화려한 표현보다 먼저 해결해야 하는 것은 화면의 뼈대라는 점입니다. 골격이 안정된 뒤에야 광원과 질감도 의도한 방향으로 자연스럽게 따라왔습니다.
다음 작업에서는 low angle, wide lens, depth map control처럼 투시 왜곡이 큰 환경에서도 같은 구조가 유지되는지 비교해 보며, 프롬프트의 안정성을 조금 더 확장해 볼 계획입니다.
생성 결과를 하나씩 비교해 보니 원인은 단순히 키워드의 양이 아니라, 모델이 얼굴 구조를 해석하는 과정과 프롬프트 내부의 논리적 연결에 있다는 점을 확인할 수 있었습니다. 특히 Renaissance painting의 고전적인 인체 비례와 Unreal Engine lighting의 현대적인 광원 표현을 함께 사용할 때 이런 현상이 더욱 자주 나타났습니다. 화면 전체의 질감과 조도는 좋아졌지만 이목구비의 균형은 오히려 불안정해지는 경우가 반복되었습니다.
그래서 이번 작업에서는 프롬프트를 계속 늘리는 대신, 서로 충돌하는 조건을 하나씩 분리하며 다시 조합해 보았습니다. 얼굴 구조를 먼저 안정적으로 고정한 뒤 광원과 질감을 단계적으로 추가하는 방식으로 문장 구조를 재설계했고, 그 과정에서 안면 골격의 균형이 이전보다 훨씬 안정적으로 유지되는 결과를 확인할 수 있었습니다. 이번 글에서는 이러한 수정 과정을 중심으로 어떤 설정이 실제 결과에 영향을 주었는지 작업 순서대로 정리해 보겠습니다.
목차
화풍보다 먼저 구조를 분리해 설계한 이유
안정적인 결과를 얻기 위해 가장 먼저 확인한 것은 화풍보다 인물 구조였습니다. 실험에서는 Renaissance classic portrait를 기본 스타일로 설정하고, 여기에 Cinematic Lighting을 단계적으로 적용하며 결과를 비교했습니다.
르네상스 초상화는 인체 비례와 화면 중심축이 비교적 안정적으로 유지되는 특징이 있습니다. 반면 현대적인 렌더링 조명은 피부 질감과 입체감은 크게 향상시키지만 조건이 복잡해질수록 얼굴 구조가 흔들리는 경우도 함께 늘어났습니다.
여러 차례 비교해 보니 두 요소를 한꺼번에 적용하는 것보다, 먼저 구조를 안정시킨 뒤 광원과 질감을 추가하는 편이 훨씬 일관된 결과를 얻을 수 있었습니다. 결국 생성 모델에도 우선순위를 명확하게 전달하는 것이 중요한 과정이라는 점을 확인했습니다.
시선과 카메라 조건이 서로 충돌했던 원인
초기에는 화풍과 분위기를 표현하는 키워드를 중심으로 프롬프트를 구성했습니다.
Renaissance portrait of a beautiful woman, hyper-realistic, dynamic angle, looking at viewer, cinematic lighting, 8k
결과는 예상과 달랐습니다. 턱선의 명암이 부자연스럽게 무너지고 양쪽 눈의 위치도 조금씩 달라졌습니다.
생성 이미지를 여러 장 비교하면서 가장 먼저 발견한 문제는 dynamic angle과 looking at viewer가 동시에 사용되었다는 점이었습니다.
dynamic angle은 사선 구도를 요구하는 반면 looking at viewer는 정면 시선을 유지하려고 합니다. 서로 다른 방향을 동시에 요구하다 보니 모델이 얼굴의 방향을 일관되게 계산하지 못했고, 결국 골격 자체가 흔들리는 결과로 이어졌습니다.
또 하나의 원인은 얼굴 구조를 고정하는 기준 키워드가 부족했다는 점이었습니다. 아름다운 분위기를 설명하는 단어는 많았지만 해부학적 기준이 부족하다 보니 강한 명암이 적용되는 순간 얼굴 중심축까지 함께 흐트러지는 현상이 반복되었습니다.
작업 노트에서 확인한 변화
처음 기대했던 화면은 르네상스 특유의 차분한 비례 위에 현대적인 조명이 자연스럽게 더해진 초상화였습니다.
하지만 실제 결과는 한쪽 눈의 초점이 맞지 않고 광대와 턱선도 좌우 균형이 일정하지 않았습니다. 처음에는 광원 문제라고 생각했지만 생성 결과를 계속 비교하다 보니 원인은 조명이 아니라 프롬프트 내부의 구조적 충돌에 더 가까웠습니다.
이후에는 화려한 수식어를 줄이고 얼굴 구조를 먼저 고정하는 방식으로 순서를 바꾸었습니다. 특히 카메라 위치와 얼굴 방향을 먼저 지정한 뒤 조명과 질감을 추가하는 방식이 가장 안정적인 결과를 보여 주었습니다.
골격을 안정시키기 위해 프롬프트를 다시 조합한 과정
구조를 안정시키기 위해 프롬프트 구성 순서를 완전히 변경했습니다.
A classic Renaissance style portrait of a noble woman, straight-on medium shot, symmetrical facial features, golden ratio face, anatomically correct structure, chiaroscuro lighting, split lighting highlighting the nose bridge and cheekbones, blended with modern Unreal Engine 5 rendering, realistic skin texture, volumetric soft shadows, 8k resolution
이번에는 분위기를 설명하는 표현보다 얼굴 구조를 먼저 지정했습니다.
straight-on medium shot으로 카메라 위치를 고정하고 symmetrical facial features, golden ratio face를 이어 배치해 얼굴 중심축을 먼저 형성하도록 했습니다.
이후 anatomically correct structure를 추가하면서 턱과 광대가 무너지는 빈도가 크게 줄어들었습니다.
마지막으로 chiaroscuro lighting과 split lighting을 적용해 입체감을 더하자 얼굴의 명암이 자연스럽게 유지되면서도 구조적인 안정성은 그대로 유지되는 결과를 얻을 수 있었습니다.
다른 스타일에도 그대로 적용할 수 있었던 기준
이번에 정리한 구조는 르네상스 화풍에만 적용되는 방식은 아니었습니다.
같은 순서를 Niji, Midjourney, Stable Diffusion에 적용해 보니 스타일은 달라도 얼굴 대칭이 무너지는 빈도는 전반적으로 감소하는 경향을 확인할 수 있었습니다.
특히 가장 효과가 컸던 부분은 카메라 방향과 시선을 서로 일치시키는 것이었습니다.
예를 들어 profile을 사용한다면 looking away처럼 같은 방향의 시선을 지정하는 편이 훨씬 안정적이었습니다. 반대로 측면 구도와 정면 응시를 동시에 요구하면 얼굴 구조가 쉽게 비틀어졌습니다.
이번 작업을 통해 다시 확인한 것은 화려한 표현보다 먼저 해결해야 하는 것은 화면의 뼈대라는 점입니다. 골격이 안정된 뒤에야 광원과 질감도 의도한 방향으로 자연스럽게 따라왔습니다.
다음 작업에서는 low angle, wide lens, depth map control처럼 투시 왜곡이 큰 환경에서도 같은 구조가 유지되는지 비교해 보며, 프롬프트의 안정성을 조금 더 확장해 볼 계획입니다.
댓글
댓글 쓰기