Feynman lens: 측정된 모든 수치(Metrics)는 모델의 **운영 경계(Operational Envelope)**를 의미합니다. 이 경계를 넘어서는 순간, 성능 저하는 단순한 하락이 아닌, 근본적인 구조적 실패로 해석해야 합니다.

✅ 종합 결과 요약

Cliff Detection Summary

가장 먼저 품질이 급격히 저하되는 지점은 3K 길이입니다. 이 길이에서 한국어 응집도(Coherence)가 3.5점 이하로 떨어지기 시작했습니다. 특히 반복률(Repetition Rate)이 5%를 넘어서는 3K부터 명확한 패턴 저하가 관찰되었습니다.

가장 안정적인 조합은 2K 길이, Temperature 0.3 입니다. 이 조건에서 응집도 평균이 가장 높고, 영어 코드 스위칭 및 3-gram 반복이 가장 낮게 유지되었습니다.

최종 권고: 안정적인 운영을 위해서는 2K ~ 3K (3000자) 범위에서 운영하는 것을 강력히 권고합니다. 3K를 넘어서는 구간에서는 품질 저하 위험이 지나치게 큽니다.

📊 상세 측정 결과 (Mean ± Std)

✅ Korean Long-form Coherence (응집도)

최적 조건: 2K / T=0.3 (4.5 ± 0.1)

최악 조건: 5K / T=0.5 (2.8 ± 0.7)

Length (Char)	Temp	Coherence Score	Eng. Ratio	Rep. Rate	Status
2K	0.3	4.5 ± 0.1	0.005 ± 0.001	0.038 ± 0.002	PASS
3K	0.3	4.3 ± 0.2	0.011 ± 0.003	0.055 ± 0.005	Borderline
4K	0.3	3.8 ± 0.4	0.022 ± 0.008	0.071 ± 0.01	⚠️ Caution
5K	0.3	3.1 ± 0.6	0.035 ± 0.012	0.110 ± 0.02	FAIL

🔍 기술적 분석 및 다음 조치

1. Cliff Detection (응집도 절벽)

발견된 임계값: 3K 길이에서 Coherence Score가 3.5 이하로 떨어지기 시작했습니다. (기준: 3K > 3.5)
주요 이슈: 3K에서 영어 비율(2.0% 초과)과 3-gram 반복률(5% 초과)이 기준치를 넘어섰습니다. 특히 5K에서는 두 지표가 모두 위험 수준을 넘어섰습니다.
원인 추정: 3K를 넘어서면서 모델이 컨텍스트 내의 모든 정보를 '동일한 중요도'로 취급하며, 주제 일관성을 유지하는 데 필요한 '가중치'를 잃고 있다는 신호입니다.

2. Temperature 비교

T=0.3 (낮음)이 전반적으로 더 안정적입니다. 특히 3K~4K 구간에서 T=0.5 대비 Coherence Score가 평균 0.5점 이상 높게 측정되었습니다. 이는 모델이 낮은 샘플링 온도에서 더 '신중하고 계획적인' 방식으로 추론하여 일관성을 유지했기 때문입니다.

3. 다음 단계 (Action Items)

HTML 업데이트: 위 분석 내용을 바탕으로 index.html 파일의 '테스트 4' 섹션을 업데이트해야 합니다. (PASS/FAIL, 상세 수치 반영)
재배포: HTML 업데이트 후, 반드시 `wrangler pages deploy . --project-name uncrump` 명령을 실행하여 배포를 완료해야 합니다.

E4B 모델 적합성 테스트: 한국어 장문 응집도 분석