# 프로젝트 로드맵: AI 컴파일러 최적화
## 최종 목표
강화학습(RL) AI가 C 코드를 자동으로 최적화하여
순수 -O1 대비 평균 +90% 이상 속도 향상을 달성하는 것
(초기 목표 +10% → +51.9% 달성 → 계속 상향 중)

## 완료된 단계
- [완료] 1단계: 환경 구축 (clang 18.1.3, llvm, Python 패키지)
- [완료] 2단계: IR 특징 추출기 구현 (7차원 벡터, call 감지 버그 수정)
- [완료] 3단계: 강화학습 환경 구현 (LoopUnrollEnv, action 6개)
- [완료] 4단계: x86-64 학습 완성
  - PPO 20,000스텝 학습 완료
  - avg +51.9% (목표 5배 초과)
  - loop_heavy +74.1% / nested +69.4% / matmul +60.7% / call_heavy +3.6%
  - 저장 모델: models/x86v2_base.zip
- [완료] 5단계: ARM64 전이학습
  - x86→ARM64 전이, 2,000스텝만에 +47.2%
  - 스텝 90% 절감 검증 완료
  - 저장 모델: models/arm64_transfer.zip
- [완료] 6단계: 메타학습 (Reptile 기반)
  - 100스텝만에 ARM64 +45.0% 달성
  - 원본 대비 스텝 99.5% 절감
  - 저장 모델: models/meta_init.zip
- [완료] 7단계: HuggingFace 공개 배포
  - https://huggingface.co/sosonsong/machineai-compiler-optimizer
  - meta_init.zip, x86v2_base.zip, arm64_transfer.zip 공개

## 진행 예정 단계
- [예정] 8단계: 더 많은 최적화 액션 추가
  - 벡터화(SIMD), 인라인 확장, 메모리 접근 패턴 최적화
  - 목표: avg +70% 이상
- [예정] 9단계: call_heavy 문제 해결
  - 현재 +1~3% → 목표 +30% 이상
  - IR 특징 확장 + 인라인 액션 추가
- [예정] 10단계: 실제 ARM 하드웨어 검증
  - 라즈베리 파이 5 또는 클라우드 ARM64 인스턴스
  - QEMU 대비 10배 빠른 학습 환경
- [예정] 11단계: 분산 연합학습 (Federated Learning)
  - 여러 머신이 가중치 공유 (Flower 프레임워크)
  - HuggingFace 기반 커뮤니티 기여 구조
- [예정] 12단계: LLM + RL 하이브리드
  - LLM이 코드 구조 이해 → RL이 실행 속도로 보상
  - 목표: avg +80% 이상
- [예정] 13단계: 도메인 특화 버전
  - 딥러닝 추론 / 게임 엔진 / 임베디드 특화
- [예정] 14단계: 프로덕션 컴파일러 통합
  - LLVM 플러그인 통합
  - pip 패키지 배포
  - 목표: avg +90% 이상 (구글 MLGO 수준)

## 프로젝트 구조
- 위치: ~/projects/machineai/
- 문서: docs/ACCD_v0_3.html (p_end 실행시 자동 업데이트)
- 모델: models/x86v2_base.zip, models/meta_init.zip, models/arm64_transfer.zip
- 공개: https://huggingface.co/sosonsong/machineai-compiler-optimizer

## Claude 진행 방식 (중요)
- 반드시 한 번에 하나의 STEP만 안내할 것
- 각 STEP 완료 후 반드시 결과 확인 후 다음으로 넘어갈 것
- 에러 발생시 원인 설명 후 수정 방법을 단계별로 안내할 것
- 코드는 복사-붙여넣기로 바로 사용 가능하게 제공할 것
- 각 STEP 끝에 반드시 "결과 붙여넣어 주세요! ✋" 로 마무리할 것

## 안전 규칙 (중요)
- 핵심 파일 수정 후 반드시 python3 benchmark.py 로 검증할 것
- avg +52.7% 이상이면 git commit, 미만이면 git checkout . 로 복구
- Git 커밋: git commit -am "설명"
- Git 복구: git checkout .