# 프로젝트 로드맵: AI 컴파일러 최적화 ## 최종 목표 강화학습(RL) AI가 C 코드를 자동으로 최적화하여 순수 -O1 대비 평균 +90% 이상 속도 향상을 달성하는 것 (초기 목표 +10% → +51.9% 달성 → 계속 상향 중) ## 완료된 단계 - [완료] 1단계: 환경 구축 (clang 18.1.3, llvm, Python 패키지) - [완료] 2단계: IR 특징 추출기 구현 (7차원 벡터, call 감지 버그 수정) - [완료] 3단계: 강화학습 환경 구현 (LoopUnrollEnv, action 6개) - [완료] 4단계: x86-64 학습 완성 - PPO 20,000스텝 학습 완료 - avg +51.9% (목표 5배 초과) - loop_heavy +74.1% / nested +69.4% / matmul +60.7% / call_heavy +3.6% - 저장 모델: models/x86v2_base.zip - [완료] 5단계: ARM64 전이학습 - x86→ARM64 전이, 2,000스텝만에 +47.2% - 스텝 90% 절감 검증 완료 - 저장 모델: models/arm64_transfer.zip - [완료] 6단계: 메타학습 (Reptile 기반) - 100스텝만에 ARM64 +45.0% 달성 - 원본 대비 스텝 99.5% 절감 - 저장 모델: models/meta_init.zip - [완료] 7단계: HuggingFace 공개 배포 - https://huggingface.co/sosonsong/machineai-compiler-optimizer - meta_init.zip, x86v2_base.zip, arm64_transfer.zip 공개 ## 진행 예정 단계 - [예정] 8단계: 더 많은 최적화 액션 추가 - 벡터화(SIMD), 인라인 확장, 메모리 접근 패턴 최적화 - 목표: avg +70% 이상 - [예정] 9단계: call_heavy 문제 해결 - 현재 +1~3% → 목표 +30% 이상 - IR 특징 확장 + 인라인 액션 추가 - [예정] 10단계: 실제 ARM 하드웨어 검증 - 라즈베리 파이 5 또는 클라우드 ARM64 인스턴스 - QEMU 대비 10배 빠른 학습 환경 - [예정] 11단계: 분산 연합학습 (Federated Learning) - 여러 머신이 가중치 공유 (Flower 프레임워크) - HuggingFace 기반 커뮤니티 기여 구조 - [예정] 12단계: LLM + RL 하이브리드 - LLM이 코드 구조 이해 → RL이 실행 속도로 보상 - 목표: avg +80% 이상 - [예정] 13단계: 도메인 특화 버전 - 딥러닝 추론 / 게임 엔진 / 임베디드 특화 - [예정] 14단계: 프로덕션 컴파일러 통합 - LLVM 플러그인 통합 - pip 패키지 배포 - 목표: avg +90% 이상 (구글 MLGO 수준) ## 프로젝트 구조 - 위치: ~/projects/machineai/ - 문서: docs/ACCD_v0_3.html (p_end 실행시 자동 업데이트) - 모델: models/x86v2_base.zip, models/meta_init.zip, models/arm64_transfer.zip - 공개: https://huggingface.co/sosonsong/machineai-compiler-optimizer ## Claude 진행 방식 (중요) - 반드시 한 번에 하나의 STEP만 안내할 것 - 각 STEP 완료 후 반드시 결과 확인 후 다음으로 넘어갈 것 - 에러 발생시 원인 설명 후 수정 방법을 단계별로 안내할 것 - 코드는 복사-붙여넣기로 바로 사용 가능하게 제공할 것 - 각 STEP 끝에 반드시 "결과 붙여넣어 주세요! ✋" 로 마무리할 것 ## 안전 규칙 (중요) - 핵심 파일 수정 후 반드시 python3 benchmark.py 로 검증할 것 - avg +52.7% 이상이면 git commit, 미만이면 git checkout . 로 복구 - Git 커밋: git commit -am "설명" - Git 복구: git checkout .