PARKSY OS · Knowledge Layer

Parksy Logs

"말한 것을 버리지 않는다.
축적하고, 검색하고, 나처럼 생각하게 만든다."

170
Raw Logs
9.9K
Processed
8.4K
Voice Samples
Pipeline Status
Phase 1 — Collection
Parksy Capture APK → Share Intent → GitHub
Done
Phase 2 — Preprocessing
GitHub Actions → 화자분리 · 청킹 · 메타데이터
Done
Phase 3 — RAG System
Supabase pgvector + OpenAI Embedding → Search & Answer
Done
Phase 4 — App Integration
저장 + 검색을 Capture 앱 하나에서
Next
Phase 5 — Voice Clone & Narration
8,391 발화 → 말투 프로파일 → 성우 자동화 파이프라인
Planned
Use Cases — How I Use This
Season 1 — Archive
LLM 대화를 버리지 않는다
ChatGPT, Claude, Gemini에서 나눈 대화를 다운로드받거나 Parksy Capture APK로 공유해서 GitHub 레포지토리에 자동 저장한다. Claude Code가 과거 대화 맥락을 읽고 이전 세션을 이어갈 수 있다.
LLM 대화 Parksy Capture GitHub 자동 저장 Claude Code 맥락 로드
Complete
Season 2 — Voice Clone
내 말투를 학습시킨다
축적된 8,391개 발화 데이터에서 말투 패턴을 추출한다. 욕설 빈도, 질문형 비율(43.3%), 메타포 도메인(공장 1,513회), 필러 리듬까지 수치화해서 Voice Profile을 생성한다. Claude Code가 이 프로파일을 로드하면 박씨처럼 말한다.
170 Logs extract_voice.py Voice Profile JSON System Prompt
In Progress
Season 3 — Auto Narrator
내 목소리로 영상을 만든다
Voice Profile + TTS 엔진으로 내 말투가 반영된 성우 나레이션을 자동 생성한다. 스크립트 작성부터 음성 합성, 영상 편집까지 파이프라인으로 연결한다. 대화 로그가 곧 방송 대본이 된다.
Voice Profile Script Generator TTS Engine Video Pipeline
Upcoming
Voice Profile — 박씨 말투 분석
분석 발화 8,391
총 글자 수 5.4M
최다 욕설 씨발 1,100+
최다 메타포 공장 1,513
최다 필러 진짜 1,402
질문형 발화 43.3%
욕설 포함 발화
메타포 사용
"그러니까" 이게 공장 라인이야. 재공품 상태에서 다음 공정으로 넘기는 거지. 씨발 이걸 왜 제품이라고 부르냐? "진짜" 재공품이라고. 된 거야? 이제 "다시 돌아와서" 본론으로 가자.
Architecture
📱
Parksy Capture APK
Share Intent → Cloudflare Worker → GitHub
📦
logs/ → processed/
GitHub Actions 자동 전처리 (9,906 files)
🔍
Supabase pgvector
OpenAI Embedding → Vector Search → GPT-4o Answer
🎤
Voice Profile
8,391 발화 분석 → parksy-voice.json → System Prompt
🧠
Parksy AI & Narrator
내 말투로 대화 · 내 목소리로 나레이션 · 자동 영상 생성
Tech Stack
Capture
Android APK
Middleware
Cloudflare Worker
Storage
GitHub Private
Processing
GitHub Actions
Vector DB
Supabase pgvector
LLM
GPT-4o-mini
Session Log — 작업 기록
2026-03-23
Voice Clone & Fine-tuning 구축

parksy-logs 레포 전체 점검에서 시작해서 말투 학습 → fine-tuning 실행까지 한 세션에 돌파한 날.

DONE 레포 상태 점검 — 170 로그, 9.9K processed, Capture APK 동기화 정상
DONE 8,391 발화 추출 + 말투 분석 (씨발 1,100회, 질문형 43.3%, 공장 메타포 1,513회)
DONE Voice Profile 생성 — parksy-voice.json + SYSTEM_PROMPT.md + extract_voice.py
DONE 랜딩 페이지 리뉴얼 — Use Cases 3시즌 + Voice Profile 시각화
DONE Fine-tuning 데이터 파이프라인 — 1,561쌍 추출, GitHub Actions 자동 빌드
DONE 나레이션 브릿지 — generate_narration.py (parksy-image 호환)
RUNNING OpenAI fine-tuning — gpt-4o-mini, 500쌍, 3 epochs, ~$5

01 parksy-logs 레포 + Capture APK + GitHub Pages 전수 점검
02 170개 로그에서 8,391 발화 파싱 → 말투 통계 추출
03 Voice Profile JSON + System Prompt + 분석 도구 생성
04 랜딩 페이지에 Use Cases 3시즌 + Voice Profile 섹션 추가
05 Fine-tuning 3트랙 설계 — 데이터 파이프라인 / 나레이션 / 실행기
06 build_finetune_data.py로 1,561쌍 추출 → 500쌍 선별
07 OpenAI fine-tuning 실행 — Step 657/1500 학습 중
"fine-tuning은 머신러닝의 한 방법이야. 이미 수천 겹 딥러닝으로 만들어진 GPT한테 내 말투 500쌍을 곱해서 박씨 버전을 찍어내는 거야."

INSIGHT RAG(검색 증강)는 170개 로그 규모에서는 불필요 — Claude Code가 직접 읽으면 됨. Fine-tuning(모델 학습)은 Claude Code가 못 하는 영역이라 의미 있음.

INSIGHT AI > 머신러닝 > 딥러닝 > LLM. Fine-tuning = 이미 만들어진 LLM에 내 데이터를 곱하는 것. Gemini(GCP $300 크레딧)도 대안이지만 욕설 safety filter 리스크 있음.

VERDICT RAG 불필요 최종 판정.

RAG는 토큰 비용 절감 + 대량 검색 속도를 위해 나온 기술. Claude Max 무제한이면 토큰 비용 = 0 → 비용 논거 소멸. 시간 효율은 1만 개 이상에서만 유의미한데, 28개 레포 + 시즌제 구조에서는 한 시즌 200~300개 — Claude Code 직독직해 30초면 끝. 1만 개를 한 통에 넣고 벡터 검색하는 시나리오 자체가 이 아키텍처에서 발생하지 않음.

시즌 간 비교가 필요하면 시즌별 요약본 하나면 충분. Supabase + 임베딩 파이프라인은 삭제하지 않되 (헌법 제2조 — 반대 분개), 활성화 불필요. 만약 앱 내 검색 기능이나 외부 API 서비스가 필요해지는 시점에 다시 꺼내면 됨.

"병신같이 1만 개를 한꺼번에 관리하는 게 아니라 28개 레포 + 시즌제로 분산시켜 놨으니까 각 단위가 항상 Claude Code 직독직해 범위 안에 있다. RAG가 필요한 구조 자체가 아니야."

DAW Reaper DAW + Impact LX61+ 원격 세팅. 자동 로그인(Sysinternals Autologon) + BIOS 자동 전원 켜짐 설정 완료. Focusrite ASIO 드라이버 충돌로 WaveOut 모드로 우회. GUI 원격 클릭 삽질 (DPI 150% 좌표 불일치, UI Automation으로 해결). 핵심 교훈: Reaper는 ReaScript(Lua)로 터미널 제어 가능 — GUI 클릭 필요 없음. 마스터 키보드 소리 출력은 다음 세션에서 ReaScript로 완료 예정.

"말을 버리지 않으면 말투가 된다.
말투가 되면 성우가 된다.
성우가 되면 방송국이 된다."

Parksy Logs · DTSLIB Knowledge Layer