AI 시대의 범주형 데이터 처리: Entity Embedding과 Cat2Vec의 효과 분석
학부 졸업 연구 (2025년 2월) — One-hot encoding, Entity Embedding, Cat2Vec 세 가지 범주형 인코딩 기법을 Rossmann 데이터셋에서 비교 평가. ARI 기준 임베딩 기법이 One-hot 대비 완벽한 군집화 성능(1.0) 달성.
Researcher & Developer
devcomfort의 기술 블로그 & 포트폴리오
학부 졸업 연구 (2025년 2월) — One-hot encoding, Entity Embedding, Cat2Vec 세 가지 범주형 인코딩 기법을 Rossmann 데이터셋에서 비교 평가. ARI 기준 임베딩 기법이 One-hot 대비 완벽한 군집화 성능(1.0) 달성.
경로 기반, magic number, AI(Magika) 추론 전략을 조합해 파일 타입을 탐지하는 Python 라이브러리.
Ollama 레지스트리에서 모델 검색 및 태그 목록을 조회할 수 있는 REST API와 TypeScript/Python 클라이언트 라이브러리.
Claude Code, Codex, Copilot CLI, OpenCode를 지원하는 자율 AI 코딩 에이전트 루프 CLI. 에이전트가 태스크를 완료할 때까지 반복 실행합니다.
asyncio 기반 병렬 파일 압축/해제 Python 라이브러리. ZIP, TAR, gz, bz2, xz 등 11개 포맷을 지원합니다.
asyncio와 aiohttp 기반의 고성능 병렬 파일 다운로드 Python 라이브러리. 91개 테스트, 100% 커버리지.
HWP 파일을 텍스트, HTML, Markdown, ODT로 변환하는 Python 라이브러리. LlamaIndex 통합으로 RAG 파이프라인에서 바로 활용 가능.
실험 설정의 모든 조합을 자동으로 생성하는 Python 라이브러리. 하이퍼파라미터 탐색과 그리드 서치를 간결하게 표현할 수 있습니다.
instanceof보다 100% 정확한 HTML 요소 타입 판별 유틸리티. tagName 기반으로 112개 HTML 요소를 완벽하게 구분합니다.
Blob 객체를 Blob URL 또는 Data URI로 변환하는 경량 유틸리티. ESM, CJS, UMD 모두 지원합니다.
Node.js와 브라우저 환경에서 텍스트 인코딩 변환을 위한 경량 라이브러리. UTF-8, EUC-KR, EUC-JP 등 다양한 인코딩을 지원합니다.
안녕하세요, devcomfort입니다. 이 블로그를 시작하며 앞으로 어떤 글을 쓸지 간단히 소개합니다.