본문 바로가기

전체 글

(31)
큰 이미지를 downsampling하는 코드 1. 이미지 별로 진행 from PIL import Image def downsample_image(image_path, target_width): # 이미지 열기 img = Image.open(image_path) # 원본 이미지 크기 확인 original_width, original_height = img.size # 가로 길이를 512로 맞추기 위해 새로운 높이 계산 target_height = int((target_width / original_width) * original_height) # 이미지를 가로 길이 512로 다운샘플링 downscaled_img = img.resize((target_width, target_height), Image.LANCZOS) return downscaled_i..
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 리뷰 Stable Diffusion webui에서 사용가능한 fine tuning 기법 4가지 다 끝낼 예정 힘내자..^^! Abstract 대규모 Text to Image 모델들은 놀라운 발전을 이루었지만, 주어진 세트에서 주체의 외모를 모방하고 다른 맥락에서의 새로운 재현을 합성하는 능력이 부족하다. 이 논문에서는 T2I diffusion 모델의 "Personalization"에 대한 새로운 접근 방식을 제시한다(사용자의 요구에 특화된 모델). 주체의 몇장 이미지를 입력으로 주고, 사전 훈련된 T2I 모델(이 논문에서는 Imagen 사용, 그러나 특정 모델에 제한되지 않는다고 함)을 미세 조정하여 해당 주체와 고유 식별자를 연결하는 방법을 배우게 한다. 주체가 모델의 출력 도메인에 내장된 후, 고유 식별자..
이미지 리사이징 code from PIL import Image target_width, target_height = 512, 512 # target 너비 높이 지정 image_path = "이미지 경로 넣기" source_image = Image.open(image_path) width, height = source_image.size # 이미지의 현재 너비 높이 가져오기 aspect_ratio = width / height # 너비 높이 비율계산 if width < target_width or height < target_height: # 이미지의 크기를 조정해야 할 경우 새로운 너비 높이 계산. Image.LANCZOS는 PIL에서 제공하는 리샘플링 필터 중 하나(이미지 크기 변경 시 이미지 품질 유지하기 위해서) if a..
안드로이드 스튜디오 에러 activity_main.xml 시작해도 안뜰때 계속해서 에러 떳던 부분 layout 폴더 없음 문제 - 인프런 | 질문 & 답변 (inflearn.com) layout 폴더 없음 문제 - 인프런 | 질문 & 답변 https://www.inflearn.com/course/lecture?courseSlug=%EC%95%88%EB%93%9C%EB%A1%9C%EC%9D%B4%EB%93%9C-%EC%BD%94%ED%8B%80%EB%A6%B0-%EB%AA%A8%EB%B0%94%EC%9D%BC... www.inflearn.com 참고함!!!! (시작할때 봤던 설치설명 유투브에서는 Empty Activity로 시작하라고 했다고요 ㅡㅡ) 암튼 activity_main.xml이나 res 파일 내의 layout 파일이 없을 경우 New project에서 Empty Ac..
GPT-4 Technical Report Paper 리뷰 (Visual Input에 중점두기) 내가 판 100 페이지 논문리뷰 무덤.. 땅파러 간다 Abstract GPT-4는 이미지와 텍스트 입력을 받고 텍스트 출력을 생성할 수 있는 large-scale multimodal 모델이다. 여러 학문적인 벤치마크에서 인간 수준의 성능을 출력함. (시험 점수 상위 10%, 변호사 시험 통과) Pre-trained 된 Transformer 모델이다. Post-training alignment process results를 통해서 사실성과 원하는 동작에 대한 성능이 향상됨. 이 Report는 GPT-4의 계산량의 1/1000 이상의 모델로 훈련된 결과를 기반으로 함. 1. Introduction 이 레포트에서 강조하는 것 : 이미지와 텍스트 입력 처리, 텍스트 출력 생성이 가능한 대규모 멀티모달 모델이라는..
탐욕 알고리즘(Greedy Algorithm), 매트로이드 구조(Matroid Theory) 그리디 알고리즘/탐욕 알고리즘/Greedy Algorithm - 매 선택마다 바로 눈앞에 보이는 최적의 상황만을 쫓아 최적해를 도출하는 알고리즘 - 최적해를 항상 보장하는 것은 아님! - 그리디 알고리즘을 만족하려면 두가지 조건을 성립해야한다. 1. 탐욕스러운 선택 조건 → 이 선택으로 인해 전체 문제의 최적해를 반드시 도출할 수 있어야 함, 즉 앞의 선택이 이후의 선택에 영향을 주지 않는다. 2, 최적 부분 구조 조건 → 문제에 대한 최종 해결 방법이 부분 문제에서도 최적의 해결방법이다, 즉 전체 문제가 여러 갈래로 나뉘고, 이 갈래 마다도 최적해가 도출되어야 한다는 뜻. 이 두가지 조건이 모두 성립하지 않는 경우에는 그리디 알고리즘으로 최적해를 도출할 수 없음. 매트로이드 구조 : 그리디 알고리즘이 ..
Robust Speech Recognition via Large-Scale Weak Supervision (=OpenAI Whisper) Paper 리뷰 Abstract 이 논문에서는 음성 처리 시스템의 능력을 연구하였다. 68만 시간의 다국어 및 다작업 supervision을 적용한 결과, 일바적인 벤치마크에서 잘 일반화되면서 다른 모델들과의 경쟁력을 갖지만 어떠한 파인튜닝도 필요하지 않은 제로샷 transfer setting에서 작동한다. 정확도와 견고성(robust)을 올리고, 이 모델의 추론코드를 공개하여 견고한(robust) 음성 처리에 대한 추가적인 연구의 기반으로 활용되고자 한다. 1. Introduction 음성인식 분야의 발전은 Way2Vec 2.0과 같은 unsupervised pre-training techniques (비지도 사전 훈련 기법)의 개발로 인해 활기를 얻었다. 이 방법은 인간이 직접 라벨을 작성할 필요 없이 날것의 오디오..
파이썬 파일 불러올 때 \UXXXXXXXX escape 에러 해결법 \UXXXXXXXX escape : 이 코드 에러의 경우에는 경로에서 \가 표시 되기 때문. 모든\ 부분을 /로 바꿔주면 완성. ex ) C:\Users\admin\Downloads\S 이 코드를 C:/Users/admin/Downloads/S 이런 식으로 바꿔주면 된다. * 인터넷에 이미 있지만 매번 반복되는 찾기가 귀찮아서 걍 내 티스토리에 올림