슬기로운 연구생활

PubTables data download 본문

슬기로운 세팅 생활

PubTables data download

vhrehfdl 2023. 4. 12. 14:18

PubTables 데이터를 다운 받아 finetuning할 일이 있었다.

문제는 해당 데이터가 azure에 업로드되어 있고 azcopy를 통해 다운 받을 수 있다는 것이다.

 

1. azcopy 

아래의 명령어를 통해 azcopy를 실행시킬 수 있다.

세번째 명령어인 기존 azcopy 삭제하는 것은 미리 설치한 사람만 하면 되고 처음 설치하면 하지 않아도 된다.

네번째 명령어를 실행시켜야 경로 설정이 디ㅗ고 azcopy 명령어를 실행할 수 있다.

#Download AzCopy
wget https://aka.ms/downloadazcopy-v10-linux
 
#Expand Archive
tar -xvf downloadazcopy-v10-linux
 
#(Optional) Remove existing AzCopy version
sudo rm /usr/bin/azcopy
 
#Move AzCopy to the destination you want to store it
sudo cp ./azcopy_linux_amd64_*/azcopy /usr/bin/

 

2. SAS token

아래의 URL로 접속한 후, 왼쪽에 download 버튼을 눌러 SAS token 값이 포함된 다운로드 가능한 경로를 얻는다.

https://msropendata.com/datasets/505fcbe3-1383-42b1-913a-f651b8b712d3

 

Microsoft Research Open Data

 

msropendata.com

 

다운로드 가능한 경로를 입력해주고 azcopy를 하면 잘 다운받아진다.

azcopy copy "https://msropendataset01.blob.core.windows.net/pubtables1m?[SAS_TOKEN_HERE]" "/path/to/your/download/folder/" --recursive

'슬기로운 세팅 생활' 카테고리의 다른 글

KoSentenceBERT 실행 방법  (0) 2022.05.11
Mecab 윈도우 설치  (0) 2022.05.11
Konlpy 윈도우 설치  (0) 2022.05.11
GPU 데스크탑 세팅  (0) 2022.05.10
nginx 도메인 주소 추가  (0) 2022.04.26
Comments