본문 바로가기
728x90
반응형

BIG DATA STUDY/Python13

네이버 플레이스 리뷰 데이터 크롤링 네이버 플레이스의 리뷰 데이터를 크롤링 하기 위해 셀레니움을 사용해서 데이터를 모아보았으나, 리뷰가 만오천개 이상일 경우 메모리 부족으로 크롤링이 중단 되는 문제가 있었다 그래서 graphQL 활용 방식으로 데이터를 수집하였다. 캐리비안베이 리뷰 데이터 수집 방법 네이버 리뷰를 리퀘스트 받아 데이터 프레임으로 저장하기 위해 다음과 같이 Import해준다. import requests import math from time import sleep import numpy as np import pandas as pd 네이버 지도에서 캐리비안베이를 검색하면 아래와 같은 화면이 나온다. 이 상태에서 F12를 눌러 개발자 툴을 열어준다. 개발자 툴에서 아래 사진과 같이 캐리비안베이 리뷰 정보가 Preview화면에.. 2022. 5. 4.
파이썬 배우기 #Pandas Pandas란? Numpy 기반 파이썬 데이터 처리 라이브러리. import pandas as pd Series 1차원 배열의 각 값(values)에 대응되는 인덱스(index)로 된 구조. 각 값에 연산이 가능 .index() : range 값이 있는 객체로, index 범위값만 반환하는 함수 딕셔너리, 시리즈 차이점 : 딕셔너리는 순서X, 시리즈 O DataFrame 가로:columns, 세로: index 로 구성 (시리즈로 구성된 표) Dictionay, List , numpy등을 값으로 처리 가능 동일한 index & column을 가진 데이터프레임끼리 연산가능 pd.DataFrame(#객체명) Pandas_import & export 데이터 파일 가져오기_import read_확장자(‘파일명’).. 2022. 1. 25.
파이썬 배우기 #11 행렬2 슬라이싱 & 인덱싱 인덱싱은 원본 데이터에서 값을 복사하여 가져온다 (원본 변화 x) 슬라이싱은 원본 데이터의 일부를 잘라서 가져온다 (원본 변화 o) 불리언 a = np.arange(1,7).reshape(3,2) bool_idx =(a>2) bool_idx 1차원 배열 만들기 ravel, flatten np.ravel(a) a.ravel() a.flatten() Concatenate a=np.array([[1,2],[3,4]]) b= np.array([[5,6]]) np.concatenate((a,b)) #array([[1, 2], # [3, 4], # [5, 6]]) np.concatenate((a,b.T),axis=1) #b.T로 b를 전치해줘야한다. 열방향으로 shape을 맞춰주기 위함 행렬의 .. 2022. 1. 21.
파이썬 배우기 #10 numpy, 행렬 리스트 연습문제 list 연산 #scoreList에서 각각 10점을 올려준다 scoreList = [11,12,13,14] scoreList3 = [] for score in scoreList: scoreList3.append(score+10) scoreList3 #List Comprehension 활용해서 위 문제 풀어보기 scoreList3 = [(score+10)for score in scoreList] scoreList3 2차원 List 만들기 # 2차원 list 만들기 lst=[[1,2,3], [4,5,6], [7,8,9] ] # 2차원 리스트의 각 요소에 1 더하기 lst=[[1,2,3], [4,5,6], [7,8,9] ] lst2 =[] for i in range(len(lst)): lst_.. 2022. 1. 20.
728x90
반응형