웹 스크래퍼 성능 향상 시키기 with python parallel programming

1. 이걸 왜 하니?

병렬프로그래밍을 이론으로만 배우지말고 실전에 적용시켜보고 싶어졌는데, 어디쓰면 좋을까 생각해보다가 스크립트 짜 놓은게 생각남
찾아보니 python은 멀티프로세싱이라는 내부 모듈을 지원
- multiprocessing 모듈은 스레드 대신 서브 프로세스를 사용해서 전역 인터프리터 락을 효과적으로 피한다고 되어있는데, 이것이 threading모듈보다 멀티프로세싱 모듈이 더 많이 쓰이는 이유인 듯 싶다
multiprocessing - Process-based parallelism - Python 3.10.7 documentation
프로세스의 수가 크다고 무조건 성능이 좋은게 아님(cpu bound나 context switching overhead)
- 풀을 만들 때 최적의 프로세스 수가 궁금해져서 구글링 해보았음
Are there any guidelines to follow when choosing number of processes with multiprocessing?
- 하이퍼 스레딩 기술 때문에 물리적 코어보다 많은 코어가 실제로 프로세스를 처리할 수 있는데, 나는 apple silcon이라 하이퍼 스레딩 기술이 적용되었는지 아닌지 정확하게 알 수는 없었지만 없다고 추측하는 글은 있었다
Does the M1 chip (Apple Silicon) use hyper-threading? (a.k.a. simultaneous multithreading (SMT))
- multiprocessing 모듈에서 제공해주는 cpu_count 함수를 사용해서 제공되는 코어 수(가상코어가 있다면 그것까지 포함)를 알 수 있다

병렬 프로그래밍 적용 코드

import json
import multiprocessing as mp
import time
import pandas as pd

def scrap_problems(chapter):
  url = f'<https://github.com/encrypted-def/basic-algo-lecture/blob/master/workbook/{chapter}.md>'
  try:
    workbook = {}
    table = pd.read_html(url)
    problems = [ problem for problem in table[0]["문제"]]
    workbook[f"{chapter}"] = problems
    return workbook
  except Exception as e:
    print('예외 발생 사유: ', e)

if __name__=='__main__':
  start_time = time.time()
  chapters = ["0x{:02X}".format(i) for i in range(2, 32)]
  pool = mp.Pool(processes=mp.cpu_count())
  chapter_problems = pool.map(scrap_problems, chapters)
  # pool이 작업을 끝낸 뒤에 join과 close를 불러줘야되는 이유
  # <https://stackoverflow.com/questions/38271547/when-should-we-call-multiprocessing-pool-join>
  pool.close()
  pool.join()
  print("--- %s seconds ---" % (time.time() - start_time))
  workbook = { next(iter(chapter_problem)): list(*chapter_problem.values())  for chapter_problem in chapter_problems if not chapter_problem is None }
  with open('workbook.json', 'w', encoding='utf-8') as file:
        json.dump(workbook, file)

병렬 프로그래밍 미적용 코드

import pandas as pd
import json
import time

chapters = ["0x{:02X}".format(i) for i in range(2, 32)]

workbook = {}

start_time = time.time()

for chapter in chapters:
  url = f'<https://github.com/encrypted-def/basic-algo-lecture/blob/master/workbook/{chapter}.md>'
  try:
    table = pd.read_html(url)
    problems = [ problem for problem in table[0]["문제"]]
    workbook[f"{chapter}"] = problems
  except Exception as e:
    print('예외 발생 사유: ', e)

print("--- %s seconds ---" % (time.time() - start_time))

with open('workbook.json', 'w', encoding='utf-8') as file:
      json.dump(workbook, file)

2. 결과

single thread로 스크래핑 할 때

Untitled

multi thread로 스크래핑 할 때
로컬에서는 13초나 차이가 난다
git actions에서 쓰는 컴터는 얼마나 빨라질까? 모니터링 해보니 기존에 13초 걸리던 작업이 3초로 줄었다 획기적이다!

3. 관련 CS 지식

thread, multicore, parallel programming
- 프로세스 풀을 만드는데, 최적의 프로세스 수를 결정함에 있어서 쓰레드, 하이퍼쓰레딩 그리고 멀티코어 관련 개념이 나왔는데, 만약 쓰레드가 CPU-bound라면(대부분의 실행시간이 CPU에서 처리되는 시간), 최대한 많이 코어의 쓰레드를 많이 사용하는 것이 좋다, 답변을 해석해보자
- If only p of 1 of your threads is CPU-bound, you can adjust that number by multiplying by p. For example, if half your processes are CPU-bound (p = 0.5) and you have two CPUs with 4 cores each and 2x HyperThreading, you should start 0.5 * 2 * 4 * 2 = 8 processes.
- 내가 하고자 하는 쓰레드 전체 중 p개만 CPU bound라면, p를 곱하여 최적의 프로세스 수를 결정할 수 있다 이를테면, 전체 쓰레드 중 CPU-bound인 쓰레드가 절반이라면, p(cpu-bound thread / all thread)는 0.5가 된다, 그리고 내 컴퓨터가 2개의 CPU를 가지고있고, CPU 각각 4코어이고, 2 하이퍼쓰레딩이라면, 코어 당 2개의 쓰레드를 돌릴 수 있고, 하나의 CPU 당 4코어 * 2쓰레드 = 8쓰레드 즉, 8개의 쓰레드를 병렬로 실행할 수 있고, CPU는 2개이므로, 이 컴퓨터에서 병렬적으로 돌릴 수 있는 쓰레드는 총 16개이다, 근데, cpu bound인 작업은 전체의 절반이므로 p를 곱해서 최적의 프로세스 수를 결정할 수 있다
- 내가 짠 스크립트에서는 병렬 작업이 CPU bound라고는 단정할 수 없는게, 스크래핑할 때 네트워크 IO가 발생하고, 결과 중 일부를 추출해서 리스트로 만들고, 이걸 딕셔너리에 넣는 작업이라 IO bound인지 CPU bound인지 모니터링을 하지 않는 이상 뭐가 우세인지 알 수 없었는데 답변에서 작업이 CPU bound인지 확실히 모를 경우 쓰레드 수를 달리줘가면서 실행시간을 측정해서 최적을 찾으라고 조언해줘서 흔히들하는 4부터 시작해서 cpu_counts()로 나온 값 부터 이보다 큰 값까지 넣어가면서 제일 빨랐던 결과를 봤더니 cpu_bound()로 설정했을 때가 제일 빨랐고, 이를 토대로 내 병렬 작업은 CPU-bound임을 추측할 수 있었다, 다만 나는 하이퍼쓰레딩이 없는 apple silcon M1 max를 사용했고(10코어), git action에서 사용되는 컴퓨터는 또 다를 것이지만, 실제로 들어가서 걸리는 시간을 보니 10초이상 줄어듦을 볼 수 있었다
multicore scheduling
- 쓰레드는 스케줄러의 단위
- 쓰레드는 코어에 종속(PCB를 공유할 수는 있지만 쪼갤 수 없음)
- 쓰레드를 쓰면 성능이 올라가는 이유는 멀티코어를 이용할 수 있는 환경에서 만약 싱글 쓰레드로 돌린다면 하나의 코어밖에 이용못하고 다른 코어는 놀지만, 여러개의 쓰레드로 동시에 처리한다면 멀티 코어를 활용할 수 있어서 성능이 올라감, 그리고 하나가 처리할 양보다 나눠서 처리하니 각각이 처리할 양이 줄어듦
- 학부 때 어드밴스드 토픽이라 대강만 알고 넘어갔는데, 실제로 쓰레드가 어떻게 구현되는것이고, 왜 성능향상을 이끌어낼 수 있는지에 대해 궁금해서 검색해보다가 잘 설명해놓은 링크를 발견했음
  
  [OS] 멀티 프로세서 스케줄링 - OS 공부 6
scheduler
- 리눅스에서 사용한다는 CFS 스케줄링이 뭔지 대강만 알고있었는데 발견한 링크에서 이를 설명한 글이 있길래 남겨놓는다
  
  [OS] 공평한 스케줄러 만드는 법 (Proportional Share) - OS 공부 5