웹 스크래핑 쉽게 하기: Crawl for AI와 LLM을 사용하여 웹사이트에서 구조화된 데이터 추출하기

웹 사이트 데이터에서 구조화된 정보 추출

웹 스크래핑을 사용하면 웹사이트에서 정보를 추출할 수 있지만, 구조화된 데이터를 추출하는 것은 어려울 수 있습니다. Crawl for AI와 LLM을 사용하면 이 작업을 간편하게 수행할 수 있습니다.

Crawl for AI

Crawl for AI는 웹사이트를 자동으로 크롤링하고 콘텐츠를 추출하는 파이썬 라이브러리입니다. 비동기적 및 동기적 모드를 지원하며, 다양한 의존 라이브러리가 있습니다.

LLM

LLM(대규모 언어 모델)은 언어에 대한 인간 수준의 이해력을 가진 인공 지능 모델입니다. 웹 콘텐츠를 분석하고 구조화된 데이터를 추출하는 데 사용할 수 있습니다.

구조화된 데이터 추출

Crawl for AI를 사용하여 웹사이트에서 콘텐츠를 크롤링하고 LLM을 사용하여 구조화된 데이터를 추출하는 단계는 다음과 같습니다.

Crawler 설정: Crawl for AI 라이브러리를 설치하고 크롤링할 웹사이트를 지정합니다.
LLM 모델 정의: 추출할 데이터 유형과 LLM 모델을 정의합니다.
LLM 명령어 작성: LLM이 사용할 명령어를 작성하여 웹 콘텐츠에서 구조화된 데이터를 추출하도록 지시합니다.
크롤링 및 추출 수행: Crawl for AI로 웹사이트를 크롤링하고 LLM을 사용하여 구조화된 데이터를 추출합니다.
데이터 처리: 추출된 데이터를 필요한 형식으로 처리합니다.

예제

예를 들어, anthropic 웹사이트의 가격 정보를 추출하려면 다음과 같은 코드를 사용할 수 있습니다.

“`python
from async_crawl_for_ai import async_web_crawler

async def extract_pricing(url):
crawler = async_web_crawler(url, verbosity=True)
content = await crawler.run()
model_schema = [{“model_name”: “anthropic”, “input_fee”: “0.25”, “output_fee”: “1.25”}]
instructions = “Extract all mentioned model names along with their fees for input and output tokens from the crawled content.”
result = await crawler.extract_content(content, model_schema, instructions)
print(result.extracted_content)

extract_pricing(“https://www.anthropic.com/pricing”)
“`

결론

Crawl for AI와 LLM을 사용하면 웹사이트에서 구조화된 데이터를 쉽고 효율적으로 추출할 수 있습니다. 웹 크롤링과 언어 처리를 결합하여 다양한 응용 분야에 유용한 정보를 추출할 수 있습니다.