크롤링 출력 - 두 변수 연결 (Crawling output - connecting two variables)


문제 설명

크롤링 출력 ‑ 두 변수 연결 (Crawling output ‑ connecting two variables)

약간의 실수가 있었기 때문에 내 코드를 수정했습니다. 제안된 대로 dic을 생성했지만 이제 if...else 문</p>을 매번 사용하지 않고 완료하는 방법에 대한 단서를 얻었습니다.


참조 솔루션

방법 1:

I modified your code above to get it working. Here is an example of how you would use the dictionary to get PartnerID.

RegionIDArray = [7236, 7665]
dict = {7236: 2, 7665: 3} #{'Rome': 3, 'Paris': 2}
for RegionID in RegionIDArray:
    for page in range(1,2):
        url = "http://www.isango.de/affiliatesearch.aspx?&regionid=" + str(RegionID) + "&pid=" + str(page)
        html = urllib.request.urlopen(url).read()
        soup = BeautifulSoup(html)

        g_data = soup.find_all("div", {"class": "gridHeadOuter productInfoOuter"})
        for item in g_data:
            Header = item.find_all("div", {"class": "offerInto"})
            Header_final = (Header[0].contents[0].text.strip())

        print("Header: " + Header_final + " | " + "PartnerID: " + str(dict[RegionID]))

The output is:

Header: Washington Odyssey Lunch Cruise | PartnerID: 2
Header: Audio Tour, Candlelit Dinner and Concert at Charlottenburg Palace, Berlin | PartnerID: 3

(by Serious Ruffydstudeba)

참조 문서

  1. Crawling output ‑ connecting two variables (CC BY‑SA 2.5/3.0/4.0)

#web-crawler #Python #beautifulsoup






관련 질문

UnicodeError: URL에 ASCII가 아닌 문자가 포함되어 있습니다(Python 2.7). (UnicodeError: URL contains non-ASCII characters (Python 2.7))

크롤링 출력 - 두 변수 연결 (Crawling output - connecting two variables)

Python2.7에서 효과적인 크롤러를 만드는 방법 (How to make an effective crawler in Python2.7)

이 텍스트가 다른 기사의 일부임을 Google에 알리는 방법 (How to tell google this text is part of another article)

크롤링하는 HTML 페이지에서 JavaScript 개체를 구문 분석하는 방법은 무엇입니까? (How to parse a JavaScript object from a HTML page I crawl?)

데이터 크롤링 또는 API 사용 (Crawling data or using API)

파이썬을 사용하여 웹사이트에서 내부 링크만 크롤링 (Crawl only internal links from a website using python)

받은 응답에서 HTML 코드를 긁는 방법은 무엇입니까? (How to scrape the html code from the response received?)

PHP를 사용하여 웹 사이트에서 클래스 이름 스크래핑 (Scraping class name on a website using php)

Scrapy Spider를 사용하는 Craigslist Scraper가 기능을 수행하지 않음 (Craigslist Scraper using Scrapy Spider not performing functions)

BeautifulSoup: 이 링크에서 모든 기사 링크를 가져오는 방법은 무엇입니까? (BeautifulSoup: how to get all article links from this link?)

나는 클라이언트입니다. 선택적으로 http 응답에서 헤더를 제거할 수 있습니까? (I'm client. Can I remove header from http response optionally?)







코멘트