Semalt გთავაზობთ 5 ნაბიჯს ვებ – გვერდების გადასაფარებლად

Scrapy არის ღია წყარო და ჩარჩო, სხვადასხვა ვებ – გვერდიდან ინფორმაციის მოპოვებისთვის. ის იყენებს API- ს და წერია პითონში. ამჟამად სკრაპინგი ინარჩუნებს ვებ – სკრეპინგ კომპანიას, სახელწოდებით Ltd. Scrapinghub Ltd.

ეს არის მარტივი გაკვეთილი იმის შესახებ, თუ როგორ უნდა ჩაწეროთ ვებ მცოცავი Scrapy- ის გამოყენებით, დაალაგოთ Craigslist და შეინახოთ ინფორმაცია CSV ფორმატში. ამ გაკვეთილის ხუთი ძირითადი ეტაპია ნახსენები ქვემოთ:
1. შექმენით ახალი სკრაპიის პროექტი
2. დაწერეთ ობობა ვებსაიტის მოსასხამებლად და მონაცემების ამოსაღებად
3. გადაიტანეთ გადაწერილი მონაცემები ბრძანების ხაზის გამოყენებით
4. შეცვალეთ ობობა, რომ დაიცვას ბმულები
5. გამოიყენეთ ობობის არგუმენტები
1. შექმენით პროექტი
პირველი ნაბიჯი არის პროექტის შექმნა. თქვენ უნდა ჩამოტვირთოთ და დააინსტალიროთ Scrapy. მის საძიებო ზოლში უნდა შეიყვანოთ დირექტორიის სახელი, სადაც გსურთ მონაცემთა შენახვა. Scrapy იყენებს სხვადასხვა ობობებს ინფორმაციის მოპოვების მიზნით, და ეს ობობები ადგენს პირველადი მოთხოვნები დირექტორიების შესაქმნელად. ობობის დასამუშავებლად, თქვენ უნდა ეწვიოთ დირექტორიების სია და აქ ჩასვათ კონკრეტული კოდი. გაითვალისწინეთ თქვენი მიმდინარე დირექტორიაში არსებული ფაილები და შეამჩნიეთ ორი ახალი ფაილი: quotes-a.html და quotes-b.html.
2. დაწერეთ ობობა ვებსაიტის მოსაზრებისათვის და ამონაწერი მონაცემები:
ობობისა და მონაცემების მოპოვების საუკეთესო გზაა Scrapy- ის ჭურვიში სხვადასხვა ამორჩეულების შექმნა. თქვენ ყოველთვის უნდა დაურთოთ მისამართები ციტატებით; წინააღმდეგ შემთხვევაში, Scrapy დაუყოვნებლივ შეცვლის ამ მისამართების ბუნებას ან სახელებს. თქვენ უნდა გამოიყენოთ ორმაგი ციტატები URL- ს გარშემო, რათა ობობა სათანადო დაწერა. თქვენ უნდა გამოიყენოთ.extract_first () და თავიდან აიცილოთ ინდექსი შეცდომა.
3. გადაიტანეთ გადაწერილი მონაცემები ბრძანების ხაზის გამოყენებით:
მნიშვნელოვანია გატანილი მონაცემების ექსპორტი ბრძანების ხაზის გამოყენებით. თუ მას არ გაიტანთ, ვერ მიიღებთ ზუსტ შედეგს. ობობა გამოიმუშავებს სხვადასხვა ცნობარს, რომელიც შეიცავს სასარგებლო ინფორმაციას. თქვენ უნდა გამოიყენოთ სარგებელი Python საკვანძო სიტყვები, რომ უკეთესად გაიტანოთ ეს ინფორმაცია. შესაძლებელია მონაცემების იმპორტი JSON ფაილებში. JSON ფაილები სასარგებლოა პროგრამისტებისთვის. JQ, როგორიცაა JQ, ხელს შეუწყობს მონაცემთა გადატანის გარეშე გადაცემას უპრობლემოდ.

4. შეცვალეთ ობობა, რომ დაიცვას ბმულები:
მცირე პროექტებში, თქვენ შეგიძლიათ შეცვალოთ ობობები, რომ სწორად დაიცვას ბმულები. მაგრამ ეს არ არის აუცილებელი მონაცემთა მასშტაბის მონაცემთა გაფანტვის პროექტებით. ობობის შეცვლისას შეიქმნება საქონლის მილსადენების მოთავსების ფაილი. ეს ფაილი შეიძლება განთავსდეს სამეურვეო / piplines.py განყოფილებაში. Scrapy– ით თქვენ შეგიძლიათ ააწყოთ დახვეწილი ობობები და შეცვალოთ მათი ადგილმდებარეობა ნებისმიერ დროს. თქვენ შეგიძლიათ მოაწყოთ მრავალი საიტი ერთდროულად და განახორციელოთ სხვადასხვა მონაცემების მოპოვების პროექტი.
5. გამოიყენეთ ობობის არგუმენტები:
Parse_author გამოხმაურება არის ობობის არგუმენტი, რომლის საშუალებითაც შესაძლებელია მონაცემების დინამიური ვებსაიტების ამოღება. ასევე შეგიძლიათ ობობებზე მიაწოდოთ ბრძანების ხაზის არგუმენტები კონკრეტული კოდით. ობობის არგუმენტები დროულად ხდება ობობის ატრიბუტები და შეცვალოს თქვენი მონაცემების საერთო სახე.
ამ გაკვეთილზე ჩვენ მხოლოდ სკრაპიის საფუძვლები გავითვალისწინეთ. ამ ინსტრუმენტის უამრავი ფუნქცია და ვარიანტი არსებობს. თქვენ უბრალოდ უნდა ჩამოტვირთოთ და გაააქტიუროთ სკრაპია, რომ იცოდეთ მისი სპეციფიკაციების შესახებ.