-
安装Scrapy:
首先,确保您已经安装了Scrapy。您可以使用pip来安装:
pip install scrapy
-
创建Scrapy项目:
使用Scrapy命令行工具创建一个新的项目。在终端中导航到您希望存储项目的目录,然后运行以下命令:
scrapy startproject myproject
这将创建一个名为myproject
的Scrapy项目目录,其中包含一些默认文件和文件夹。
-
定义Item:
在myproject/myproject/items.py
文件中定义您要抓取的数据结构。Item类似于数据库中的表结构,用于存储抓取到的数据。例如:
import scrapy
class MyprojectItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
description = scrapy.Field()
-
创建Spider:
在myproject/myproject/spiders
目录中创建一个新的Spider文件。例如,创建一个名为example_spider.py
的文件:
import scrapy
from myproject.items import MyprojectItem
class ExampleSpider(scrapy.Spider):
name = 'example'
start_urls = ['http://example.com']
def parse(self, response):
item = MyprojectItem()
item['title'] = response.css('title::text').get()
item['link'] = response.url
item['description'] = response.css('meta[name="description"]::attr(content)').get()
yield item
-
运行Spider:
在项目的根目录下,使用以下命令运行您的Spider:
scrapy crawl example
这将启动Scrapy引擎并开始抓取数据。
-
存储数据:
您可以将抓取的数据存储为JSON、CSV或XML格式。使用以下命令将数据存储为JSON文件:
scrapy crawl example -o output.json