技术栈

基于不同抓取方式的技术手段分类：

接口抓取（API抓取）：
- 技术手段：通过HTTP请求（如GET、POST）调用公开或私有API接口，通常返回JSON、XML等结构化数据格式。
- 常用工具/库：requests（Python）、Axios（JavaScript）、Postman等。
静态网页抓取：
- 技术手段：通过解析静态HTML页面源代码抓取数据。由于网页内容是静态的，数据在页面加载时已经渲染完成。
- 常用工具/库：BeautifulSoup（Python）、Cheerio（JavaScript）、Selenium（如果用于模拟点击等操作），以及正则表达式等。
动态网页抓取：
- 技术手段：抓取包含JavaScript动态生成的内容的网页，通常使用浏览器引擎模拟执行JavaScript脚本后再提取页面内容。
- 常用工具/库：Selenium、Puppeteer、Playwright等（这些工具模拟浏览器行为，执行JavaScript并提取渲染后的HTML内容）。
异步加载抓取：
- 技术手段：网页内容通过AJAX异步加载，在初始页面渲染后通过JavaScript发起额外的请求加载数据。这种抓取通常需要模拟HTTP请求，获取这些异步加载的数据。
- 常用工具/库：Selenium、Scrapy、Fiddler（监控请求）、requests等。
网页DOM结构抓取：
- 技术手段：抓取并解析网页DOM（文档对象模型）结构，通过对页面DOM节点的查询来提取信息。
- 常用工具/库：BeautifulSoup、lxml（Python）、Puppeteer、Playwright等。
文件抓取（如CSV、JSON、Excel等）：
- 技术手段：直接读取本地或远程的文件（如CSV、Excel、JSON）并解析其中的数据。
- 常用工具/库：pandas（Python）、openpyxl、xlrd（Excel）、json、csv等。
屏幕抓取（Screen Scraping/OCR）：
- 技术手段：通过截屏技术从屏幕中获取数据，使用光学字符识别（OCR）技术识别图像中的文本信息。
- 常用工具/库：Tesseract（OCR）、OpenCV（计算机视觉库）、Pillow（图像处理）等。
Web爬虫（Web Crawling）：
- 技术手段：编写自动化程序模拟浏览器行为，遍历多个网页并抓取数据，通常涉及URL的递归抓取。
- 常用工具/库：Scrapy（Python）、BeautifulSoup、Selenium、Puppeteer等。
数据库抓取：
- 技术手段：直接通过SQL查询或数据库API从关系型或非关系型数据库中抓取数据。
- 常用工具/库：SQLAlchemy（Python）、PyMySQL、MongoDB驱动等。
日志文件抓取：
- 技术手段：从服务器或应用程序的日志文件中提取数据，通常使用正则表达式或日志分析工具进行数据提取。
- 常用工具/库：Logstash、Filebeat、正则表达式等。
社交媒体抓取：
- 技术手段：使用社交平台的API抓取社交数据，如推文、评论、帖子等，通常数据会返回JSON格式。
- 常用工具/库：Tweepy（Twitter API）、Facebook Graph API、Instagram API等。