【数据基础】— 基于Go1.19的站点模板爬虫的实现

//  爬取指定URL的网页，并提取其标题和所有链接
package main  
  
import (  
    "fmt"  
    "io/ioutil"  
    "log"  
    "net/http"  
    "strings"  
    "sync"  
  
    "github.com/PuerkitoBio/goquery"  
)  
  
// fetchHTML 发送HTTP GET请求并返回HTML内容  
func fetchHTML(url string) (string, error) {  
    resp, err := http.Get(url)  
    if err != nil {  
        return "", err  
    }  
    defer resp.Body.Close()  
  
    if resp.StatusCode != http.StatusOK {  
        return "", fmt.Errorf("HTTP error: %d", resp.StatusCode)  
    }  
  
    body, err := ioutil.ReadAll(resp.Body)  
    if err != nil {  
        return "", err  
    }  
  
    return string(body), nil  
}  
  
// parsePage 解析HTML页面并提取标题和链接  
func parsePage(html string) (string, []string, error) {  
    doc, err := goquery.NewDocumentFromReader(strings.NewReader(html))  
    if err != nil {  
        return "", nil, err  
    }  
  
    title := doc.Find("title").Text()  
    links := []string{}  
    doc.Find("a").Each(func(i int, s *goquery.Selection) {  
        href, exists := s.Attr("href")  
        if exists {  
            links = append(links, href)  
        }  
    })  
  
    return title, links, nil  
}  
  
// crawlSite 爬取单个站点的函数  
func crawlSite(url string, wg *sync.WaitGroup) {  
    defer wg.Done()  
  
    html, err := fetchHTML(url)  
    if err != nil {  
        log.Printf("Error fetching URL %s: %v", url, err)  
        return  
    }  
  
    title, links, err := parsePage(html)  
    if err != nil {  
        log.Printf("Error parsing HTML for URL %s: %v", url, err)  
        return  
    }  
  
    fmt.Printf("Title: %s\n", title)  
    for _, link := range links {  
        fmt.Printf("  - Link: %s\n", link)  
    }  
}  
  
func main() {  
    var wg sync.WaitGroup  
  
    // 假设我们只想爬取一个站点  
    url := "http://example.com"  
    wg.Add(1)  
    go crawlSite(url, &wg)  
  
    wg.Wait() // 等待所有goroutine完成  
}  
  
// 注意：如果你想要爬取多个站点或页面，你可以在main函数中为每个站点或页面启动一个新的goroutine，  
// 并适当地调整wg.Add和wg.Wait的调用。

在这个示例中，fetchHTML 函数负责发送HTTP GET请求并返回HTML内容。parsePage 函数使用goquery库来解析HTML并提取标题和所有链接。crawlSite 函数是一个goroutine-safe的函数，用于爬取单个站点的数据。在main函数中，我们为要爬取的站点启动了一个goroutine，并等待它完成。

请注意，这个示例仅展示了如何爬取单个站点的数据。如果你想要爬取多个站点或页面，你可以修改main函数，为每个站点或页面启动一个新的goroutine，并适当管理sync.WaitGroup以确保主goroutine在所有爬取任务完成后才退出。

此外，还需要注意遵守目标网站的robots.txt规则，以及合理设置HTTP请求头（如User-Agent）以避免被网站封禁。在实际应用中，你可能还需要处理重定向、cookies、JavaScript渲染的页面等复杂情况。

原文地址:https://blog.csdn.net/u011196880/article/details/140295468 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1810821261748736000.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部