scripe.py 2.0 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849
  1. import csv
  2. from bs4 import BeautifulSoup
  3. import requests
  4. headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.6261.95 Safari/537.36"
  5. } # 设置请求头,模拟用户
  6. url = "https://blog.csdn.net/u010163987?type=blog" # 爬取的网址
  7. result_list = []
  8. # 循环爬取每一页,虽然我的博客的文章列表只有三页,但是可以设置多循环,防止未爬取到
  9. response = requests.get(f'{url}', headers=headers)
  10. response.encoding = response.apparent_encoding # 设置页面编码
  11. content = response.content # 获取页面内容
  12. soup = BeautifulSoup(content, 'html.parser') # 解析
  13. article_list = soup.find('article', class_='blog-list-box') # 获取到文章列表
  14. print(article_list)
  15. result_list = [] # 确保result_list在使用前已初始化
  16. for article in article_list.find_all('div', class_='list-box-cont'):
  17. result = {}
  18. blog_box = article.find_parent('article', class_='blog-list-box') # 找到父级的article元素
  19. if blog_box:
  20. title_href = blog_box.find('a') # 在article中查找<a>标签
  21. if title_href and 'href' in title_href.attrs: # 检查<a>标签是否存在并且有href属性
  22. result['href'] = title_href['href'] # 文章链接
  23. else:
  24. result['href'] = None # 如果没有找到href,设置为None
  25. else:
  26. result['href'] = None # 如果没有找到article,设置为None
  27. # 获取文章标题
  28. title_div = article.find('div', class_='blog-list-box-top')
  29. if title_div:
  30. result['name'] = title_div.text.strip() # 文章标题
  31. else:
  32. result['name'] = None # 或者根据需求设置一个默认值
  33. result_list.append(result) # 将每篇文章的信息添加到列表中
  34. print(result_list)
  35. # with open('csdn_paqu.csv', 'w', encoding='utf-8') as f:
  36. # write = csv.DictWriter(f, fieldnames=[ 'href', 'name']) # 写入CSV文件
  37. # write.writeheader() # 写入列名
  38. # write.writerows(result_list) # 将包含字典的列表全部写入到CSV文件中