廖雪峰的官方官网

    廖雪峰的官方官网,python编写爬虫小程序的方法

    【python编写爬虫小程序的方法】

    我们可以通过python来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看

    看如何使用python来实现这样一个功能。

    起因

    深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。

    想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!!

    怒了,准备写个程序直接去爬廖雪峰的教程,然后再html转成电子书。

    过程

    过程很有趣呢,用浅薄的python知识,写python程序,去爬python教程,来学习python。想想有点小激动

    果然python很是方便,50行左右就OK了。直接贴代码:

    24

    25

    26

    27

    28

    29

    30

    31

    32

    33

    34

    35

    36

    37

    38

    39

    40

    41

    42

    43

    44

    45

    46

    47

    48

    49

    50

    51

    52

    #coding:utf-8

    importurllib

    domain=

    #廖雪峰的域名

    path=rC:Userscyhhao2013Desktoptemp#html要保存的路径

    #一个html的头文件

    input=open(rC:Userscyhhao2013Desktop.html,r)

    head=input.read()

    #打开python教程主界面

    f=urllib.urlopen(/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000)

    home=f.read()

    f.close()

    #替换所有空格回车(这样容易好获取url)

    geturl=home.replace(n,)

    geturl=geturl.replace(,)

    #得到包含url的字符串

    list=geturl.split(rem;ahref=)[1:]

    #强迫症犯了,一定要把第一个页面也加进去才完美

    list.insert(0,/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000)

    #开始遍历urlList

    forliinlist:

    url=li.split(r)[0]

    url=domain+url#拼凑url

    printurl

    f=urllib.urlopen(url)

    html=f.read()

    #获得title为了写文件名

    title=html.split(title)[1]

    title=title.split(-廖雪峰的官方网站/title)[0]

    #要转一下码,不然加到路径里就悲剧了

    title=title.decode(utf-8).replace(/,)

    #截取正文

    html=html.split(r!--blockmain--)[1]

    html=html.split(rh4您的支持是作者写作最大的动力!/h4)[0]

    html=html.replace(rsrc=,src=+domain)

    #加上头和尾组成完整的html

    html=head+html+/body/html

    #输出文件

    output=open(path+%d%list.index(li)+title+.html,w)

    output.write(html)

    output.close()

    简直,人生苦短我用python啊!

    以上所述就是本文的全部内容了,希望大家能够喜欢。

    廖雪峰的官方官网相关文章:

  • 廖雪峰pyt

    廖雪峰pyt

    作为一个盛产程序员的,Python语言无疑是非常受欢迎的编程语言之一。而廖雪峰是国内最知名的Python教程博主之一。他的Python教程已经成为了很多初学者入门的的首选。Python的...

    起名知识 2023-07-05 05:16:07

推荐信息