“ 网络爬虫帮我搜索准确信息”
01 面向问题
现代社会最便宜的是信息,最值钱的还是信息。如何在互联网海量信息中快速筛选自己想要的有用信息?Google很精准,可惜门槛太高。百度很全面,可惜得有火眼金睛。小道消息很多,可惜基本都是谣言。
怎么办?
02 怎么办
既然学了Python,那么Python“三好”之一的 网络爬虫就不能不学。这里尝试用Python 搭建一个简单的可扩展的个人搜索引擎Demo。Python网络爬虫通过Python获取url的网页html内容,用正则表达式分析html,得到想要的内容,包括url、文字、图片等。还可以对网页内url进行分析,进一步爬取,遍历虚拟世界,直到获得自己想要的内容。Python爬取百度首页没办法,国内搜索离不开百度。今天我们用python3来搜索。Python自带的urllib库足以练习,urllib是一组处理URLs的包,其中request模块可以打开和读取url链接。看下百度首页爬取示例。
查看html的详细内容,如