Selenium抓取网页教程
越来越多的网页经过异步加载或者加密处理,无法使用scrapy 直接抓取,需要模拟浏览器的渲染、JS引擎甚至鼠标键盘事件来进行,这就需要强大的selenium了。
越来越多的网页经过异步加载或者加密处理,无法使用scrapy 直接抓取,需要模拟浏览器的渲染、JS引擎甚至鼠标键盘事件来进行,这就需要强大的selenium了。
Python的openpyxl可以高效的处理xlsx格式的excel文件,旧格式的xls文件需要其他库的支持。
python易学易用,但也有很多容易错用的特性,或者有一些高级特性可以大大提升开发的性能或效率,这里记录一下。
可以把汉字表达的数字比如:四万万、五千亿零四百万零一、一点二三等,转换成数字的工具,支持整数和小数两种类型,也支持大写的数字比如肆佰叁十五,特殊的类型比如二百五、百十等也可以支持。
scrapy是大名鼎鼎的Python抓取库,对抓取做了非常好的抽象,二次开发和使用都非常方便。要想使用它,首先要明白它的设计思路和框架。