| 第12讲答疑 问题列表 |
|---|
| 爬虫能采集视频并储存吗 |
| headers是必须加的吗? |
| 为什么大部分正则表达式只能匹配英文,怎样才能最规范完整的匹配中文? |
| 有没有可能实现根据不同情况用不同匹配的爬虫 |
| utf-8和gbk编码区别在哪儿 |
| 想知道为什么那个豆瓣的网址会转义两次?转义两次之后就定位到其他页面了嘛? |
| !rm在Windows下是什么,在哪里找有关其他的语句? |
| 在那个正则里面,名称可以单独显示,价格也可以单独显示,但是两个放在一起用[/S/s]*?下面的list不能显示两个一起怎么弄 |
| 爬虫是什么网站都能抓吗,会不会有什么网站有保护机制(有密码)之类的,如果这样,要怎么办呢 |
| 老师我们的网址不一样,名称那个网址有好几个标红的斜杠,全都需要用反斜杠来纠正吗吗 |
| 对于排行榜是动态的情况,爬虫怎样能采得信息呢?另外,动态排行榜是一种什么样的排行榜呢? |
| Python的框架除了构建网站还能干啥? |
| 请问在很多网站别人都有防止爬虫的操作,当别人防止爬虫的操作我们不能破解的时候,这时候还能用什么去读取别人的数据呀? |
| 如果网页内容中不全是有规律性的 该怎么捕获? 期末考试的考核方式 |
| 那个pattern的顺序是不是就是说,你给crawl提供pattern ,然后通过下面的info = self.extract(content,pattern)把pattern传给extract |
| Terminal页面单机右键没有refresh是浏览器问题吗?要每次重开? |
| Python就是爬虫的最优选择吗 |
| 在MyCrawler类进行初始化时,不能像你写的那样在定义类时直接初始化,MyCrawler不接受任何参数,只能单独调用_init_进行初始化,这是为什么呢 |
| cat不是内部或外部命令也不是可运行的程序或批处理文件请问是什么意思,怎么解决 |
| 将网页拖到底部会自动往下加载新的数据,或者有加载更多这样的按钮,这样的网页怎么采集数据 |
| 后期的bilibili和豆瓣的数据爬取是在原来类的基础上操作吗?封装的类那里运行了吗? |
| 老师您好,在找百度翻译的URL的时候发现有好多URL,该怎么有效找到有功能的URL呢 |
| 网页中的视频和图片可以趴下了吗? |
| 想问下后面是都学爬虫吗?还有在第0课中为什么我的jupyter notebook中打不开terminal? |
| bilibili网页源码搜索“跃入人海”是从哪搜索的 |
| 爬虫有法律风险嘛? |
| 为啥要尝试加¦来防止乱码 |
| b站排行榜中“综合评分”在源码中没有直接显示,要如何抓取呢 |
| 如果网站是要求帐号密码那要怎样爬取? |
| 正则表达式的应用,转化不太懂 |
| 按定义说别的语言都可以设计爬虫吗 |
| 不加cookies好像有些网站进不去,比如百度,好像不是是否登录的问题,进入首页后,会随机分配一个cookies。 |
| 如何学会设计框架?一款框架的设计是否和其业务联系十分紧密?是否框架的本质在于一类业务间的高度重复性?是否源于Web开发本身类型单一,所以能出现像Flask,Django这样的通用型框架? |
| 碰到需要登录或者动态验证的网站怎么办? |