爬虫 查看站点的个数和解析网站使用的技术栈和找到网站的所有者

简介

网站的个数可以作为自己要爬取时间的估算。
技术栈可以知道自己要爬取的难度。

网站的个数

www.baidu.com 然后 输入 site:www.cnblogs.com 就可以知道 博客园大概有多少个页面了。 1000万个左右。

识别网站所采用技术栈

pip install builtwith

import builtwith
builtwith.parse('http://www.cnblogs.com')
{'advertising-networks': ['DoubleClick for Publishers (DFP)'], 'javascript-frameworks': ['Vue.js', 'jQuery']}
// 得知 采用的是vue 和 jquery。

找到网站的所有者

pip install python-whois

import whois
print(whois.whois('www.changeworld.shop'))
{
  "domain_name": "CHANGEWORLD.SHOP",
  "registrar": "Bizcn.com,Inc",
  "whois_server": null,
  "referral_url": null,
  "updated_date": "2019-04-24 04:22:03",
  "creation_date": "2019-04-15 14:23:58",
  "expiration_date": "2020-04-15 23:59:59",
  "name_servers": [
    "NS1.BDYDNS.CN",
    "NS2.BDYDNS.CN"
  ],
  "status": "clientTransferProhibited https://icann.org/epp#clientTransferProhibited",
  "emails": null,
  "dnssec": "unsigned",
  "name": null,
  "org": null,
  "address": null,
  "city": null,
  "state": "Zhejiang",
  "zipcode": null,
  "country": "CN"
}
可以看出大致的信息。

原文地址:https://www.cnblogs.com/eat-too-much/p/11559422.html

时间: 2024-11-05 11:29:35

爬虫 查看站点的个数和解析网站使用的技术栈和找到网站的所有者的相关文章

【问底】夏俊:深入网站服务端技术(一)——网站并发的问题

摘要:本文来自拥有十年IT从业经验.擅长网站架构设计.Web前端技术以及Java企业级开发的夏俊,此文也是<关于大型网站技术演进的思考>系列文章的最新出炉内容,首发于CSDN,各位技术人员不容错过. 注:本文首发于CSDN,转载请标明出处. [编者按] 本文来自拥有十年IT从业经验.擅长网站架构设计.Web前端技术以及Java企业级开发的夏俊,此文也是<关于大型网站技术演进的思考>系列文章的最新出炉内容,首发于CSDN,各位技术人员不容错过. 以下为正文: 一. 引子 <关于

php技术栈--电商网站

版本号 php nginx Redis mysql mysql  mgr mysql  cluster HAproxy profix elasticsearch ubuntu

优酷电视剧爬虫代码实现一:下载解析视频网站页面(3)补充知识点:XPath无效怎么办?

XPath无效怎么办?明明XPath是通过定位子节点,copy xpath得到的,理论上是正确的 XPath无效怎么办?明明XPath是通过按F12定位符再copy XPath得到的,可是放在代码里就是不对呢? 前提:优酷电视剧爬虫代码实现一:下载解析视频网站页面(2)工作量已经完成.基于这个基础,进一步完善代码 1.新建页面解析接口. package com.dajiangtai.djt_spider.service; import com.dajiangtai.djt_spider.enti

Linux查看物理CPU个数、核数、逻辑CPU个数

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo| grep "cpu cores"| uniq # 查看逻辑CPU的个数 cat /proc/cpuinfo

Linux上如何查看物理CPU个数,核数,线程数

首先,看看什么是超线程概念 超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率.超线程技术是在一颗CPU同时执行多个程序而共同分享一颗CPU内的资源,理论上要像两颗CPU一样在同一时间执行两个线程,虽然采用超线程技术能同时执行两个线程,但它并不象两个真正的CPU那样,每个CPU都具有独立的资源.当两个线程都同时需要某一个资源时,其中一个要暂时停止,并让出资源,直到这些

linux 查看物理cpu个数,核数,逻辑cpu个数

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l # 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores"| uniq # 查看逻辑CPU的个数cat /proc/cpuinfo| g

www.netcraft.com查看站点服务器使用的是什么操作系统

查看站点服务器使用的是什么操作系统

Linux查看物理CPU个数,核数,逻辑CPU个数;内存信息

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l 1 # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo| grep "cpu cores"| uniq cpu cores : 1 # 查看逻辑CPU的个数 c

CentOS 查看系统 CPU 个数、核心数、线程数

1.查看 CPU 物理个数 grep 'physical id' /proc/cpuinfo | sort -u | wc -l 2.查看 CPU 核心数量 grep 'core id' /proc/cpuinfo | sort -u | wc -l 3.查看 CPU 线程数 grep 'processor' /proc/cpuinfo | sort -u | wc -l 4.查看 CPU  型号 dmidecode -s processor-version 5.查看 CPU 的详细信息: ca