用EXCEL批量获取网页标题的方法

这段时间准备做淘宝,但不知道卖什么产品,因此想从一些B2B 网站上扒拉一些产品词下来挨个研究,但一个一个的打开网页查看产品太慢太费事,但想到这些产品词都存在于网页标题上,因此想到了用excel来批量获取网页的标题。经过一番查找,在网上找到了两种方法(其实是两组代码)。

打开excel找到开发者工具,点击"Visual Basic"

在下图所示位置右键点击添加模块

填入如下代码:

Function Title(url As String) As String

With CreateObject("Microsoft.XMLHTTP")

‘防止输入的url不管带不带http都可以转换带http的

url = "http://" & Replace(url, "http://", "")

.Open "GET", url, False

.send

url = .responsetext

‘如果源代码中含有charset=gb或者chartset="gb ,hao123的源代码是charset="gbk"那么进行2进制代码responsebody转换为unicode

If InStr(url, "charset=""gb") Or InStr(url, "charset=gb") Then url = StrConv(.responseBody, vbUnicode)

‘不管charact是不是gb的都okay 可以专心进行split(url)字符串了,以上适用任何网页

Title = Split(Split(url, "<title>")(1), "</title>")(0)

End With

End Function

或者如下代码,根据网页语言不同而不同

Function Title(ByVal url As String) As String

On Error Resume Next

url = "http://" & Replace(url, "http://", "")

With CreateObject("Msxml2.XMLHTTP")

.Open "get", url, False

.send

Title = Split(Split(.responsetext, "<title>")(1), "</title>")(0)

End With

然后回到excel,把要获取的标题网页URL填进去,在标题输出行填入"=title(A1)",剩下的直接往下拖就行了。比如获取这些网页的标题:

http://www.zhenhuajiao.com/archives/483

http://www.zhenhuajiao.com/archives/482

http://www.zhenhuajiao.com/archives/481

http://www.zhenhuajiao.com/archives/480

http://www.zhenhuajiao.com/archives/479

最后的结果是这样的:

非常实用。只是在获取标题期间excel会出现卡顿的情况,这时候千万不要去碰它,容易卡死。

时间: 2024-10-13 23:27:36

用EXCEL批量获取网页标题的方法的相关文章

JS获取网页宽高方法集合

JS获取网页宽高等方法的集合:document.body.clientWidth - 网页可见区域宽document.body.clientHeight - 网页可见区域高 document.body.offsetWidth - 网页可见区域宽,包括边线和滚动条的宽document.body.offsetHeight - 网页可见区域高,包括边线和滚动条的高[FF,chrom下是整个页面高,IE opera 下正常] document.body.scrollWidth - 网页总宽documen

php正则获取网页标题、关键字、网页描述代码

php正则获取网页关键字,代码如下: function get_keywords($html) { $html=strtolower($html); preg_match("@<head[^>]*>(.*?)</head>@si",$html, $regs); $headdata = $regs[1]; preg_match("/<meta +name *=["']?keywords["']? *content=[&qu

在php中分别使用curl的post提交数据的方法和get获取网页数据的方法

在php中分别使用curl的post提交数据的方法和get获取网页数据的方法整理分享一下额,具体代码如下: (1)使用php curl获取网页数据的方法: $ch=curl_init(); //设置选项,包括URL curl_setopt($ch,CURLOPT_URL,"http://www.nettuts.com"); curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); curl_setopt($ch,CURLOPT_HEADER,0); //执行

Python2获取网页标题

Python获取网页标题 使用Python2.x的urllib2和lxml,速度应该还快于BeautifulSoup4(话说回来,为什么大家都要用BS4呢?一个XPATH不就完了吗) 没有安装过的,用pip安装一下 pip install lxml Shell演示: >> from lxml import etree >> import urllib2 >> page = etree.HTML(urllib2.urlopen('https://blog.csdn.net

PHP CURL或file_get_contents获取网页标题的代码及两者效率的稳定性问题

PHP CURL与file_get_contents函数都可以获取远程服务器上的文件保存到本地,但在性能上面两者完全不在同一个级别,下面我先来介绍PHP CURL或file_get_contents函数应用例子,然后再简单的给各位介绍一下它们的一些小区别吧. 推荐方法 CURL获取 ? 1 2 3 4 5 6 7 8 9 10 11 12 <?php $c = curl_init(); $url = 'www.jb51.net'; curl_setopt($c, CURLOPT_URL, $ur

Jython使用jsoup获取网页标题与链接信息

目的:获取网站链接,可以实现无人工干预的资料获取. 1 java实现的jsoup HTML解析库 下载:http://jsoup.org/ 2 工作平台Ubuntu 3 使用Jython调用jsoup实现提取网页联接信息 代码: #coding=utf-8 #doc from http://jsoup.org/apidocs/ from org.python.core import codecs codecs.setDefaultEncoding('utf-8') import sys #pri

C#获取网页信息核心方法(入门一)

目录:信息采集入门系列目录 下面记录的是我自己整理的C#请求页面核心类,主要有如下几个方法 1.HttpWebRequest Get请求获得页面html 2.HttpWebRequest Post请求获得页面html 3.模拟登录获得cookie内容 4.模拟登录获得cookie字符串 5.代理的设置 6.利用webbrowser 获取js生成的页面 7.为webbrowser设置cookie,模拟登录 8.每个方法的使用demo+demo下载 HttpWebRequest Get请求获得页面h

php curl 正则获取网页标题

<?php /****/ //Gary xu //[email protected] /****/ namespace Xuyaoxiang; class Snoopy { public $pattern_array=array( 'title'=>'/<title>(\s*.*)<\/title>/i', 'description'=>'/<meta +name="[d|D]escription" +content="(.*)

php获取网页标题和内容函数(不包含html标签)

码如下:function getPageContent($url) { //$url='http://www.ttphp.com; $pageinfo = array();           $pageinfo[content_type] = '';           $pageinfo[charset] = '';           $pageinfo[title] = '';           $pageinfo[description] = '';           $pagei