豆子喜欢看小说 但是很多小说网页的爬虫很不给力,更新不及时。本来想看看Powershell有没有类似Python scarpy的能力,结果很失望,不过意外的发现很多搜索引擎都提供了API 可以通过PowerShell直接调用。
下面以微软的BING为例。
首先需要在azure的datamarket申请一个账号
https://datamarket.azure.com/dataset/bing/search#terms
用windows live账号登录,然后选择第一个就行了,这个每个月可以免费查询5000次,做个测试够用了。
切换到My Account ->My Data,这里可以直接使用一个在线版的API
比如说,我可以搜索不同的内容,网页,图像,视频,新闻等等~
注意有个Primary Account Key, 这个就是我的主账号,调用API的时候需要通过这个ID来验证的
下面看看怎么在PowerShell里面调用。
我在网上搜索了一些,大部分是旧版的语法和例子,具体的语法也语焉不详 要不然就是一个链接直接执行MSDN,这个对于非专业的码农来说很难找到合适的例子,幸好找到一篇参考文章
http://www.powershelladmin.com/wiki/Accessing_the_Bing_Search_API_v2_using_PowerShell
首先根据主账号生成对应的access token, 大概可以参考这个链接
https://msdn.microsoft.com/en-AU/library/azure/dn798668.aspx#ManuallyCreateToken
然后比着上面那个GUI的自动生成的query格式写个function转换成需要的语法结构,因为他的返回值可以是xml或者json,因此直接用invoke-restmethod 调用就行了
$Key = ‘2rNmeyElCeWRJ1DLvRl5ReJ0l85R/klsdjlskfs‘ #这个ID我改了一下,不是真的 $Base64KeyBytes = [byte[]] [Text.Encoding]::ASCII.GetBytes("ignored:$Key") $Base64Key = [Convert]::ToBase64String($Base64KeyBytes) function Get-BingQuery { param([string[]] $Query) Add-Type -Assembly System.Web $Query = ‘%27‘ + (($Query | %{ [Web.HttpUtility]::UrlEncode($_) }) -join ‘+‘) + ‘%27‘ # Return the proper string. $Query } $QueryString = Get-BingQuery ‘music‘ $Uri = ‘https://api.datamarket.azure.com/Bing/Search/Web?$format=json&$top=5&Query=‘ + $QueryString $Results = Invoke-RestMethod -Uri $Uri -Headers @{ Authorization = "Basic $Base64Key" } $Results.d.results | Select Title, Description, DisplayUrl, Url | fl
结果如下:
成功