正则获取页面编码 判断当前页面的编码

        //根据指定网址判断当前页面的编码
        static public string GetWebpageCode(string url)
        {
            string charSet = "";

            WebClient myWebClient = new WebClient();    

            myWebClient.Credentials = CredentialCache.DefaultCredentials;

            //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号)
            byte[] myDataBuffer = myWebClient.DownloadData(url);
            string strWebData = Encoding.Default.GetString(myDataBuffer);

            //获取网页字符编码描述信息
            Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
            string webCharSet = charSetMatch.Groups[2].Value;
            if (charSet == null || charSet == "")
                charSet = webCharSet;

            return charSet;

        }

正则获取页面编码 判断当前页面的编码

时间: 2024-08-07 04:31:10

正则获取页面编码 判断当前页面的编码的相关文章

java获取页面编码

文章出自:http://babyjoycry.javaeye.com/blog/587527 在此感谢原作者...\(^o^)/~ 最近研究抓取网页内容,发现要获取页面的编码格式,Java没有现成的实现方法,虽然csdn上有个达人写了一篇文章,附有代码,可惜,我没有找到相关的包,不得已,只好自己动手丰衣足食了. import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader;

你不知道的 页面编码,浏览器选择编码,get,post各种乱码由来

asp.net页面编码和浏览器的选择编码 每个asp.net的写手都知道,在新版本的visual studio,在没有任何设置的情况下,新建页面时的默认编码位utf-8 我们可以从两个地方可以看出: 第一:打开aspx页面,“文件”->“高级保存选项”,如下图,可以看出编码为:Unicode(UTF-8带签名) 第二:找到aspx存放路径,用系统自带的文本编辑器打开,然后“文件”->"另存为",如下图,可以看出编码为UTF-8 很多时候我们有很多疑问,我们经常在aspx页面

js获取当前页面的url网址信息小汇总

在WEB开发中,时常会用到javascript来获取当前页面的url网址信息,在这里是我的一些获取url信息的小总结. 下面我们举例一个URL,然后获得它的各个组成部分:http://i.cnblogs.com/EditPosts.aspx?opt=1 1.window.location.href(设置或获取整个 URL 为字符串) var test = window.location.href; alert(test); 返回:http://i.cnblogs.com/EditPosts.as

JavaScript获取当前页面的用户区宽高问题

在网页的前端开发中,我们常常会涉及到自适应宽度,也就是说我们希望页面总是满宽显示.在这个过程中为了获得更好的用户体验和跨浏览器的兼容性,我们会在不同的用户区分辨率下实时载入不同的CSS文件,当然这就涉及到获取用户区的宽度(最主要是宽度). 在javascript中,可以通过访问window.innerWidth,window.innerHeight和document.documentElement.clientWidth,document.documentElement.clientHeight

ASP.net获取当前页面的文件名,参数,域名等方法

ASP.net后台获取当前页面的文件名 System.IO.Path.GetFileName(Request.Path).ToString(); 获取当前页面文件名,参数,域名等方法 假设当前页完整地址是:http://www.test.com/aaa/bbb.aspx?id=5&name=kelli "http://"是协议名 "www.test.com"是域名 "aaa"是虚拟目录名 "bbb.aspx"是页面名(

小程序获取当前页面的值

获取当前页面的参数 /** * 页面的初始数据 */ data: { level_one_data: [], level_two_data:[], product_list:[] } let level_two_data = that.data.level_two_data; // 获取当前对象的值 for (var i = 0, len = level_two_data.length; i < len; i++) { if (!level_two_id) { if (i == 0) { lev

用js获取当前页面的url的相关信息方法

1. 当前页面的完整url获取方式: window.localtion.url; 2. pathname部分: window.location.pathname 3. 设置或获取对象指定的文件名或路径. alert(window.location.pathname) 设置或获取整个 URL 为字符串. alert(window.location.href); 设置或获取与 URL 关联的端口号码. alert(window.location.port) 设置或获取 URL 的协议部分. aler

Qt中用正则表达式来判断Text的语种,主要通过判断unicode的编码范围

QString MainWindow::ParseLanguage(QString Text) {     if(Text.length()<=0)     {         return "";     }     QString sRegNum = "[0-9]+";     QString sRegEn = "[a-zA-Z]+";     QString sRegCn = "[\\x4e00-\\x9fff]+"

PHP 获取当前页面的完整 url 函数

代码清单: <?php /** * 获取当前页面的完整 url * @author ruxing.li * @return string */ function getPageUrl(){ $url = (isset($_SERVER['SERVER_PORT']) && $_SERVER['SERVER_PORT'] == '443') ? 'https://' : 'http://'; $url .= $_SERVER['HTTP_HOST']; $url .= isset($_