OpenCC的编译与多语言使用

OpenCC全称Open Chinese Convert,是一个Github上面的开源项目,主要用于简繁体汉字的转换,支持语义级别的翻译。本文就来简单介绍一下该库的编译以及python、C++和JAVA分别如何调用DLL进行转换。并记录一些使用过程中踩过的坑。

1.编译DLL

我们首先编译得到opencc的dll动态库。

CMake Command line

当前工作目录生成VS工程文件

cmake -G "Visual Studio 14 2015" -D CMAKE_INSTALL_PREFIX="D:/Projects/Cnblogs/Alpha Panda/OpenCC" ../opencc-ver.1.0.5

编译工程文件

cmake --build ./ --config RelWithDebInfo --target install

使用命令行build工程文件。

CMake - Gui

下载最新版本CMake,配置工程代码generator,本文使用的Visual Studio 14 2015。

Configure操作过程中需要正确的设置安装路径,这个安装路径决定了dll会去哪个目录下去读取简繁转换的配置文件。

CMake中的变量CMAKE_INSTALL_PREFIX控制安装路径,其默认值

  • UNIX:/usr/local
  • Windows:c:/Program Files/${PROJECT_NAME}

这里设置为:D:/Projects/Cnblogs/Alpha Panda/OpenCC

接着经过generate生成VS工程文件。

Visual Studio

使用CMake command line或者cmake-gui得到VS工程文件。

打开VS工程,这里我们只编译工程libopencc得到dll文件。为了后续便于使用attach功能调试dll文件,最好将工程配置为RelWithDebInfo。

工程libopencc的属性配置寻找一个宏变量:PKGDATADIR(PKGDATADIR="D:/Projects/Cnblogs/Alpha Panda/OpenCC/share//opencc/")

这个宏变量是源代码根目录下面的CMakeLists.txt中设置的,感兴趣的话可以简单了解一下这个变量的设置过程:

CMAKE_INSTALL_PREFIX = D:/Projects/Cnblogs/Alpha Panda/OpenCC
set (DIR_PREFIX ${CMAKE_INSTALL_PREFIX})
set (DIR_SHARE ${DIR_PREFIX}/share/)
set (DIR_SHARE_OPENCC ${DIR_SHARE}/opencc/)
-DPKGDATADIR="${DIR_SHARE_OPENCC}"

简繁转换的配置文件必须要放到这个目录下。

2.使用python

利用上面编译得到的libopencc的DLL文件,通过python调用来进行字体的转换:(下面的代码改编自 OpenCC 0.2)

# -*- coding:utf-8 -*-

import os
import sys
from ctypes.util import find_library
from ctypes import CDLL, cast, c_char_p, c_size_t, c_void_p

__all__ = [‘CONFIGS‘, ‘convert‘]

if sys.version_info[0] == 3:
    text_type = str
else:
    text_type = unicode

_libcfile = find_library(‘c‘) or ‘libc.so.6‘
libc = CDLL(_libcfile, use_errno=True)
_libopenccfile = os.getenv(‘LIBOPENCC‘) or find_library(‘opencc‘)
if _libopenccfile:
    libopencc = CDLL(_libopenccfile, use_errno=True)
else:
    #libopencc = CDLL(‘libopencc.so.1‘, use_errno=True)
    # _libopenccfile = find_library(r‘G:\opencc\build\src\Release\opencc‘)
    # 貌似不能使用相对路径?
    cur_dir = os.getcwd()
    lib_path = os.path.join(cur_dir, ‘T2S_translation_lib‘, ‘opencc‘)
    lib_path = ‘./share/opencc‘
    libopencc = CDLL(lib_path, use_errno=True)

libc.free.argtypes = [c_void_p]

libopencc.opencc_open.restype = c_void_p
libopencc.opencc_convert_utf8.argtypes = [c_void_p, c_char_p, c_size_t]
libopencc.opencc_convert_utf8.restype = c_void_p
libopencc.opencc_close.argtypes = [c_void_p]libopencc.opencc_convert_utf8_free.argstypes = c_char_p

CONFIGS = [
    ‘hk2s.json‘, ‘s2hk.json‘,
    ‘s2t.json‘, ‘s2tw.json‘, ‘s2twp.json‘,
    ‘t2s.json‘, ‘tw2s.json‘, ‘tw2sp.json‘,
    ‘t2tw.json‘, ‘t2hk.json‘,
]

class OpenCC(object):

    def __init__(self, config=‘t2s.json‘):
        self._od = libopencc.opencc_open(c_char_p(config.encode(‘utf-8‘)))

    def convert(self, text):
        if isinstance(text, text_type):
            # use bytes
            text = text.encode(‘utf-8‘)
        retv_i = libopencc.opencc_convert_utf8(self._od, text, len(text))
        if retv_i == -1:
            raise Exception(‘OpenCC Convert Error‘)
        retv_c = cast(retv_i, c_char_p)
        value = retv_c.value
        # 此处有问题?
        # libc.free(retv_c)
        libopencc.opencc_convert_utf8_free(retv_i)                return value

    def __del__(self):
        libopencc.opencc_close(self._od)

def convert(text, config=‘t2s.json‘):
    cc = OpenCC(config)
    return cc.convert(text)

上面的这段代码可以当做离线工具来进行文件的转换,并没有线上运行时被调用验证过,可能存在内存泄露,仅供参考。

关于python如何调用DLL文件,可以参考我的另一篇文章:Python使用Ctypes与C/C++ DLL文件通信过程介绍及实例分析

使用示例:

origin_text = u‘(理发 vs 发财),(闹钟 vs 一见钟情),后来‘.encode(‘utf-8‘)
s2t_1 = convert(origin_text, ‘s2t.json‘)
t2s_1 = convert(s2t_1, ‘t2s.json‘)
print t2s_1.decode(‘utf-8‘)
print s2t_1.decode(‘utf-8‘)
print origin_text == t2s_1
============================================
>>>(理发 vs 发财),(闹钟 vs 一见钟情),后来
>>>(理髮 vs 發財),(鬧鐘 vs 一見鍾情),後來
>>>True

3.使用C++

下面我们来使用C++来演示一下如何使用OpenCC进行繁简字体的转换。

由于opencc传入的翻译文本编发方式为utf-8。因此需要对待翻译文本进行编码转换。

string GBKToUTF8(const char* strGBK)
{
    int len = MultiByteToWideChar(CP_ACP, 0, strGBK, -1, NULL, 0);
    wchar_t* wstr = new wchar_t[len + 1];
    memset(wstr, 0, len + 1);
    MultiByteToWideChar(CP_ACP, 0, strGBK, -1, wstr, len);
    len = WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);
    char* str = new char[len + 1];
    memset(str, 0, len + 1);
    WideCharToMultiByte(CP_UTF8, 0, wstr, -1, str, len, NULL, NULL);
    string strTemp = str;
    if (wstr) delete[] wstr;
    if (str) delete[] str;
    return strTemp;
}

string UTF8ToGBK(const char* strUTF8)
{
    int len = MultiByteToWideChar(CP_UTF8, 0, strUTF8, -1, NULL, 0);
    wchar_t* wszGBK = new wchar_t[len + 1];
    memset(wszGBK, 0, len * 2 + 2);
    MultiByteToWideChar(CP_UTF8, 0, strUTF8, -1, wszGBK, len);
    len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
    char* szGBK = new char[len + 1];
    memset(szGBK, 0, len + 1);
    WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, szGBK, len, NULL, NULL);
    string strTemp(szGBK);
    if (wszGBK) delete[] wszGBK;
    if (szGBK) delete[] szGBK;
    return strTemp;
}

这是在windows平台上两个非常有用的UTF8和GBK编码互转函数。

方便起见我们直接在opencc中添加一个新的工程,命名为Translation。

#include <cstdio>#include <cstdlib>#include <iostream>
#include <string>
#include <windows.h>
#include <fstream>
#include "../OpenCC-ver.1.0.5/src/opencc.h"
//using namespace std;
using std::cout;
using std::endl;
using std::string;

#define OPENCC_API_EXPORT __declspec(dllimport)

OPENCC_API_EXPORT char* opencc_convert_utf8(opencc_t opencc, const char* input, size_t length);
OPENCC_API_EXPORT int opencc_close(opencc_t opencc);
OPENCC_API_EXPORT opencc_t opencc_open(const char* configfilename);OPENCC_API_EXPORT void opencc_convert_utf8_free(char* str);

#pragma comment(lib, "../Build/src/RelWithDebInfo/opencc.lib")string GBKToUTF8(const char* strGBK);
string UTF8ToGBK(const char* strUTF8);

int main() {
    char* trans_conf = "s2t.json";
    char* trans_res = nullptr;
    string gbk_str, utf8_str, res;
    // read from file and write translation results to file
    std::ifstream infile;
    std::ofstream outfile;
    infile.open("infile.txt", std::ifstream::in);
    outfile.open("outfile.txt", std::ifstream::out);
    // open the config file
    opencc_t conf_file = opencc_open(trans_conf);
    while (infile.good()) {
        infile >> gbk_str;
        utf8_str = GBKToUTF8(gbk_str.c_str());
        std::cout << gbk_str << "\n";
        trans_res = opencc_convert_utf8(conf_file, utf8_str.c_str(), utf8_str.length());
        cout << UTF8ToGBK(trans_res) << endl;
        outfile << trans_res << endl;        opencc_convert_utf8_free(trans_res);
        // delete[] trans_res;
        trans_res = nullptr;
    }
    infile.close();
    outfile.close();
    opencc_close(conf_file);
    conf_file = nullptr;
    system("pause");
    return 0;
}

上面的这段C++代码可以从infile.txt中读取简体中文,然后将翻译结果写入到outfile.txt文件中。

3.使用JAVA

这里给出一个使用JNA调用DLL的方案:

package com.tvjody;

import java.io.UnsupportedEncodingException;
import java.io.Writer;
import java.nio.charset.StandardCharsets;

import com.sun.jna.Library;
import com.sun.jna.Native;
import com.sun.jna.Platform;
import com.sun.jna.Pointer;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.io.Reader;
import java.io.FileOutputStream;

public class JNA_CALL {

    public interface openccDLL extends Library{
        openccDLL Instance = (openccDLL) Native.load(
                (Platform.isWindows() ? "opencc" : "libc.so.6"),
                openccDLL.class);

//        void* opencc_open(const char* configfilename);
        Pointer opencc_open(String configfilename);

//        int opencc_close(void* opencc);
        int opencc_close(Pointer opencc);

//        void opencc_convert_utf8_free(char* str);
        void opencc_convert_utf8_free(String str);

//        char* opencc_convert_utf8(opencc_t opencc, const char* input, size_t length)
        String opencc_convert_utf8(Pointer opencc, String input, int length);
    }

    public static void writeToFile(String utf8_str) throws IOException {
        Writer out = new OutputStreamWriter(new FileOutputStream("out.txt"), StandardCharsets.UTF_8);
        out.write(utf8_str);
        out.close();
    }

    public static String readFromFile() throws IOException {
        String res = "";
        Reader in = new InputStreamReader(new FileInputStream("in.txt"), StandardCharsets.UTF_8);
        try(BufferedReader read_buf = new BufferedReader(in)){
            String line;
            while((line = read_buf.readLine()) != null) {
                res += line;
            }
            read_buf.close();
        }
        return res;
    }

    public static void main(String[] args) throws UnsupportedEncodingException, FileNotFoundException {
        System.setProperty("jna.library.path", "D:\\Projects\\Open_Source\\OpwnCC\\Build(x64)\\src\\RelWithDebInfo");
        Pointer conf_file = openccDLL.Instance.opencc_open("s2t.json");
        try {
            String res_utf8 = readFromFile();
            System.out.println("From: " + res_utf8);
            byte[] ptext = res_utf8.getBytes("UTF-8");
//            String utf8_str = new String(res_utf8.getBytes("GBK"), "UTF-8");
            String trans_res = openccDLL.Instance.opencc_convert_utf8(conf_file, res_utf8, ptext.length);
            System.out.println("To:" + trans_res);
//            String trans_gbk = new String(trans_res.getBytes("UTF-8"), "GBK");
            writeToFile(trans_res);
            openccDLL.Instance.opencc_convert_utf8_free(trans_res);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        openccDLL.Instance.opencc_close(conf_file);
    }
}

json配置文件的路径有DLL决定,除了上面手动设置dll文件的路径之外,还可以将dll文件放置到bin目录下。上面使用的是jna-5.2.0。

4.填坑指南

实际上使用时会遇到N多的问题,这里仅列出一些注意事项,其实下面的有些问题具有一些普遍性,较为有价值。

DLL读取配置文件路径 

工程中读取json配置文件的路径是用宏变量定义,而Cmake的变量MAKE_INSTALL_PREFIX决定了工程中配置文件的宏变量,也决定了DLL被调用时读取配置文件的路径。路径中最好使用‘/’,而不是‘\’。

OCD文件的生成

进行简繁体文字转换的过程需要读取json和对应的ocd文件,ocd文件是由工程Dictionaries生成的,该工程又依赖与opencc_dict的opencc.exe程序。

实际使用时发现最新的1.0.5版本好像有一个错误,需要将上面的一个函数声明,改为下面的函数声明,否者会有一个链接错误。

void ConvertDictionary(const string inputFileName, const string outputFileName, const string formatFrom, const string formatTo);
OPENCC_EXPORT void ConvertDictionary(const string inputFileName, const string outputFileName, const string formatFrom, const string formatTo);

此外,data目录下生成的所有ocd文件需要和json配置文件放到同一个目录下,32位和64位的ocd文件也不要混用。

32位or64位

在使用java调用dll的时候要特别的注意,如果是64位的JDK,一定要编译64位的dll和所有的ocd文件。否者下面的这个错误会一直缠着你:

java.lang.UnsatisfiedLinkError: %1 不是有效的 Win32 应用程序

从两方面简述一下如何正确的生成64位的opencc工程文件。

使用cmake-gui configure直接指定64位的编译器,选择Visual Studio 14 2015 Win64,而不是Visual Studio 14 2015。

如果当前的工程为32位的工程,可以在VS中通过configuration manager来手动配置为x64位。将32位工程手动改为64位工程可能会有许多的坑,比如:

fatal error LNK1112: module machine type ‘x64‘ conflicts with target machine type ‘X86‘

下面列举出一些解决方案:

  1. Check your properties options in your linker settings at: Properties > Configuration Properties > Linker > Advanced > Target Machine. Select MachineX64 if you are targeting a 64 bit build, or MachineX86 if you are making a 32 bit build.
  2. Select Build > Configuration Manager from the main menu in visual studio. Make sure your project has the correct platform specified. It is possible for the IDE to be set to build x64 but an individual project in the solution can be set to target win32. So yeah, visual studio leaves a lot of rope to hang yourself, but that‘s life.
  3. Check your library files that they really are of the type of platform are targeting. This can be used by using dumpbin.exe which is in your visual studio VC\bin directory. use the -headers option to dump all your functions. Look for the machine entry for each function. it should include x64 if it‘s a 64 bit build.
  4. In visual studio, select Tools > Options from the main menu. select Projects and Solutions > VC++ Directories. Select x64 from the Platform dropdown. Make sure that the first entry is: $(VCInstallDir)\bin\x86_amd64 followed by $(VCInstallDir)\bin.
  5. Check in Visual Studio:Project Properties -> Configuration Properties -> Linker -> Command line."Additional Options" should NOT contain /machine:X86.I have such key, generated by CMake output: CMake generated x86 project, then I added x64 platform via Configuration Manager in Visual Studio 2010 - everything was create fine for new platform except linker command line, specified /machine:X86 separately.

编码问题

由于opencc内部处理字符串均使用的是utf-8编码,因此需要进行编解码的处理才能正确的调用DLL中的接口。

广义上来说,所谓乱码问题就是解码方式和编码方式不同导致的。这是一个很大的话题,这里不深入讨论,有兴趣可以参考我另一篇博文python编码问题分析,应该能对你有所启发。

在win10上使用cmake生成VS工程。编译的时候会遇到一个有趣的问题就是中文环境下utf-8文件中的部分汉字标点,竟然会有乱码,如下:

1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(32): error C3688: invalid literal suffix ‘銆‘; literal operator or literal operator template ‘operator ""銆‘ not found
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(32): error C3688: invalid literal suffix ‘锛‘; literal operator or literal operator template ‘operator ""锛‘ not found
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(32): error C3688: invalid literal suffix ‘鈥‘; literal operator or literal operator template ‘operator ""鈥‘ not found
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(32): error C2001: newline in constant
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(33): error C3688: invalid literal suffix ‘鈥‘; literal operator or literal operator template ‘operator ""鈥‘ not found
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(33): error C3688: invalid literal suffix ‘锛‘; literal operator or literal operator template ‘operator ""锛‘ not found
1>D:\Projects\Open_Source\OpwnCC\OpenCC-ver.1.0.5\src\PhraseExtract.cpp(33): error C3688: invalid literal suffix ‘銆‘; literal operator or literal operator template ‘operator ""銆‘ not found

文本编码对应关系(Visual Studio 2015 VS Notepad++):
file->Advance Save Options:

Chinese Simplified (GB2312) - Codepage 936 <==> GBK
Unicode (UTF-8 with signature) - Codepage 65001 <==> Encoding in UTF-8 BOM
Unicode (UTF-8 without signature) - Codepage 65001 <==> Encoding in UTF-8

将上面文件的编码方式从Unicode (UTF-8 without signature) - Codepage 65001改为 Chinese Simplified (GB2312) - Codepage 936即可。

python的编码转换比较简单,C++的转换接口上面已经列出,至于java,建议将java文件和数据文件的编码方式均改为utf-8,使用String utf8_str = new String(gbk_str.getBytes("UTF-8"), "UTF-8")这种转码方式可能带来一些奇怪的问题。

DLL与EXE局部堆问题

有一点需要注意,要确保正确释放DLL中使用new在堆中分配的内存空间,这里必须要使用DLL中提供的释放堆空间的函数,而不要在主程序中直接使用delete或者delete[].

简单的解释就是EXE和DLL分别有各自的局部堆,new和delete分别用于分配和释放各自局部堆上的空间,使用EXE中的delete来释放DLL中new的局部堆内存可能会导致错误,这个和具体的编译器有关。

上面的C++代码在EXE中delete DLL分配的空间,是一种未定义行为。

DLL调试技巧

实际使用尤其是使用不同语言对opencc.dll进行调用的时候会碰到很多问题,这时最好的办法就是使用VS的Attach To Process对DLL进行断点跟进。

对于python调用DLL,可以先打开一个python shell或者IDLE环境并在其中调用一下DLL,之后在VS中attach到对应的python进程,不要直接attach到sublime等IDE程序,因为IDE中运行的python程序而不是IDE本身直接调用DLL文件。

对于java而言,同样不能使用vs直接attach到Eclipse等IDE上。这里有一个技巧,就是在调用到DLL接口前的java代码加上一个断点,然后会在VS进程列表中看到一个javaw.exe程序,attach到这个程序后,接着运行java程序就会进入DLL中的断点了。

小结

如果能够耐心的浏览一遍,相信会发现这是一篇采坑复盘。能够从头开始独立的一步一步解决掉遇到的每一个问题,相信一定会别有一番滋味。希望本篇博文能在需要的时候对你有所帮助。

原文地址:https://www.cnblogs.com/yssjun/p/10447017.html

时间: 2024-10-31 20:08:27

OpenCC的编译与多语言使用的相关文章

大前端开发者需要了解的基础编译原理和语言知识

转自:https://yq.aliyun.com/articles/180879 在我刚刚进入大学,从零开始学习 C 语言的时候,我就不断的从学长的口中听到一个又一个语言,比如 C++.Java.Python.JavaScript 这些大众的,也有 Lisp.Perl.Ruby 这些相对小众的.一般来说,当程序员讨论一门语言的时候,默认的上下文经常是:“用 xxx 语言来完成 xxx 任务”.所以一直困扰着的我的一个问题就是,为什么完成某个任务,一定要选择特定的语言,比如安卓开发是 Java,前

ubuntukylin基础 使用gcc编译一个C语言 helloworld程序 预编译 汇编 编译 链接

镇场文:       学儒家经世致用,行佛家普度众生,修道家全生保真,悟易理象数通变.以科技光耀善法,成就一良心博客.______________________________________________________________________________________________________ 我的系统:UbuntuKylin 16.04 LTS 64bit step0: 查看当前的文件夹 step1: 用vim编辑器 创建一个C语言源代码文件 step2: 写出 可

编译与反编译GNU Linux语言文件方法

/*********************************************************************  * Author  : Samson  * Date    : 11/21/2014  * Test platform:  *              3.13.0-24-generic  *              GNU bash, 4.3.11(1)-release  * ************************************

Ubuntu的多文件编译以及c语言的数组、函数

闲言少叙,直接切入主题. 一.Linux下的多文件编译(Ubuntu系统). 对于小程序来说,往往一个.c文件就足够了,里面包含了各种主函数和功能函数,以及函数的声明等等.但是这样的弊端主要有两点,一是可读性较差,所有程序都在一个文件中造成检查和分析时候很不方便,特别是对于较大的工程来说,是无法想象的.第二点就是保密性,在工作中,我们要将程序交给客户,但是我们并不想让客户知道我们的源代码,所以要用这种方式将功能函数以.o的文件(二进制码)交给客户,确保自己的劳动成果不被别人剽窃,可以做到保护知识

自己动手写编译器之Tiny语言语法分析器的实现

接着上一篇文章介绍的Tiny语言的词法分析的实现,本文将介绍Tiny语言的语法分析器的实现. 1 Tiny语言的语法 下图是Tiny在BNF中的文法, 文法的定义可以看出,INNY语言有以下特点: 1 程序共有5中语句:if语句,repea语句,read语句,write语法和assign语句. 2 if语句以end作为结束符号,if语句和repeat语句允许语句序列作为主体. 3 输入/输出由保留字read和write开始.read语句一次只读出一个变量,而write语句一次只写出一个表达式.

更新我电脑的编译器之Python语言

这个可是我最稀罕的语言了,以后也行从事先关的工作,先把我电脑的装的卸载掉,Python的编译器是Pycharm,很久都没用了,卸载掉重装!vsc能写Python,Pycharm挺好,后期我先用idea集成在一起! 下载Python:https://www.python.org/       官网是3.8.1  我还是3.7呢  Pycharm也卸载掉,变量删掉. 下载完了,安装,完事next,install.完事close就行,我装的时候显示了一个禁用长度限制的一个提示,我没管,直接关了.cmd

cmd命令行进入DOS方式编译运行C语言程序实现字符串转换

需求:输入一个字符串(长度小于50),然后过滤掉所有的非数字字符,得到由数字字符组成的字符串,将其转化为double型结果输出(4位小数). 源程序: #include<stdio.h>int change(char*source,char *des){ int i=0; while(*source) { if(*source>='0'&&*source<='9') des[i++]=*source; source++; } des[i]='\0'; return

Linux 编译安装R语言

一.安装依赖包 yum install -y gcc gcc-gfortran glibc-headers readline-devel libXt-devel gcc-c++ xz-devel.x86_64 texinfo.x86_64 texlive-pdftex-doc.noarch (此依赖包装完最后./config时候会不支持pdf,会有相应报错,不过不影响使用) 二.安装步骤 wget http://lib.stat.cmu.edu/R/CRAN/src/base/R-3/R-3.0

为什么有些语言可以被反编译?而有的不能?

作者:hillin链接:https://www.zhihu.com/question/21853681/answer/74134768来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 要理解这个问题,先要看「正」编译的过程是怎样的.你有一个想法,这是一种人类自然语言可以表达出来的东西.你利用编程技能,把它「翻译」成你熟悉的一种编程语言: 然后编译器(compiler)将它翻译成机器所能理解的语言: 这中间的每一步都是一个「信息丢失」的过程.比如你说,我要把这些数排个