C语言实现二叉树-利用二叉树统计单词数目

昨天刚参加了腾讯2015年在线模拟考；

四道大题的第一题就是单词统计程序的设计思想；

为了记住这一天，我打算今天通过代码实现一下；

我将用到的核心数据结构是二叉树；

（要是想了解简单二叉树的实现，可以参考我的另一篇文章：http://www.cnblogs.com/landpack/p/4783120.html）

Problem

我需要统计的单词是在程序直接硬编码的；

这样做得原因是省略了文件输入输出所带来的困惑；

我的每篇文章，一般只说一个主题；

这样也方便我日后复习；

Solution

首先，我们需要定义一个结构体，如下代码所示：

const int LONGEST_WORD = 32;    // The longest word size

struct binary_tree {
    char str[LONGEST_WORD];
    int count;
    struct binary_tree * left;
    struct binary_tree * right;
};

typedef struct binary_tree node;

注意到，我们假设最长的单词定义为一个常量，在这里我觉得目前32这个长度应该可以啦；

如果要统计的文章是化学论文，建议你再加大数字，因为化学式通常都很长；

然后是，我们的结构体；这应该很容易理解的；

由于C语言没有提供我想要的BOOL类型，因此自己动手写啦下面的代码；

这个定义非常有用，通常它比define更加值得推荐；

enum BOOL {
    NO,
    YES
};  

typedef enum BOOL BOOL;

接下来，我们需要知道单词之间是如何比较大小的；

因此，需要一个函数叫做cmp；

代码实现如下：

BOOL cmp(char * s, char * t)
{
    int i;
    for (i = 0; s[i] == t[i]; i++)
        if ( s[i] == ‘\0‘ )
            return NO;
    return (s[i] - t[i]) < 0 ? NO:YES;
}

同时遍历两个字符串，然后对返回值进行一个处理；

这样只会返回两种情况NO/YES，不然的话会返回三种值(-1，0，正数);

那样的话，不利于我们往后的工作；

接下来呢，就是如果返回YES我们该（如何）（做什么）；

如果返回NO我们又该（如何）（做什么）；

因此，我们需要一个insert函数，把数据的两种不同分别插入左右子树；

void insert(node ** tree, char * val) {
    node * temp = NULL;
    if(!(*tree)) {
        temp = (node*)malloc(sizeof(node));
        temp->left = temp->right = NULL;
        temp->str = val;    //issue code ...
        temp->count = 1;
        *tree = temp;
        return ;
    }

    if(cmp(val, (*tree)->str)) {
        insert(&(*tree)->left,val);
    }else if (cmp(val,(*tree)->str)) {
        insert(&(*tree)->right,val);
    }else{
        (*tree)->count++;
    }
}

这段代码和前面提到的(C语言实现二叉树)里面的代码几乎一样的，哪里有详细介绍；

这里主要讲解一下注释有issue code的那行，如果这行不修改，程序将会蹦溃；

但是，我会故意不马上修改它，继续往下写；

我们需要一个函数，销毁节点：

void deltree(node * tree) {
    if(tree) {
        deltree(tree->left);
        deltree(tree->right);
        free(tree);
    }
}

为了查看我们的结果，我们需要一种遍历方式；

这里我们就选择中序吧！

void print_inorder(node * tree) {
    if(tree) {
        print_inorder(tree->left);
        printf("[%s\t\t\t]count:[%d]\n",tree->str,tree->count);
        print_inorder(tree->right);
    }
}

我们把头文件stdio.h/stdlib.h引入后；

把主int main(int argc, char ** arg{

    node * root;
    node * tmp;
    //int i;

    root = NULL;
    /* Inserting nodes into tree */
    insert(&root,"hello");
    insert(&root,"hey");
    insert(&root,"hello");
    insert(&root,"ok");
    insert(&root,"hey");
    insert(&root,"hey");
    insert(&root,"hey")；

    printf("In Order Display\n");
    print_inorder(root);/* Deleting all nodes of tree */

    deltree(root);
}

gcc编译运行得到如下结果：

果然，我们的issue code有问题，原因是字符串不能像其他的，例如int类型一样直接用‘=’号赋值；

所以我们需要一个cpy函数：

void mystrcpy(char *s, char *t)
{
    while ((*s++ = *t++) != ‘\0‘)
        ;
}

所有代码如下：

#include <stdio.h>
#include <stdlib.h>

const int LONGEST_WORD = 32;    // The longest word size

struct binary_tree {
    char str[LONGEST_WORD];
    int count;
    struct binary_tree * left;
    struct binary_tree * right;
};

typedef struct binary_tree node;

enum BOOL {
    NO,
    YES
};

typedef enum BOOL BOOL;

BOOL cmp(char * s, char * t)
{
    int i;
    for (i = 0; s[i] == t[i]; i++)
        if ( s[i] == ‘\0‘ )
            return NO;
    return (s[i] - t[i]) < 0 ? NO:YES;
}
void mystrcpy(char *s, char *t)
{
    while ((*s++ = *t++) != ‘\0‘)
        ;
}

void insert(node ** tree, char * val) {
    node * temp = NULL;
    if(!(*tree)) {
        temp = (node*)malloc(sizeof(node));
        temp->left = temp->right = NULL;
        //temp->str = val;  //issue code ...
        mystrcpy(temp->str,val);
        temp->count = 1;
        *tree = temp;
        return ;
    }

    if(cmp(val, (*tree)->str)) {
        insert(&(*tree)->left,val);
    }else if (cmp(val,(*tree)->str)) {
        insert(&(*tree)->right,val);
    }else{
        (*tree)->count++;
    }
}

void deltree(node * tree) {
    if(tree) {
        deltree(tree->left);
        deltree(tree->right);
        free(tree);
    }
}

void print_inorder(node * tree) {
    if(tree) {
        print_inorder(tree->left);
        printf("[%s\t\t\t]count:[%d]\n",tree->str,tree->count);
        print_inorder(tree->right);
    }
}

int main(int argc, char ** argv)
{
    node * root;
    node * tmp;
    //int i;

    root = NULL;
    /* Inserting nodes into tree */
    insert(&root,"hello");
    insert(&root,"hey");
    insert(&root,"hello");
    insert(&root,"ok");
    insert(&root,"hey");
    insert(&root,"hey");
    insert(&root,"hey");

    printf("In Order Display\n");
    print_inorder(root);

    /* Deleting all nodes of tree */

    deltree(root);
}

最后运行结果如下：

Discussion

那么这个程序已经完成啦！

还有很多可以优化的，也可以增加更多的功能；

例如，查找特定字符出现的次数；

或者特定字符所出现的行数，等等都可以；

我们会在日后慢慢完善；

C语言实现二叉树-利用二叉树统计单词数目的相关文章

JSK-27321 统计单词数【字符串】

统计单词数一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数. 现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在给定的文章中出现的次数和第一次出现的位置. 注意:匹配单词时,不区分大小写,但要求完全匹配, 即给定单词必须与文章中的某一独立单词在不区分大小写的情况下完全相同(参见样例 1), 如果给定单词仅是文章中某一单词的一部分则不算匹配(参见样例 2). 输入格式第 1 行为一个字符串,其中只含字母,表示

SDUT 3342 数据结构实验之二叉树三：统计叶子数

数据结构实验之二叉树三:统计叶子数 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Problem Description 已知二叉树的一个按先序遍历输入的字符序列,如abc,,de,g,,f,,, (其中,表示空结点).请建立二叉树并求二叉树的叶子结点个数. Input 连续输入多组数据,每组数据输入一个长度小于50个字符的字符串. Output 输出二叉树的叶子结点个数. Example Input abc,,de,g,,f

C语言非递归实现二叉树的先序、中序、后序、层序遍历

C语言非递归实现二叉树的先序.中序.后序.层序遍历代码如下: 1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <stack> 4 #include <queue> 5 using namespace std; 6 7 //*****二叉树的二叉链表存储表示*****// 8 typedef struct BiNode 9 { 10 char data; 11 struct BiNode *lchil

C语言K&R习题系列——统计文档中每个单词所占字母个数，以直方图形式输出

原题: Write a program to print a histogram of the lengths of words in its input. It is easy to draw the histogram with the bars horizontal; a vertical orientation is more challenging. 这也是我第一个过百行的代码(带注释,空格什么的) 主要分两个部分:输入和输出 #include < stdio.h > #define

统计单词个数案例

Linux系统将每一个驱动都映射成一个文件．这些文件称为设备文件或驱动文件,都保存在/dev目录中.编写linux驱动最重要的一步就是编写回调函数,否则与设备文件交互的数据无法得到处理. 1. 编写linux驱动程序的步骤: 第 1 步:建立 Linu x 驱动骨架 (装载和卸载 Linu x 驱动): Linux 内核在使用驱动时首先需要装载驱动.当 Linux系统退出时需要卸载 Linux 驱动,在卸载的过程中需要释放由 linux 驱动占用的资源,例如,删除设备文件.释放内存地址空间等.在

第六章第一个Linux驱动程序：统计单词个数心得笔记

一.Linux系统将每个驱动都映射成一个文件.这些文件称为设备文件或驱动文件,都保存在/dev目录中.这使得与Linux驱动进行交互就向与普通文件进行交互一样容易.大多数Linux驱动都有与其对应的设备文件,因此与Linux驱动交换数据变成与驱动设备交换数据. 二.编写Linux驱动程序 1.建立Linux驱动骨架 Linux内核在使用驱动时需要装载与卸载驱动装载驱动:建立设备文件.分配内存地址空间等:module_init 函数处理驱动初始化

六、第一个Linux驱动程序：统计单词个数 ——学习笔记

第6章第一个Linux驱动程序:统计单词个数 ——学习笔记一.首先了解一下: 打印机驱动写入数据:对于打印机驱动来说,需要接收这些被写入的数据,并将它们通过PC的并口.USB等端口发送给打印机.要实现这一过程就需要Linux驱动可以响应应用程序传递过来的数据.这就是Linux驱动的事件,虽然在C语言里没有事件的概念,但却有与事件类似的概念,这就是回调(callback)函数.因此,编写Linux驱动最重要的一步就是编写回调函数,否则与设备文件交互的数据将无法得到处理.图6-1是应用软件.设备

第六章：第一个Linux驱动程序：统计单词个数

Linux驱动的工作和访问方式是Linux的亮点之一,Linux系统将每一个驱动都映射成一个文件,这些文件称为设备文件或驱动文件,都保存在/dev目录中.这种设计理念使得与Linux驱动进行交互就像与普通文件进行交互一样容易.Linux驱动交换数据就就是设备文件交换数据.在进行设备文件交互时,必须编写回调函数,否则设备文件无法得到处理.编写Linux驱动程序的步骤如下:1.建立Linux驱动骨架(装载和卸载Linux驱动).2.注册和注销设备文件.3.指定与驱动相关的信息.4.指定回调函数.5.

（eden）排序二叉树VS二叉树链表

排序二叉树 Description: If you have any doubt on this assignment, please send an email to its author 黎洋. --> 题目大意:请完成下面四个函数的定义(在tree.h文件中),使整个程序能够利用排序二叉树的结构对输入的数(不会出现相同的数),进行排序输出.节点的结构体在下面已给出,这个二叉树的特征是,左子数的值肯定比父节点小,右子树的值肯定比父节点的大.要求大家按照这个结构特征去构建二叉树,最后中序遍历输