结对项目 - 词频统计Ⅱ

目的与要求


  • 代码复审练习
  • 结对练习
  • 编写单元测试
  • 基于上一个结对项目的结果,读取小文本文件A_Tale_of_Two_Cities.txt 或者 大文本文件Gone_with_the_wind.txt,统计某一指定单词在该文本文件中出现的频率。
  • 命令行格式: 提示符> Myapp.exe -f filename.txt -w word (PS:C++ 程序,Java 程序输出方式类似)
  • 解释:
    • 选项 -f 表示打开某一文件
    • 选项 -w 表示统计其后单词在打开的文件中的频率


详细内容


  1. 思路:

    基于上一个 结对项目 - 词频统计 的程序和结果,加入了输入的语句,用户可以通过输入所要查询的文件路径及文件名,可以查询到该文本中某一单词的出现频率。

  2. 分工:

    本次主要是小伙伴带着我开展对Java的学习。

  • 源代码
import java.util.*;
import java.util.Map.Entry;
import java.io.*;

public class WordCount3
{
    public static void main(String[] args)  throws Exception
    {
        Map<String,Integer> map=new HashMap<String,Integer>();
        System.out.println("请输入所要查询的文件路径及文件名:");
        Scanner bs=new Scanner (System.in);
        String files=bs.nextLine();

        File file = new File(files+".txt");
        FileReader reader = new FileReader(file);
        int fileLen = (int)file.length();
        char[] chars = new char[fileLen];
        reader.read(chars);
        String text = String.valueOf(chars);

        text = text.replaceAll("[\\‘‘.“”,,]", "");  //删除字符串中的标点符号
        text = text.toLowerCase();//将文字全部转换为小写
        StringTokenizer take =  new StringTokenizer(text); //StringTokenizer是一个用来分隔String的应用类
        String word = new String();
        int i =0;
        while( take.hasMoreElements() )
        {

            word=take.nextToken() ;
            if(word.length()>=4)
            {
                Integer count = map.get(word);
                if(count == null)
                {
                    map.put(word,1);
                }
                else{
                map.put(word,++count);
                }
            }
            i++;
        }

        //排序
        List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(map.entrySet());
        Collections.sort( list, new Comparator<Map.Entry<String, Integer>>()
        {
            public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2)
            {
                if(o1.getValue()<o2.getValue())
                  return 1;
                else if(o1.getValue()>o2.getValue())
                  return -1;
                else
                  return(o1.getKey().compareTo(o2.getKey()));
            }
        } );

           System.out.println("请输入要查询的单词:");
           Scanner sc=new Scanner(System.in);
           String scword=sc.nextLine().toLowerCase();
           for(Map.Entry<String,Integer> entry : map.entrySet())
           {
                  if(entry.getKey().equalsIgnoreCase(scword))
                  {
                      System.out.println(scword+"在该文本中出现"+ entry.getValue()+"次\r\n已保存入指定目录文本中");
                      File outfile = new File("D:\\Software\\SorfwareTest\\Result2.txt");
                      try
                      {
                          if (file.exists()) outfile.delete();
                          BufferedWriter bw = new BufferedWriter(new FileWriter(outfile));
                          StringBuffer out = new StringBuffer();
                           out.append(scword+"在该文本中出现"+ entry.getValue()+"次\r\n");
                           bw.write(out.toString());
                           bw.flush();
                           bw.close();
                           }
                           catch (IOException e)
                           {
                                e.printStackTrace();
                           }
                          }
               else  continue;
           }

        //输出TXT

   }

  }
  • 运行结果

打开文本文件

  • 小结

    本次的作业主要由小伙伴编辑,我学习并试着上手实际操作,  真·学海无涯

  • 源代码Github地址

https://github.com/Jennyhyt/My-source-code/blob/master/TeamWork-WFS%E2%85%A1.cpp

时间: 2024-10-10 22:06:03

结对项目 - 词频统计Ⅱ的相关文章

结对项目 - 词频统计

目的与要求 代码复审练习 结对练习 编写单元测试 基于作业3的结果,读取一个较小的文本文件A_Tale_of_Two_Cities.txt,统计该文件中的单词的频率,并将统计结果输出到当前目录下的 Result1.txt 文件. (第一阶段初稿完成该要求) 命令行格式: 提示符> Myapp.exe -f filename.txt > Result.txt (PS:C++ 程序,Java 程序输出方式类似) filename.txt 为前面下载的文件名. 解释: 选项 -f 表示后面跟文件名

作业4:结对项目—— 词频统计

1. 要求 基于作业3的结果,读取一个较小的文本文件A_Tale_of_Two_Cities.txt,统计该文件中的单词的频率,并将统计结果输出到当前目录下的 Result1.txt 文件. (第一阶段初 稿完成该要求). 命令行格式: 提示符> Myapp.exe -f filename.txt > Result.txt (PS:C++ 程序,Java 程序输出方式类似) filename.txt 为前面下载的文件名. 解释: 1.选项 -f 表示后面跟文件名 2.输出格式规定(参考作业3中

结对项目— 词频统计(语言C++)

结对对象:季天梦 博客地址:http://www.cnblogs.com/jitianmeng/ github链接:https://github.com/liuyutianlyt/EX_4.md 比例:1:1  要求 [必做 1] 基于作业3的结果,读取一个较小的文本文件A_Tale_of_Two_Cities.txt,统计该文件中的单词的频率,并将统计结果输出到当前目录下的 Result1.txt 文件. (第一阶段初稿完成该要求) 命令行格式: 提示符> Myapp.exe -f filen

结对项目— 词频统计2(语言C++)

结对对象:季天梦 博客地址:http://www.cnblogs.com/jitianmeng/ github链接:https://github.com/liuyutianlyt/EX_4.md 比例:1:1   要求 [必做 2] 读取小文本文件A_Tale_of_Two_Cities.txt 或者 大文本文件Gone_with_the_wind.txt,统计某一指定单词在该文本文件中出现的频率. 命令行格式: 提示符> Myapp.exe -f filename.txt -w word (P

作业4:结对项目——词频统计

1. 目标 代码复审练习 结对练习 编写单元测试 2. 要求 [必做 2] 读取小文本文件A_Tale_of_Two_Cities.txt 或者 大文本文件Gone_with_the_wind.txt,统计某一指定单词在该文本文件中出现的频率. 命令行格式: 提示符> Myapp.exe -f filename.txt -w word (PS:C++ 程序,Java 程序输出方式类似) 解释: 选项 -f 表示打开某一文件(filename.txt) 选项 -w 表示统计其后单词(word)在打

task4:结对项目-词频统计

结对人:周楠 思路:利用TreeMap实现key字典序,然后输出到LinkedList,然后用Comparator,实现字典值从大到小排序,但是key实现值相同的key字典序的想出的实现方法,但是一直错是返回null,不知所以. 程序: 1 class sort2{ 2 LinkedList<Map.Entry<String, Integer>> yy; 3 LinkedList<Map.Entry<String, Integer>> temppp; 4 5

《结对-英文词频统计-结对项目总结》

结对项目心得: 完成之后感觉实际耗时应该比原计划少一些,查找相关方法.不过感觉python还是相对比较容易上手的,有这么多可以直接调用的方法.这一部分大概用时三个半小时. 其他部分的工作用时与预计没有太大差距. 最省时间的是程序没有出现太大问题,所以大大减少了时间. 最主要的是两人合作.

个人项目——词频统计

前言: 开发工具:Visual Studio 2013 开发语言:C++ 源代码管理工具:Github Github源代码网址:https://github.com/superyy/YY1/blob/master/%E8%AF%8D%E9%A2%91%E7%BB%9F%E8%AE%A1main.cpp 预计各功能所花时间:some hours 实际各功能所花时间:some hours 性能提高所花时间:some hours 要求 :实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4

个人项目----词频统计WEB(部分功能)

需求分析 1.使用web上传txt文件,对上传的txt进行词频统计. 2.将统计后的结果输出到web页面,力求界面优美. 3.在界面上展示所给url的文章词频统计,力求界面优美. 3.将每个单词同四.六级词库进行比对,统计所传txt文件中四.六级单词涵盖率. 4.在3的基础上,展示文章中前10%单词中的覆盖百分比,词频前50%单词.词频前80%单词的覆盖百分比. 由于能力有限,学习了很久,到目前为止之完成了第一个功能,并对结果进行了输出,界面部分还有待学习. 代码实现 创建了两个JSP界面,up