facets学习(1):什么是facets

ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

可视化的部分是通过(https://www.polymer-project.org)Polymer web components来实现的。后来采用的开发语言是TS(可恶,为啥不是JS,还要去学习)。

而且,很容易的就可以嵌入到jupyter notebooks(使用python的我乐了)或者嵌入到web网页中。

具体的demo可以访问网页:https://pair-code.github.io/facets/

Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到最前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

时间: 2024-10-16 13:18:28

facets学习(1):什么是facets的相关文章

IDEA里面的facets和artifacts的讲解

Facets: Facets表述了在Module中使用的各种各样的框架.技术和语言.这些Facets让Intellij IDEA知道怎么对待module内容,并保证与相应的框架和语言保持一致. 使用Facets能让我们下载并配置framework所必须的组件,会自动生成各种各样的描述符,并存储在适当的位置,等等. 大多数Facets可以无冲突得添加到Module中. 也有一些Facets是继承其他Facets的,这些Facets的添加就必须先添加他们的父Facets,这些Facets也要依赖In

一步一步跟我学习lucene(16)---lucene搜索之facet查询查询示例(2)

本篇是接一步一步跟我学习lucene(14)---lucene搜索之facet索引原理和facet查询实例(http://blog.csdn.net/wuyinggui10000/article/details/45973769),上篇主要是统计facet的dim和每个种类对应的数量,个人感觉这个跟lucene的group不同的在于facet的存储类似于hash(key-field-value)形式的,而group则是单一的map(key-value)形式的,虽然都可以统计某一品类的数量,显然f

C# 操作XML学习笔记

1. Customers.xml 1 <?xml version="1.0" encoding="utf-8"?> 2 <cust:customers xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="Customers.xsd" 3 xmlns:cust="http://asn.

Elasticsearch的javaAPI之facet,count,delete by query

Elasticsearch的javaAPI之count count API允许轻松地执行一个查询,获得匹配的数量,可以跨越一个或多个index ,一个或多个type. import static org.elasticsearch.index.query.xcontent.FilterBuilders.*; import static org.elasticsearch.index.query.xcontent.QueryBuilders.*; CountResponse response =

solrconfig.xml解析

solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置.下面将对solrconfig进行详细描述:1 <luceneMatchVersion>4.8</luceneMatchVersion> 表示solr底层使用的是lucene4.82 <lib dir="../../../contrib/extraction/lib" regex=".*\.jar" /> 表

eclipse项目中.classpath文件详解

1 前言 在使用eclipse或者myeclipse进行Java项目开发的时候,每个project(工程)下面都会有一个.classpath文件,那么这个文件究竟有什么作用? 2 作用 .classpath文件用于记录项目编译环境的所有信息,包括:源文件路径.编译后class文件存放路径.依赖的jar包路径.运行的容器信息.依赖的外部project等信息.如果把该文件删除,则eclipse不能讲该工程识别为一个正常的java工程,仅仅当做普通的文件夹而导致不能正常运行. 3 .classpath

eclipse搭建maven的web项目(SSM框架)

1.File -> New -> Other,在New窗口中选择 Maven -> Maven Project:点击next 选择项目路径 Usedefault Workspace location默认工作空间 2.选择项目类型 在Artifact Id中选择maven-archetype-webapp 3.输入Group ID和 Artifact ID,以及Package         Group ID一般写大项目名称.Artifact ID是子项目名称         Packag

Effective C++ 49,50

49.熟悉标准库. C++标准库很大. 首先标准库中函数很多,为了避免名字冲突,使用命名空间std.而之前的库函数都存放于< .h>中,现在成为伪标准库.而不能直接将这些头文件全部直接添加命名空间,标准委员会只能重新创建了不带.h的头文件.对于C中头文件采用同样的方法,但是每个名字前添加一个c,如C中的<string.h>变成了<cstring>.旧的c++头文件是官方反对使用的,但旧的c头文件不是,为了保持对C的兼容性.如 <string.h>是旧的C头文

Java Web实用小知识01

${ctx}与 ${pageContext.request.contextPath}这两个为一个意思,都是获取当前根目录. 不同的是${ctx}为${pageContext.request.contextPath}的简写版,经查证之后果真如此, 发现在项目的一个文件内有这样一段话的配置<c:setvar="ctx"value="${pageContext.request.contextPath}"/> 注意在使用${ctx的时候一定不要忘记把带有该配置的