Hive实战之Youtube数据集,hive平台-达达云

新闻资讯

Hive实战之Youtube数据集,hive平台

发布时间：2023-09-15 12:28:32

Hive实战之Youtube数据集

Hive是一个基于Hadoop的数据仓库基础设施，可以用于处理大范围的结构化数据。在Hive中，使用类似SQL的查询语言来处理数据，使得用户可以方便地进行数据分析和查询。
在本实战中，我们将使用Hive来处理Youtube数据集。Youtube数据集是一个包括了Youtube视频的信息的数据集，其中包括了视频的id、标题、发布时间、观看数、喜欢数、不喜欢数等信息。我们将使用Hive来加载这个数据集，并进行一些简单的数据分析。
首先，我们需要下载Youtube数据集。你可以在以下链接中找到这个数据集：https://archive.org/download/yt8m_pca/yt8m_pca_train.csv
下载完成后，我们需要将数据集加载到Hive中。可以通过以下命令来创建数据表，并将数据加载进去：
```
CREATE TABLE youtube_data (
video_id STRING,
title STRING,
published_at STRING,
view_count BIGINT,
like_count BIGINT,
dislike_count BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH '/path/to/yt8m_pca_train.csv' OVERWRITE INTO TABLE youtube_data;
```
在上述命令中，我们首先创建了一个名为youtube_data的表，定义了各个字段的类型。然后，通过LOAD DATA命令将数据加载到表中。
加载完成后，我们可使用Hive的SQL语言进行数据查询和分析。以下是一些示例查询：
1. 统计视频数量：
```
SELECT COUNT(*) FROM youtube_data;
```
2. 依照观看数进行排序：
```
SELECT * FROM youtube_data ORDER BY view_count DESC;
```
3. 统计观看数大于100000的视频数量：
```
SELECT COUNT(*) FROM youtube_data WHERE view_count > 100000;
```
通过使用Hive，我们可以方便地对大范围的结构化数据进行查询和分析。这对处理Youtube数据集这样的大范围数据集非常有用。

上一篇：在Spring中使用Quartz,spring的使用场景

下一篇：Dataformatstring属性设置(详解)

excel文件已损坏无法打开怎么解决,ex··· 2023-09-11
德阳服务器租用如何选择 2021-02-01
python怎么读取文件夹下所有文件,pyt··· 2023-11-01
dns备用服务器怎么配置,dns 备用 2023-08-14
java手机验证码怎么实现,java实现手机··· 2023-09-05
影响韩国服务器访问量的因素有哪些 2022-05-26
分析流量对防御DDOS攻击有何价值？ 2023-02-02
重庆服务器租用价格一般多少钱？ 2021-01-28
Flex4如何使用itemRenderer为Tree加线··· 2023-08-15
如何使用flash制作情人节动画,怎样使··· 2023-08-04

新闻资讯

新闻资讯

最新资讯

热门资讯

Hive实战之Youtube数据集,hive平台

相关文章：

推荐文章：

现在咨询，即可免费定制服务器安全解决方案