用 Cursor 开发了一个导航网站Cursor 已经火了一段时间了,在刚发布的时候进行了试用,但说实话给我的冲击感并不强烈,甚至觉得这不就是一节简单的 AI 写代码工具吗,同样的功能其他 vscode 插件也能实现;当时还一直在使用通义灵码,甚至后来还尝试过将 Deepseek 接入到 vscode, 同样用着还不赖。直到前段时间又看到铺天盖地的营销,决定再去试用一番,顺便上网看看教程,进行更全面的了解;
OpenAI 12 天发布会发布了啥OpenAI 于 12 月 5 日开启为期 12 天的系列发布活动,每天发布一个产品或样品,涵盖多个令人期待的 AI 工具和功能升级。包括 o1 满血版上线及 ChatGPT Pro 订阅服务、强化微调技术、Sora 正式版及新版本、ChatGPT Canvas 全面开放、与苹果合作将 ChatGPT 集成到 Apple Intelligence、高级语音模型增强、推出 ChatGPT Projects 功能、ChatGPT Search 全面升级免费开放、o1 推理模型开放 API、通过电话和 WhatsApp 使用 ChatGPT、ChatGPT 与 Mac 应用深度集成以及发布最新一代推理模型 o3 和 o3--mini。
大模型问答——pandas 读取大文件爆内存问题在数据大小(32G)和服务器 内存 大小(360G)差 10 被的情况下,使用 pandas 来读取数据,但是在读取数据的时候会导致内存被占满最终导致 python 脚本被 kill。原因定位。
Mac定时任务crontab 是 Linux 和 Unix 系统中的一个用来设置周期性任务调度的工具,它的全称是 "cron table"。crontab 文件包含了 cron 进程需要执行的任务列表,并指定任务的执行时间。cron 进程会根据 crontab 文件中的配置,在指定的时间自动执行任务。
Spark SQLSparkSQL 是 Spark 的一个模块,专为处理结构化数据而设计,提供了对 SQL 查询的支持,使得用户可以通过 SQL 或 DataFrame API 进行高效的数据处理和分析。SparkSQL 允许无缝地在结构化数据(如 JSON、Parquet、Hive 表)和 RDD 之间进行转换,集成了 Catalyst 优化器和 Tungsten 执行引擎,从而实现查询优化和高效执行。此外,SparkSQL 还支持与多种数据源的集成,使其在大数据处理和分析领域具有广泛的应用。
Spark CoreSpark Core 是 Apache Spark 的核心模块,提供了对分布式内存计算和数据处理的基础支持,基于 RDD(Resilient Distributed Dataset)这一基本数据抽象,实现了高效的并行计算和容错机制。通过 SparkContext 与集群交互,DAG Scheduler 和 Task Scheduler 调度任务执行,Block Manager 管理数据块的存储和传输,用户可以通过丰富的 RDD API 构建和执行复杂的数据处理任务。Spark Core 支持批处理、交互式查询、机器学习和图计算等多种应用场景,是 Spark 生态系统的基础。
Spark 开篇Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用 程序计算数据。Spark 集成了多种大数据工具和框架,如 Kafka、Cassandra、HBase、HDFS 等,形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。
HiveApache Hive 是一个用于大数据处理的开源数据仓库工具,最初由Facebook开发并于2010年贡献给Apache软件基金会。它设计的主要目的是使数据分析人员能够通过类SQL语言(即HiveQL)在Hadoop分布式文件系统 (HDFS) 上执行大规模数据查询和分析。Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。