通过使用Python-和机器学习降低日志噪音 (python怎么读)

教程大全 2025-07-17 22:45:00 浏览

持续集成(CI)作业会生成大量数据。当一个作业失败时,弄清楚出了什么问题可能是一个繁琐的过程,它涉及到调查日志以发现根本原因 —— 这通常只能在全部的作业输出的一小部分中找到。为了更容易地将最相关的数据与其余数据分开,可以使用先前成功运行的作业结果来训练 Logreduce 机器学习模型,以从失败的运行日志中提取异常。

此方法也可以应用于其他用例,例如,从 Journald 或其他系统级的常规日志文件中提取异常。

使用机器学习来降低噪音

典型的日志文件包含许多标称事件(“基线”)以及与开发人员相关的一些例外事件。基线可能包含随机元素,例如难以检测和删除的时间戳或唯一标识符。要删除基线事件,我们可以使用 k-最近邻模式识别算法(k-NN)。

日志事件必须转换为可用于 k-NN 回归的数值。使用通用特征提取工具 HashingVectorizer 可以将该过程应用于任何类型的日志。它散列每个单词并在稀疏矩阵中对每个事件进行编码。为了进一步减少搜索空间,这个标记化过程删除了已知的随机单词,例如日期或 IP 地址。

训练模型后,k-NN 搜索可以告诉我们每个新事件与基线的距离。

使用机器学习来降低噪音使用机器学习来降低噪音

这个 Jupyter 笔记本 演示了该稀疏矩阵向量的处理和图形。

Logreduce Python 软件透明地实现了这个过程。Logreduce 的最初目标是使用构建数据库来协助分析 Zuul CI 作业的失败问题,现在它已集成到 Software Factory 开发车间的作业日志处理中。

最简单的是,Logreduce 会比较文件或目录并删除相似的行。Logreduce 为每个源文件构建模型,并使用以下语法输出距离高于定义阈值的任何目标行:distance | filename:line-number: line-content。

$logreducediff/var//audit/audit.log.1/var//audit/audit.logINFOlogreduce.Classifier-Trainingtook21.982sat0.364MB/s(1.314kl/s)(8.000MB-28.884kilo-lines)0.244|audit.log:19963:=USER_authacct=exe=hostname=managesf.sftests.comINFOlogreduce.Classifier-Testingtook18.297sat0.306MB/s(1.094kl/s)(5.607MB-20.015kilo-lines)99.99%reduction(from20015linesto1

更高级的 Logreduce 用法可以离线训练模型以便重复使用。可以使用基线的许多变体来拟合 k-NN 搜索树。

$logreducedir-trainaudit.clf/var//audit/audit.log.*INFOlogreduce.Classifier-Trainingtook80.883sat0.396MB/s(1.397kl/s)(32.001MB-112.977kilo-lines)DEbuglogreduce.Classifier-audit.clf:written$logreducedir-runaudit.clf/var//audit/audit.log

Logreduce 还实现了接口,以发现 Journald 时间范围(天/周/月)和 Zuul CI 作业构建历史的基线。它还可以生成 HTML 报告,该报告在一个简单的界面中将在多个文件中发现的异常进行分组。

使用 k-NN 回归进行异常检测的关键是拥有一个已知良好基线的数据库,该模型使用数据库来检测偏离太远的日志行。此方法依赖于包含所有标称事件的基线,因为基线中未找到的任何内容都将报告为异常。

CI 作业是 k-NN 回归的重要目标,因为作业的输出通常是确定性的,之前的运行结果可以自动用作基线。 Logreduce 具有 Zuul 作业角色,可以将其用作失败的作业发布任务的一部分,以便发布简明报告(而不是完整作业的日志)。只要可以提前构建基线,该原则就可以应用于其他情况。例如,标称系统的 SoS 报告 可用于查找缺陷部署中的问题。

下一版本的 Logreduce 引入了一种 服务器 模式,可以将日志处理卸载到外部服务,在外部服务中可以进一步分析该报告。它还支持导入现有报告和请求以分析 Zuul 构建。这些服务以异步方式运行分析,并具有 Web 界面以调整分数并消除误报。

已审核的报告可以作为独立数据集存档,其中包含目标日志文件和记录在一个普通的 JSON 文件中的异常行的分数。

Logreduce 已经能有效使用,但是有很多机会来改进该工具。未来的计划包括:


和机器学习降低日志噪音

我的梦想是做一名伟大的科学家 作文400字

我有一个梦想

我有一个梦想,深深扎根于我的心中。那就是长大后,我要成为一个科学家。
尽管我没有过人的才智,没有严密的思维,也没有特别准确的判断力,但是我仍不会放弃努力。尽管这个梦想距我很遥远,但我仍不会停止追求。尽管在实现梦想的过程中,会有很多挫折和无数的磨难,但我仍不会灰心丧气。因为我相信,只有经历地狱般的磨练,

才能练出创造天堂的力量;只有流过血的手指,才能弹出世间的绝唱;只有经历困难和挫折,才能实现自己的梦想。
以前,每当我看到科学家们令人瞩目的成就时,总会感到羡慕和敬佩。是他们,推动了社会的发展;是他们,使人民生活水平得到提高;更是他们,为祖国的发展赢来了一个崭新的明天。
因此,我想成为一个科学家,成为一个对国家有贡献的人,成为这个国家的栋梁。每当我看到浪费时间的人时,我会为他们感到惋惜;每当我看到灰心丧气的人时,会为他们感到悲哀;每当我看到不务正业的人时,我会感到愤恨。因为他们没有看到自己的价值,没有属于自己的梦想。这样的人生,是没有意义的人生。
而我,至少有一个梦想,一个目标。有了这个梦想,我就会一直努力下去,永不放弃。有了这个梦想,就等于把握了自己的人生航向,不会再迷失方向。有了这个梦想,就好象一盏明灯,照亮了我前进的道路。一直通往胜利的顶峰。
为了这个梦想,我会努力奋斗。也希望人人能向着自己的梦想奋进,寻找属于自己的明天!

SEO的基础知识和操作、分别有哪些?

seo的基础知识包括

1. seo的基本概念

2. seo各个专业名词的基本概念,比如锚文本,蜘蛛,机器人,网站日志,域名,二级域名,二级目录,google沙盒,内链接,外链接,死链接,301重定向,pv,ip等等。

3. seo的操作,也是比较多,但是不同的seo工作者,注重不同的操作方式,但是共同的三个操作一定是有的。 就是:站内优化,原创内容,外链接。

以上基本包含了seo的重要部分内容,但是超越竞争对手,需要做的比竞争对手更加好。

口袋妖怪心金魂银什么精灵学秘传机好?要好抓的,等级别太低更好哈。

交通工具精灵的选择:①、穿山王:游戏中期就可以在连接山洞(定点捕捉乘龙的山洞)内捕捉穿山鼠、22级进化!进化为穿山王之后就可以学习秘传机作为队伍交通工具了:可掌握居合斩(砍树)+怪力+碎岩+攀岩、是一周目最实用的交通精灵之一!②、哥达鸭:6,35号路水域、黑暗森林水域、白银山水域都可以捕捉、或者由可达鸭升级进化得到、可以掌握游戏除飞天与居合斩以外的秘传机、推荐考虑!③、部分秘传机可以考虑由队伍主力精灵掌握:如:比雕飞天、叉字蝠飞天、大力鳄攀瀑、乘龙冲浪、暴鲤龙攀瀑等等!

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐