2月29日 消息:数字化时代,对我们所遇到的文件进行准确识别至关重要,这涉及到用户安全和信息保护的方方面面。然而,在处理众多文件格式时,如何准确迅速地检测文件内容成为一项挑战。现有方法可能并不总是高效或准确,可能导致潜在风险或误分类。
Magika作为一种创新的文件类型检测工具,借助人工智能(AI)和深度学习技术,成为解决这一问题的新选择。其采用了一种自定义且高度优化的Keras模型,仅占用约1MB的空间。Magika的独特之处在于,即使在单个CPU上运行,也能在毫秒内提供精准的文件识别能力,这在效率上是对现有解决方案的显著改进。
Magika的卓越性能得到了在超过1百万个文件、涵盖100多种内容类型(包括二进制和文本文件格式)的数据集上的评估。工具实现了99%以上的精准度,远超其他领域的方法。这种高度的准确性对于诸如Gmail、Drive和Safe Browsing等应用非常关键,因为文件需要被传送到适当的安全和内容策略扫描器进行检测。
在推理时间方面,Magika展现出出色的效率,加载模型后每个文件的推理时间约为五毫秒。此外,Magika支持批处理,使用户能够同时处理多个文件,加速整个检测过程。值得注意的是,推理时间几乎保持恒定,无论文件大小如何,因为Magika智能地使用文件字节的有限子集。
Magika采用了一种基于内容类型的阈值系统,确保预测结果是可靠的。如果需要,当置信水平较低时,该工具可以返回一个通用标签,例如“通用文本文档”或“未知二进制数据”。Magika提供三种不同容错率的预测模式:高置信度、中置信度和最佳猜测。
Magika是一种强大且开源的文件类型检测解决方案。其多功能性使其成为提升用户安全和信息保护的重要工具。尽管已经超越了现有方法,但Magika团队承认仍有改进的空间,并鼓励社区提供反馈,以进一步增强对其他内容类型的支持。