土豆：可解释的信息提取框架

论文标题

土豆：可解释的信息提取框架

POTATO: exPlainable infOrmation exTrAcTion framewOrk

论文作者

Kovács, Ádám, Gémes, Kinga, Iklódi, Eszter, Recski, Gábor

论文摘要

我们展示了使用基于图形的特征对基于规则的文本分类器学习人类（HITL）学习的任务和语言独立的框架。马铃薯处理任何类型的有向图，并支持分析文本为抽象含义表示（AMR），通用依赖项（UD）和4Lang语义图。基于简化的用户界面允许用户从图形模式构建规则系统，根据地面真实数据提供实时评估，并通过使用可解释的机器学习模型对图形特征进行排名来提出规则。用户还可以使用正则表达式提供图案，而马铃薯可以推荐此类规则的改进。马铃薯应用于跨域和语言的项目中，包括关于德国法律文本和英语社交媒体数据的分类任务。我们系统的所有组件均用Python编写，可以通过PIP安装，并在GitHub上的MIT许可下发布。

We present POTATO, a task- and languageindependent framework for human-in-the-loop (HITL) learning of rule-based text classifiers using graph-based features. POTATO handles any type of directed graph and supports parsing text into Abstract Meaning Representations (AMR), Universal Dependencies (UD), and 4lang semantic graphs. A streamlit-based user interface allows users to build rule systems from graph patterns, provides real-time evaluation based on ground truth data, and suggests rules by ranking graph features using interpretable machine learning models. Users can also provide patterns over graphs using regular expressions, and POTATO can recommend refinements of such rules. POTATO is applied in projects across domains and languages, including classification tasks on German legal text and English social media data. All components of our system are written in Python, can be installed via pip, and are released under an MIT License on GitHub.

下载PDF全文

下载文献需遵守相关版权规定

论文标题