MinerU

Paused

App Files Files Community

SkyNait commited on Feb 20

Commit

dbd3d89

1 Parent(s): b529b1d

fix aws

Browse files

Files changed (1) hide show

mineru_single.py +14 -13

mineru_single.py CHANGED Viewed

@@ -30,22 +30,22 @@ class Processor:
                 endpoint_url=os.getenv("S3_ENDPOINT"),
             )
-            self.svm_model = SVMModel()
-            logger.info("Classification model initialized successfully")
             with open("/home/user/magic-pdf.json", "r") as f:
                 config = json.load(f)
-            self.layout_mode = "doclayout_yolo"
-            # self.layout_mode = config["layout-config"]["model"]
             self.formula_enable = config["formula-config"]["enable"]
             self.table_enable = config["table-config"]["enable"]
             self.language = "en"
             endpoint = os.getenv("S3_ENDPOINT", "").rstrip("/")
             bucket = os.getenv("S3_BUCKET_NAME", "")
-            self.prefix = f"{endpoint}/{bucket}/document-extracts/"
             logger.info("Processor initialized successfully")
         except Exception as e:
@@ -92,7 +92,7 @@ class Processor:
             logger.info("doc_analyze complete for key='%s'. Started extracting images...", key)
             # Classify images and remove irrelevant ones
-            image_writer = ImageWriter(self.s3_writer, self.svm_model)
             pipe_result = inference.pipe_ocr_mode(image_writer, lang=self.language)
             logger.info("OCR pipeline completed for key='%s'.", key)
@@ -109,21 +109,22 @@ class ImageWriter(DataWriter):
     Receives each extracted image. Classifies it, uploads if relevant, or flags
     it for removal if irrelevant.
     """
-    def __init__(self, s3_writer: S3Writer, svm_model: SVMModel):
         self.s3_writer = s3_writer
-        self.svm_model = svm_model
         self._redundant_images_paths = []
     def write(self, path: str, data: bytes) -> None:
         """
         Called for each extracted image. If relevant, upload to S3; otherwise mark for removal.
         """
-        label_str = self.svm_model.classify_image(data)
-        if label_str == 1:
-            self.s3_writer.write(path, data)
-        else:
-            self._redundant_images_paths.append(path)
     def remove_redundant_images(self, md_content: str) -> str:
         for path in self._redundant_images_paths:

                 endpoint_url=os.getenv("S3_ENDPOINT"),
             )
+            # self.svm_model = SVMModel()
+            # logger.info("Classification model initialized successfully")
             with open("/home/user/magic-pdf.json", "r") as f:
                 config = json.load(f)
+            # self.layout_mode = "doclayout_yolo"
+            self.layout_mode = config["layout-config"]["model"]
             self.formula_enable = config["formula-config"]["enable"]
             self.table_enable = config["table-config"]["enable"]
             self.language = "en"
             endpoint = os.getenv("S3_ENDPOINT", "").rstrip("/")
             bucket = os.getenv("S3_BUCKET_NAME", "")
+            self.prefix = f"/document-extracts/"
             logger.info("Processor initialized successfully")
         except Exception as e:
             logger.info("doc_analyze complete for key='%s'. Started extracting images...", key)
             # Classify images and remove irrelevant ones
+            image_writer = ImageWriter(self.s3_writer)
             pipe_result = inference.pipe_ocr_mode(image_writer, lang=self.language)
             logger.info("OCR pipeline completed for key='%s'.", key)
     Receives each extracted image. Classifies it, uploads if relevant, or flags
     it for removal if irrelevant.
     """
+    def __init__(self, s3_writer: S3Writer):
         self.s3_writer = s3_writer
+        # self.svm_model = svm_model
         self._redundant_images_paths = []
     def write(self, path: str, data: bytes) -> None:
         """
         Called for each extracted image. If relevant, upload to S3; otherwise mark for removal.
         """
+        self.s3_writer.write(path, data)
+        # label_str = self.svm_model.classify_image(data)
+        # if label_str == 1:
+        # else:
+        #     self._redundant_images_paths.append(path)
     def remove_redundant_images(self, md_content: str) -> str:
         for path in self._redundant_images_paths: