java source code of ExtractColorText

Project: testarea-pdfbox2 (GitHub Link)

testarea-pdfbox2-master
- src
  - main
    - java
      - mkl
        testarea
        pdfbox2
        sign
        VisibleSignature.java
        merge
        PdfVeryDenseMergeTool.java
        PageVerticalAnalyzer.java
        PdfDenseMergeTool.java
        content
        PdfContentStreamEditor.java
        HelloSignManipulator.java
        HelloSignAnalyzer.java
        form
        AcroFormPopulator.java
        analyze
        Path.java
        ClipPathFinder.java
        extract
        TextPositionSequence.java
        BoundingBoxFinder.java
        ColorTextStripper.java
        PDFVisibleTextStripper.java
        TextSection.java
        SimpleXObjectTextStripper.java
        PdfToTextInfoConverter.java
        TextSectionDefinition.java
        PdfBoxFinder.java
        PDFTextSectionStripper.java
        split
        CustomSplitter.java
  - test
    - resources
      - mkl
        testarea
        pdfbox2
        sign
        merge
        content
        Willi-1.jpg
        render
        form
        analyze
        annotate
        extract
        Variables.docx
        meta
    - java
      - mkl
        testarea
        pdfbox2
        sign
        CreateMultipleVisualizations.java
        ValidateSignature.java
        DeferSigning.java
        CalculateDigest.java
        CreateSignature.java
        TestEmptySignatureField.java
        CreateUnsignablePdf.java
        SecurityThesisValidation.java
        merge
        MergeDocuments.java
        OverlayDocuments.java
        OptimizeAfterMerge.java
        CopyPages.java
        DenseMerging.java
        boxable
        NestedHtmlInCell.java
        content
        RotatePageContent.java
        AddImageSaveIncremental.java
        PlayWithHelloSign.java
        JoinPages.java
        PlaceRotatedImage.java
        CurvedBorderRectangle.java
        AddSpecialCharacterWithoutEmbedding.java
        DrawImage.java
        BreakLongString.java
        RectanglesOverText.java
        EditPageContent.java
        ArrangeText.java
        AddTextWithDynamicFonts.java
        ShowSpecialGlyph.java
        TextAndGraphics.java
        AddContentToOCG.java
        AddImage.java
        RotatedTextOnLine.java
        UseSoftMask.java
        render
        RenderPage.java
        RenderType3Character.java
        form
        FillAndFlatten.java
        SetRichText.java
        AddFormField.java
        ReadForm.java
        RightAlignField.java
        FillInForm.java
        ReadXfaForm.java
        FormStability.java
        CreateImageButton.java
        ShowFormFieldNames.java
        RemoveField.java
        FlattenForm.java
        CheckImageFieldFilled.java
        AddFormFieldSaveIncremental.java
        FillInFormSaveIncremental.java
        CopyForm.java
        FillImageField.java
        DetermineWidgetPage.java
        DuplicateFields.java
        ListFormFields.java
        CreateCheckBox.java
        FlattenAndMerge.java
        easytable
        RepeatingTableHeaders.java
        analyze
        TestGraphicsCounter.java
        TestClipPathFinder.java
        annotate
        AddLink.java
        RemoveStrikeoutComment.java
        pdf2dom
        ExtractText.java
        extract
        ExtractWordCoordinates.java
        ExtractText.java
        ExtractBoxedText.java
        DetermineTextAndBackgroundColors.java
        CompareText.java
        ExtractLinesWithDir.java
        ExtractImages.java
        ExtractTextSections.java
        ExtractColorText.java
        CoverCharacterByImage.java
        DetermineBoundingBox.java
        ExtractCharacterCodes.java
        ExtractMarkedContent.java
        ExtractVisibleText.java
        SearchSubword.java
        ExtractAppearanceText.java
        VisualizeMarkedContent.java
        ExtractImageLocations.java
        meta
        OpenAndSaveFile.java
        OpenFile.java
        RebuildParentTreeFromStructure.java
        ScalePages.java
        SetCropBox.java
        CreateSpecialEntities.java
        DecryptRC4.java
        CreatePortableCollection.java
        split
        TestCustomSplitter.java
- pom.xml
- LICENSE
- keystores
  - demo-rsa2048.txt
  - demo-rsa2048.p12
  - demo-rsa2048.ks
- README.md
- .gitignore

package mkl.testarea.pdfbox2.extract;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.nio.file.Files;

import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.junit.BeforeClass;
import org.junit.Test;

/**
 * @author mkl
 */
public class ExtractColorText {
    final static File RESULT_FOLDER = new File("target/test-outputs", "extract");

    @BeforeClass
    public static void setUpBeforeClass() throws Exception {
        RESULT_FOLDER.mkdirs();
    }

    /**
     * <a href="https://stackoverflow.com/questions/59031734/get-text-color-in-pdfbox">
     * Get text color in PDFBox
     * </a>
     * <p>
     * This test has already been executed for the original color text stripper class from my answer to
     * <a href="https://stackoverflow.com/questions/21430341/identifying-the-text-based-on-the-output-in-pdf-using-pdfbox">
     * Identifying the text based on the output in PDF using PDFBOX
     * </a>
     * </p>
     * 
     * @throws IOException
     */
    @Test
    public void testExtractFromFurzoSample() throws IOException {
        try (   InputStream resource = getClass().getResourceAsStream("furzo Sample.pdf");
                PDDocument document = Loader.loadPDF(resource) ) {
            PDFTextStripper stripper = new ColorTextStripper();
            String text = stripper.getText(document);

            Files.write(new File(RESULT_FOLDER, "furzo Sample.txt").toPath(), text.getBytes("UTF-8"));

            System.out.println("/// furzo Sample.pdf ///");
            System.out.println("Stripped text with color:");
            System.out.println(">>>");
            System.out.println(text);
            System.out.println("<<<");
        }
    }
}